Fundamentals in natural language processing: a proposal for extraction bigrams

Detalhes bibliográficos
Autor(a) principal: Silva, Edson Marchetti da
Data de Publicação: 2014
Outros Autores: Souza, Renato Rocha
Tipo de documento: Artigo
Idioma: por
Título da fonte: Encontros Bibli
Texto Completo: https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1
Resumo: It is common sense that the written text is an important way of to register information and currently much of this information content is available in digital form. However, in general, the computers consider a text is a string that have not significance. The area of Natural Language Processing (PLN) has been engaged in extracting meaning from text. Accordingly this paper presents a review of this issue and proposes an automated method that uses a deterministic heuristic called Heudet which aims extract bigram of the text. The goal is to extract the meaning of the text identifing a set of multiword expressions (MWE). The results were better compared to those using up the techniques of statistical association measures obtained from the software ngram Statistics Package (NSP).
id UFSC-29_a386ba42838c4904c9d298139de7fc2e
oai_identifier_str oai:periodicos.ufsc.br:article/29075
network_acronym_str UFSC-29
network_name_str Encontros Bibli
repository_id_str
spelling Fundamentals in natural language processing: a proposal for extraction bigramsFundamentos em processamento de linguagem natural: uma proposta para extração de bigramasExtração de expressões multipalavrasMedidas de associação estatísticasHeudet Multiword expression extractionMeasures of association statisticsHeudetIt is common sense that the written text is an important way of to register information and currently much of this information content is available in digital form. However, in general, the computers consider a text is a string that have not significance. The area of Natural Language Processing (PLN) has been engaged in extracting meaning from text. Accordingly this paper presents a review of this issue and proposes an automated method that uses a deterministic heuristic called Heudet which aims extract bigram of the text. The goal is to extract the meaning of the text identifing a set of multiword expressions (MWE). The results were better compared to those using up the techniques of statistical association measures obtained from the software ngram Statistics Package (NSP).Ë senso comum que o texto escrito é uma importante forma de registrar as informações e que atualmente grande parte desse conteúdo informacional está disponível em meio digital. Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural (PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é extrair o significado do texto através de um conjunto de expressões multipalavras identificadas. Os resultados obtidos foram melhores se  comparados com aqueles que utilizam-se das técnicas de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).Departamento de Ciência da Informação – UFSC2014-08-02info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionpesquisa empíricaapplication/pdfhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p110.5007/1518-2924.2014v19n40p1Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 19 No. 40 (2014); 1-32Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 19 Núm. 40 (2014); 1-32Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 19 n. 40 (2014); 1-321518-2924reponame:Encontros Bibliinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCporhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1/27573Copyright (c) 2014 Edson Marchetti da Silva, Renato Rocha Souzahttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSilva, Edson Marchetti daSouza, Renato Rocha2023-06-13T13:09:31Zoai:periodicos.ufsc.br:article/29075Revistahttps://periodicos.ufsc.br/index.php/eb/indexPUBhttps://periodicos.ufsc.br/index.php/eb/oaiencontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br1518-29241518-2924opendoar:2023-06-13T13:09:31Encontros Bibli - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Fundamentals in natural language processing: a proposal for extraction bigrams
Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas
title Fundamentals in natural language processing: a proposal for extraction bigrams
spellingShingle Fundamentals in natural language processing: a proposal for extraction bigrams
Silva, Edson Marchetti da
Extração de expressões multipalavras
Medidas de associação estatísticas
Heudet
Multiword expression extraction
Measures of association statistics
Heudet
title_short Fundamentals in natural language processing: a proposal for extraction bigrams
title_full Fundamentals in natural language processing: a proposal for extraction bigrams
title_fullStr Fundamentals in natural language processing: a proposal for extraction bigrams
title_full_unstemmed Fundamentals in natural language processing: a proposal for extraction bigrams
title_sort Fundamentals in natural language processing: a proposal for extraction bigrams
author Silva, Edson Marchetti da
author_facet Silva, Edson Marchetti da
Souza, Renato Rocha
author_role author
author2 Souza, Renato Rocha
author2_role author
dc.contributor.author.fl_str_mv Silva, Edson Marchetti da
Souza, Renato Rocha
dc.subject.por.fl_str_mv Extração de expressões multipalavras
Medidas de associação estatísticas
Heudet
Multiword expression extraction
Measures of association statistics
Heudet
topic Extração de expressões multipalavras
Medidas de associação estatísticas
Heudet
Multiword expression extraction
Measures of association statistics
Heudet
description It is common sense that the written text is an important way of to register information and currently much of this information content is available in digital form. However, in general, the computers consider a text is a string that have not significance. The area of Natural Language Processing (PLN) has been engaged in extracting meaning from text. Accordingly this paper presents a review of this issue and proposes an automated method that uses a deterministic heuristic called Heudet which aims extract bigram of the text. The goal is to extract the meaning of the text identifing a set of multiword expressions (MWE). The results were better compared to those using up the techniques of statistical association measures obtained from the software ngram Statistics Package (NSP).
publishDate 2014
dc.date.none.fl_str_mv 2014-08-02
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
pesquisa empírica
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1
10.5007/1518-2924.2014v19n40p1
url https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1
identifier_str_mv 10.5007/1518-2924.2014v19n40p1
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1/27573
dc.rights.driver.fl_str_mv Copyright (c) 2014 Edson Marchetti da Silva, Renato Rocha Souza
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2014 Edson Marchetti da Silva, Renato Rocha Souza
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Departamento de Ciência da Informação – UFSC
publisher.none.fl_str_mv Departamento de Ciência da Informação – UFSC
dc.source.none.fl_str_mv Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 19 No. 40 (2014); 1-32
Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 19 Núm. 40 (2014); 1-32
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 19 n. 40 (2014); 1-32
1518-2924
reponame:Encontros Bibli
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Encontros Bibli
collection Encontros Bibli
repository.name.fl_str_mv Encontros Bibli - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv encontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br
_version_ 1797067777045954560