Fundamentals in natural language processing: a proposal for extraction bigrams
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Encontros Bibli |
Texto Completo: | https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1 |
Resumo: | It is common sense that the written text is an important way of to register information and currently much of this information content is available in digital form. However, in general, the computers consider a text is a string that have not significance. The area of Natural Language Processing (PLN) has been engaged in extracting meaning from text. Accordingly this paper presents a review of this issue and proposes an automated method that uses a deterministic heuristic called Heudet which aims extract bigram of the text. The goal is to extract the meaning of the text identifing a set of multiword expressions (MWE). The results were better compared to those using up the techniques of statistical association measures obtained from the software ngram Statistics Package (NSP). |
id |
UFSC-29_a386ba42838c4904c9d298139de7fc2e |
---|---|
oai_identifier_str |
oai:periodicos.ufsc.br:article/29075 |
network_acronym_str |
UFSC-29 |
network_name_str |
Encontros Bibli |
repository_id_str |
|
spelling |
Fundamentals in natural language processing: a proposal for extraction bigramsFundamentos em processamento de linguagem natural: uma proposta para extração de bigramasExtração de expressões multipalavrasMedidas de associação estatísticasHeudet Multiword expression extractionMeasures of association statisticsHeudetIt is common sense that the written text is an important way of to register information and currently much of this information content is available in digital form. However, in general, the computers consider a text is a string that have not significance. The area of Natural Language Processing (PLN) has been engaged in extracting meaning from text. Accordingly this paper presents a review of this issue and proposes an automated method that uses a deterministic heuristic called Heudet which aims extract bigram of the text. The goal is to extract the meaning of the text identifing a set of multiword expressions (MWE). The results were better compared to those using up the techniques of statistical association measures obtained from the software ngram Statistics Package (NSP).Ë senso comum que o texto escrito é uma importante forma de registrar as informações e que atualmente grande parte desse conteúdo informacional está disponível em meio digital. Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural (PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é extrair o significado do texto através de um conjunto de expressões multipalavras identificadas. Os resultados obtidos foram melhores se comparados com aqueles que utilizam-se das técnicas de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).Departamento de Ciência da Informação – UFSC2014-08-02info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionpesquisa empíricaapplication/pdfhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p110.5007/1518-2924.2014v19n40p1Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 19 No. 40 (2014); 1-32Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 19 Núm. 40 (2014); 1-32Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 19 n. 40 (2014); 1-321518-2924reponame:Encontros Bibliinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCporhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1/27573Copyright (c) 2014 Edson Marchetti da Silva, Renato Rocha Souzahttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSilva, Edson Marchetti daSouza, Renato Rocha2023-06-13T13:09:31Zoai:periodicos.ufsc.br:article/29075Revistahttps://periodicos.ufsc.br/index.php/eb/indexPUBhttps://periodicos.ufsc.br/index.php/eb/oaiencontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br1518-29241518-2924opendoar:2023-06-13T13:09:31Encontros Bibli - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.none.fl_str_mv |
Fundamentals in natural language processing: a proposal for extraction bigrams Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas |
title |
Fundamentals in natural language processing: a proposal for extraction bigrams |
spellingShingle |
Fundamentals in natural language processing: a proposal for extraction bigrams Silva, Edson Marchetti da Extração de expressões multipalavras Medidas de associação estatísticas Heudet Multiword expression extraction Measures of association statistics Heudet |
title_short |
Fundamentals in natural language processing: a proposal for extraction bigrams |
title_full |
Fundamentals in natural language processing: a proposal for extraction bigrams |
title_fullStr |
Fundamentals in natural language processing: a proposal for extraction bigrams |
title_full_unstemmed |
Fundamentals in natural language processing: a proposal for extraction bigrams |
title_sort |
Fundamentals in natural language processing: a proposal for extraction bigrams |
author |
Silva, Edson Marchetti da |
author_facet |
Silva, Edson Marchetti da Souza, Renato Rocha |
author_role |
author |
author2 |
Souza, Renato Rocha |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Silva, Edson Marchetti da Souza, Renato Rocha |
dc.subject.por.fl_str_mv |
Extração de expressões multipalavras Medidas de associação estatísticas Heudet Multiword expression extraction Measures of association statistics Heudet |
topic |
Extração de expressões multipalavras Medidas de associação estatísticas Heudet Multiword expression extraction Measures of association statistics Heudet |
description |
It is common sense that the written text is an important way of to register information and currently much of this information content is available in digital form. However, in general, the computers consider a text is a string that have not significance. The area of Natural Language Processing (PLN) has been engaged in extracting meaning from text. Accordingly this paper presents a review of this issue and proposes an automated method that uses a deterministic heuristic called Heudet which aims extract bigram of the text. The goal is to extract the meaning of the text identifing a set of multiword expressions (MWE). The results were better compared to those using up the techniques of statistical association measures obtained from the software ngram Statistics Package (NSP). |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-08-02 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion pesquisa empírica |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1 10.5007/1518-2924.2014v19n40p1 |
url |
https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1 |
identifier_str_mv |
10.5007/1518-2924.2014v19n40p1 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1/27573 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2014 Edson Marchetti da Silva, Renato Rocha Souza https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2014 Edson Marchetti da Silva, Renato Rocha Souza https://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Departamento de Ciência da Informação – UFSC |
publisher.none.fl_str_mv |
Departamento de Ciência da Informação – UFSC |
dc.source.none.fl_str_mv |
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 19 No. 40 (2014); 1-32 Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 19 Núm. 40 (2014); 1-32 Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 19 n. 40 (2014); 1-32 1518-2924 reponame:Encontros Bibli instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Encontros Bibli |
collection |
Encontros Bibli |
repository.name.fl_str_mv |
Encontros Bibli - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
encontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br |
_version_ |
1797067777045954560 |