Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFOP |
Texto Completo: | http://www.repositorio.ufop.br/handle/123456789/13102 |
Resumo: | Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. |
id |
UFOP_c0b5a38a67acfb6b69c60ac13837ee73 |
---|---|
oai_identifier_str |
oai:localhost:123456789/13102 |
network_acronym_str |
UFOP |
network_name_str |
Repositório Institucional da UFOP |
repository_id_str |
3233 |
spelling |
Januario, Isaias FrederickPereira Junior, Álvaro RodriguesBianchi, Andrea Gomes CamposLopes, LucelenePereira Junior, Álvaro Rodrigues2021-02-11T17:13:11Z2021-02-11T17:13:11Z2020JANUARIO, Isaias Frederick. Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. 2020. 132 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2020.http://www.repositorio.ufop.br/handle/123456789/13102Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.A substituição lexical permeia diferentes atividades inerentes às áreas do Processamento de Linguagem Natural, como a simplificação de texto e expansão de consultas. A substituição tem sido explorada amplamente na literatura apresentando frequente evolução, principalmente quanto às fontes de dados utilizadas para a geração de potenciais substitutos que alimentam o processo. Naturalmente, dicionários têm sido constantemente usados por agruparem conjuntos de sinônimos em sua estrutura. Entretanto, o caráter polissêmico das palavras inviabiliza a troca direta de uma determinada palavra por qualquer sinônimo a ela associado no dicionário, já que a troca requer a análise completa do contexto. Em outro nicho de fontes, os modelos de espaço vetorial, tais como os embeddings, são utilizados para representar os termos a partir de seus contextos de aplicação. Em contrapartida, representar as palavras considerando fatores meramente contextuais, em muitos casos, dá margem para uma aproximação de termos no espaço mesmo não sendo sinônimos. Portanto, as deficiências mencionadas sugerem a junção de bases anotadas e embeddings como alternativa promissora para ganhos de resultados na tarefa de substituição. Assim, apresentamos um método de substituição utilizando informações contidas em dicionários combinados − como as relações linguísticas estruturadas em taxonomias − para coleta de potenciais sinônimos. Nosso método mensura a preservação do significado da sentença modificada focando um escopo restrito da sentença original. Consideramos também o contexto completo para apoiar o processo de desambiguação extraindo aspectos como coocorrência de termos para alimentar operações vetoriais nos modelos com a intenção de destacar os melhores sinônimos em um conjunto previamente selecionado. Nosso método superou uma ampla gama de trabalhos conhecidos na literatura na predição do melhor substituto de palavras contidas em frases de uma consolidada base de experimentação.Lexical substitution is involved with different areas of Natural Language Processing, such as text simplification and query expansion. Substitution has been studied extensively in the literature, with frequent evolution, mainly in the sources of potential substitutes that are input to the process. Of course, dictionaries have been used for grouping synonyms in their structure. However, the polysemic aspect of words makes it difficult to directly exchange a word for any synonym linked to it in the dictionary, since the exchange requires detailed analysis of the context. In another category of sources, vector space models, such as embeddings, are used to represent terms from their application contexts. On the other hand, representing words considering purely contextual factors, in many cases, allows an approximation of terms in space even though they are not synonymous. Therefore, the mentioned problems suggest the joining of annotated bases and embeddings as a promising alternative for improving results. Thus, we present a substitution method using information contained in combined dictionaries − as the linguistic relations structured in taxonomies − to collect potential synonyms. Our method measures the preservation of the meaning of the modified sentence by focusing on a reduced scope of the original sentence. We also consider the entire context to help the disambiguation process by extracting aspects such as the co-occurrence of terms to feed vector operations in the models, aiming to highlight the best synonyms in a previously selected set. Our method surpassed an wide group of works in the literature in predicting the best substitute for words included in sentences from a well-known benchmark.Autorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 01/02/2021 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho, desde que sejam citados o autor e o licenciante.info:eu-repo/semantics/openAccessProcessamento de linguagem natural - computaçãoBanco de dadosEspaços vetoriaisUm método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings.info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFOPinstname:Universidade Federal de Ouro Preto (UFOP)instacron:UFOPLICENSElicense.txtlicense.txttext/plain; charset=utf-8924http://www.repositorio.ufop.br/bitstream/123456789/13102/5/license.txt62604f8d955274beb56c80ce1ee5dcaeMD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-843http://www.repositorio.ufop.br/bitstream/123456789/13102/2/license_url321f3992dd3875151d8801b773ab32edMD52license_textlicense_texttext/html; charset=utf-80http://www.repositorio.ufop.br/bitstream/123456789/13102/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://www.repositorio.ufop.br/bitstream/123456789/13102/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54ORIGINALDISSERTAÇÃO_MetodologiaDesambiguaçãoSentido.pdfDISSERTAÇÃO_MetodologiaDesambiguaçãoSentido.pdfapplication/pdf1653925http://www.repositorio.ufop.br/bitstream/123456789/13102/1/DISSERTA%c3%87%c3%83O_MetodologiaDesambigua%c3%a7%c3%a3oSentido.pdf08da58ba5c85ea22da9a3af66e75316dMD51123456789/131022021-02-11 12:13:11.207oai:localhost:123456789/13102RGVjbGFyYcOnw6NvIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhCgpPIHJlZmVyaWRvIGF1dG9yOgoKYSlEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBwZXNzb2Egb3UgZW50aWRhZGUuCgpiKVNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCBuw6NvIGRldMOpbSBvcyBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGF1dG9yaXphw6fDo28gZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgT3VybyBQcmV0by9VRk9QIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EgZSBxdWUgZXNzZSBtYXRlcmlhbCwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MsIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpjKVNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIGJhc2VhZG8gZW0gdHJhYmFsaG8gZmluYW5jaWFkbyBvdSBhcG9pYWRvIHBvciBvdXRyYSBpbnN0aXR1acOnw6NvIHF1ZSBuw6NvIGEgVUZPUCwgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gY29udHJhdG8gb3UgYWNvcmRvLgoKRepositório InstitucionalPUBhttp://www.repositorio.ufop.br/oai/requestrepositorio@ufop.edu.bropendoar:32332021-02-11T17:13:11Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP)false |
dc.title.pt_BR.fl_str_mv |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. |
title |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. |
spellingShingle |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. Januario, Isaias Frederick Processamento de linguagem natural - computação Banco de dados Espaços vetoriais |
title_short |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. |
title_full |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. |
title_fullStr |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. |
title_full_unstemmed |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. |
title_sort |
Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. |
author |
Januario, Isaias Frederick |
author_facet |
Januario, Isaias Frederick |
author_role |
author |
dc.contributor.referee.pt_BR.fl_str_mv |
Pereira Junior, Álvaro Rodrigues Bianchi, Andrea Gomes Campos Lopes, Lucelene |
dc.contributor.author.fl_str_mv |
Januario, Isaias Frederick |
dc.contributor.advisor1.fl_str_mv |
Pereira Junior, Álvaro Rodrigues |
contributor_str_mv |
Pereira Junior, Álvaro Rodrigues |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural - computação Banco de dados Espaços vetoriais |
topic |
Processamento de linguagem natural - computação Banco de dados Espaços vetoriais |
description |
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020 |
dc.date.accessioned.fl_str_mv |
2021-02-11T17:13:11Z |
dc.date.available.fl_str_mv |
2021-02-11T17:13:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
JANUARIO, Isaias Frederick. Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. 2020. 132 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2020. |
dc.identifier.uri.fl_str_mv |
http://www.repositorio.ufop.br/handle/123456789/13102 |
identifier_str_mv |
JANUARIO, Isaias Frederick. Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. 2020. 132 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2020. |
url |
http://www.repositorio.ufop.br/handle/123456789/13102 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFOP instname:Universidade Federal de Ouro Preto (UFOP) instacron:UFOP |
instname_str |
Universidade Federal de Ouro Preto (UFOP) |
instacron_str |
UFOP |
institution |
UFOP |
reponame_str |
Repositório Institucional da UFOP |
collection |
Repositório Institucional da UFOP |
bitstream.url.fl_str_mv |
http://www.repositorio.ufop.br/bitstream/123456789/13102/5/license.txt http://www.repositorio.ufop.br/bitstream/123456789/13102/2/license_url http://www.repositorio.ufop.br/bitstream/123456789/13102/3/license_text http://www.repositorio.ufop.br/bitstream/123456789/13102/4/license_rdf http://www.repositorio.ufop.br/bitstream/123456789/13102/1/DISSERTA%c3%87%c3%83O_MetodologiaDesambigua%c3%a7%c3%a3oSentido.pdf |
bitstream.checksum.fl_str_mv |
62604f8d955274beb56c80ce1ee5dcae 321f3992dd3875151d8801b773ab32ed d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e 08da58ba5c85ea22da9a3af66e75316d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFOP - Universidade Federal de Ouro Preto (UFOP) |
repository.mail.fl_str_mv |
repositorio@ufop.edu.br |
_version_ |
1801685794429075456 |