Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto

Detalhes bibliográficos
Autor(a) principal: Sales, Alisson Mariano de
Data de Publicação: 2017
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/12524
Resumo: O advento das áreas de Inteligência Artificial tem proporcionado o avanço e a criação de soluções aplicadas às mais diversas áreas. Com o Processamento de Linguagem Natural isso não está sendo diferente, nos últimos cinco anos as pesquisas sobre os algoritmos de representação vetorial e captura semântica das palavras obtiveram grandes resultados. Chamados também de word embeddings, esses algoritmos agregam benefícios que métodos anteriores não disponibilizavam. Visando a necessidade de maior estudo sobre esses novos algoritmos, como Skip-Gram, Glove e CBOW e, ao mesmo tempo, observando a importância da automatização de simplificação léxica em benefício de pessoas em aprendizagem do português, disléxicos, portadores de afasia, entre outros, desenvolveu-se neste trabalho um simplificador léxico utilizando-se dessas representações. Esse simplificador utilizou-se também de Rede Neural Artificial e alguns dicionários para criar simplificações. Nos experimentos realizados, gerou-se três contribuições, sendo elas: um simplificador capaz de auxiliar um falante proficiente no processo de simplificação léxica, uma estrutura de rede neural com tendência ao aprendizado automatizado e a comparação extrínseca dos algoritmos. Como melhor algoritmo, nas observações realizadas, o Wang2vec CBOW obteve os melhores resultados para a atividade de simplificação léxica.
id UTFPR-12_727f0a7dd1cdf77cf2c575be44b48c38
oai_identifier_str oai:repositorio.utfpr.edu.br:1/12524
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-16T13:09:48Z2020-11-16T13:09:48Z2017-11-23SALES, Alisson Mariano de. Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto. 2017. 67 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2017.http://repositorio.utfpr.edu.br/jspui/handle/1/12524O advento das áreas de Inteligência Artificial tem proporcionado o avanço e a criação de soluções aplicadas às mais diversas áreas. Com o Processamento de Linguagem Natural isso não está sendo diferente, nos últimos cinco anos as pesquisas sobre os algoritmos de representação vetorial e captura semântica das palavras obtiveram grandes resultados. Chamados também de word embeddings, esses algoritmos agregam benefícios que métodos anteriores não disponibilizavam. Visando a necessidade de maior estudo sobre esses novos algoritmos, como Skip-Gram, Glove e CBOW e, ao mesmo tempo, observando a importância da automatização de simplificação léxica em benefício de pessoas em aprendizagem do português, disléxicos, portadores de afasia, entre outros, desenvolveu-se neste trabalho um simplificador léxico utilizando-se dessas representações. Esse simplificador utilizou-se também de Rede Neural Artificial e alguns dicionários para criar simplificações. Nos experimentos realizados, gerou-se três contribuições, sendo elas: um simplificador capaz de auxiliar um falante proficiente no processo de simplificação léxica, uma estrutura de rede neural com tendência ao aprendizado automatizado e a comparação extrínseca dos algoritmos. Como melhor algoritmo, nas observações realizadas, o Wang2vec CBOW obteve os melhores resultados para a atividade de simplificação léxica.The advent of Artificial Intelligence has provided the advance and the creation of solutions applied to the most diverse areas. Within Natural Language Processing this has not been different, in the last five years, the studies of algorithms for vector representation and semantic retrieval of words have shown great advances. Also called word embeddings, these algorithms add benefits that earlier methods did not provide. Aiming at the need to further study these new algorithms, such as Skip-Gram, Glove and CBOW, and at the same time, noting the importance of the automation of lexical simplification for the benefit of Portuguese learners, dyslexics, aphasia, among others, this work proposes the development of a lexical simplifier using these representations. This simplifier also used a Artificial Neural Network and some dictionaries to create simplifications. There were three main contributions observed in the experiments carried out: a simplifier capable of assisting a proficient speaker in the lexical simplification process, an artificial neural network structure with a tendency to automated learning and the extrinsic comparison of the algorithms. The algorithm Wang2vec Continuous Bag-of-Words performed the best results for the lexical simplification activity during this work’s experiments.porUniversidade Tecnológica Federal do ParanáMedianeiraGraduação em Ciências da ComputaçãoUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComputação semânticaProcessamento de linguagem natural (Computação)Inteligência artificialSemantic computingNatural language processing (Computer science)Artificial intelligenceComparação extrínseca de algoritmos de word embedding na simplificação léxica de textoExtrinsic comparison of word embedding algorithms in text lexical simplificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisMedianeiraCandido Junior, ArnaldoGavioli, AlanCandido Junior, ArnaldoAikes Junior, JorgeSales, Alisson Mariano deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALcomparaçãoalgoritmoswordembedding.pdfapplication/pdf1558852http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/1/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf10319ee86d0031097c5078c92032e6fdMD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTcomparaçãoalgoritmoswordembedding.pdf.txtExtracted texttext/plain123917http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/3/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.txte936dfafe677a4affff36af75adeeaf3MD53THUMBNAILcomparaçãoalgoritmoswordembedding.pdf.jpgGenerated Thumbnailimage/jpeg1233http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/4/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.jpg4c326cb8f7deda37706b79a21545b81dMD541/125242020-11-16 11:09:48.892oai:repositorio.utfpr.edu.br:1/12524TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-16T13:09:48Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
dc.title.alternative.pt_BR.fl_str_mv Extrinsic comparison of word embedding algorithms in text lexical simplification
title Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
spellingShingle Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
Sales, Alisson Mariano de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação semântica
Processamento de linguagem natural (Computação)
Inteligência artificial
Semantic computing
Natural language processing (Computer science)
Artificial intelligence
title_short Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
title_full Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
title_fullStr Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
title_full_unstemmed Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
title_sort Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
author Sales, Alisson Mariano de
author_facet Sales, Alisson Mariano de
author_role author
dc.contributor.advisor1.fl_str_mv Candido Junior, Arnaldo
dc.contributor.referee1.fl_str_mv Gavioli, Alan
dc.contributor.referee2.fl_str_mv Candido Junior, Arnaldo
dc.contributor.referee3.fl_str_mv Aikes Junior, Jorge
dc.contributor.author.fl_str_mv Sales, Alisson Mariano de
contributor_str_mv Candido Junior, Arnaldo
Gavioli, Alan
Candido Junior, Arnaldo
Aikes Junior, Jorge
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação semântica
Processamento de linguagem natural (Computação)
Inteligência artificial
Semantic computing
Natural language processing (Computer science)
Artificial intelligence
dc.subject.por.fl_str_mv Computação semântica
Processamento de linguagem natural (Computação)
Inteligência artificial
Semantic computing
Natural language processing (Computer science)
Artificial intelligence
description O advento das áreas de Inteligência Artificial tem proporcionado o avanço e a criação de soluções aplicadas às mais diversas áreas. Com o Processamento de Linguagem Natural isso não está sendo diferente, nos últimos cinco anos as pesquisas sobre os algoritmos de representação vetorial e captura semântica das palavras obtiveram grandes resultados. Chamados também de word embeddings, esses algoritmos agregam benefícios que métodos anteriores não disponibilizavam. Visando a necessidade de maior estudo sobre esses novos algoritmos, como Skip-Gram, Glove e CBOW e, ao mesmo tempo, observando a importância da automatização de simplificação léxica em benefício de pessoas em aprendizagem do português, disléxicos, portadores de afasia, entre outros, desenvolveu-se neste trabalho um simplificador léxico utilizando-se dessas representações. Esse simplificador utilizou-se também de Rede Neural Artificial e alguns dicionários para criar simplificações. Nos experimentos realizados, gerou-se três contribuições, sendo elas: um simplificador capaz de auxiliar um falante proficiente no processo de simplificação léxica, uma estrutura de rede neural com tendência ao aprendizado automatizado e a comparação extrínseca dos algoritmos. Como melhor algoritmo, nas observações realizadas, o Wang2vec CBOW obteve os melhores resultados para a atividade de simplificação léxica.
publishDate 2017
dc.date.issued.fl_str_mv 2017-11-23
dc.date.accessioned.fl_str_mv 2020-11-16T13:09:48Z
dc.date.available.fl_str_mv 2020-11-16T13:09:48Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SALES, Alisson Mariano de. Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto. 2017. 67 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2017.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/12524
identifier_str_mv SALES, Alisson Mariano de. Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto. 2017. 67 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2017.
url http://repositorio.utfpr.edu.br/jspui/handle/1/12524
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Medianeira
dc.publisher.program.fl_str_mv Graduação em Ciências da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Medianeira
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/1/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/3/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/4/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.jpg
bitstream.checksum.fl_str_mv 10319ee86d0031097c5078c92032e6fd
b9d82215ab23456fa2d8b49c5df1b95b
e936dfafe677a4affff36af75adeeaf3
4c326cb8f7deda37706b79a21545b81d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1797043858760007680