Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/12524 |
Resumo: | O advento das áreas de Inteligência Artificial tem proporcionado o avanço e a criação de soluções aplicadas às mais diversas áreas. Com o Processamento de Linguagem Natural isso não está sendo diferente, nos últimos cinco anos as pesquisas sobre os algoritmos de representação vetorial e captura semântica das palavras obtiveram grandes resultados. Chamados também de word embeddings, esses algoritmos agregam benefícios que métodos anteriores não disponibilizavam. Visando a necessidade de maior estudo sobre esses novos algoritmos, como Skip-Gram, Glove e CBOW e, ao mesmo tempo, observando a importância da automatização de simplificação léxica em benefício de pessoas em aprendizagem do português, disléxicos, portadores de afasia, entre outros, desenvolveu-se neste trabalho um simplificador léxico utilizando-se dessas representações. Esse simplificador utilizou-se também de Rede Neural Artificial e alguns dicionários para criar simplificações. Nos experimentos realizados, gerou-se três contribuições, sendo elas: um simplificador capaz de auxiliar um falante proficiente no processo de simplificação léxica, uma estrutura de rede neural com tendência ao aprendizado automatizado e a comparação extrínseca dos algoritmos. Como melhor algoritmo, nas observações realizadas, o Wang2vec CBOW obteve os melhores resultados para a atividade de simplificação léxica. |
id |
UTFPR-12_727f0a7dd1cdf77cf2c575be44b48c38 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/12524 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2020-11-16T13:09:48Z2020-11-16T13:09:48Z2017-11-23SALES, Alisson Mariano de. Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto. 2017. 67 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2017.http://repositorio.utfpr.edu.br/jspui/handle/1/12524O advento das áreas de Inteligência Artificial tem proporcionado o avanço e a criação de soluções aplicadas às mais diversas áreas. Com o Processamento de Linguagem Natural isso não está sendo diferente, nos últimos cinco anos as pesquisas sobre os algoritmos de representação vetorial e captura semântica das palavras obtiveram grandes resultados. Chamados também de word embeddings, esses algoritmos agregam benefícios que métodos anteriores não disponibilizavam. Visando a necessidade de maior estudo sobre esses novos algoritmos, como Skip-Gram, Glove e CBOW e, ao mesmo tempo, observando a importância da automatização de simplificação léxica em benefício de pessoas em aprendizagem do português, disléxicos, portadores de afasia, entre outros, desenvolveu-se neste trabalho um simplificador léxico utilizando-se dessas representações. Esse simplificador utilizou-se também de Rede Neural Artificial e alguns dicionários para criar simplificações. Nos experimentos realizados, gerou-se três contribuições, sendo elas: um simplificador capaz de auxiliar um falante proficiente no processo de simplificação léxica, uma estrutura de rede neural com tendência ao aprendizado automatizado e a comparação extrínseca dos algoritmos. Como melhor algoritmo, nas observações realizadas, o Wang2vec CBOW obteve os melhores resultados para a atividade de simplificação léxica.The advent of Artificial Intelligence has provided the advance and the creation of solutions applied to the most diverse areas. Within Natural Language Processing this has not been different, in the last five years, the studies of algorithms for vector representation and semantic retrieval of words have shown great advances. Also called word embeddings, these algorithms add benefits that earlier methods did not provide. Aiming at the need to further study these new algorithms, such as Skip-Gram, Glove and CBOW, and at the same time, noting the importance of the automation of lexical simplification for the benefit of Portuguese learners, dyslexics, aphasia, among others, this work proposes the development of a lexical simplifier using these representations. This simplifier also used a Artificial Neural Network and some dictionaries to create simplifications. There were three main contributions observed in the experiments carried out: a simplifier capable of assisting a proficient speaker in the lexical simplification process, an artificial neural network structure with a tendency to automated learning and the extrinsic comparison of the algorithms. The algorithm Wang2vec Continuous Bag-of-Words performed the best results for the lexical simplification activity during this work’s experiments.porUniversidade Tecnológica Federal do ParanáMedianeiraGraduação em Ciências da ComputaçãoUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComputação semânticaProcessamento de linguagem natural (Computação)Inteligência artificialSemantic computingNatural language processing (Computer science)Artificial intelligenceComparação extrínseca de algoritmos de word embedding na simplificação léxica de textoExtrinsic comparison of word embedding algorithms in text lexical simplificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisMedianeiraCandido Junior, ArnaldoGavioli, AlanCandido Junior, ArnaldoAikes Junior, JorgeSales, Alisson Mariano deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALcomparaçãoalgoritmoswordembedding.pdfapplication/pdf1558852http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/1/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf10319ee86d0031097c5078c92032e6fdMD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTcomparaçãoalgoritmoswordembedding.pdf.txtExtracted texttext/plain123917http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/3/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.txte936dfafe677a4affff36af75adeeaf3MD53THUMBNAILcomparaçãoalgoritmoswordembedding.pdf.jpgGenerated Thumbnailimage/jpeg1233http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/4/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.jpg4c326cb8f7deda37706b79a21545b81dMD541/125242020-11-16 11:09:48.892oai:repositorio.utfpr.edu.br:1/12524TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-16T13:09:48Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
dc.title.alternative.pt_BR.fl_str_mv |
Extrinsic comparison of word embedding algorithms in text lexical simplification |
title |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
spellingShingle |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto Sales, Alisson Mariano de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação semântica Processamento de linguagem natural (Computação) Inteligência artificial Semantic computing Natural language processing (Computer science) Artificial intelligence |
title_short |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
title_full |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
title_fullStr |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
title_full_unstemmed |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
title_sort |
Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
author |
Sales, Alisson Mariano de |
author_facet |
Sales, Alisson Mariano de |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Candido Junior, Arnaldo |
dc.contributor.referee1.fl_str_mv |
Gavioli, Alan |
dc.contributor.referee2.fl_str_mv |
Candido Junior, Arnaldo |
dc.contributor.referee3.fl_str_mv |
Aikes Junior, Jorge |
dc.contributor.author.fl_str_mv |
Sales, Alisson Mariano de |
contributor_str_mv |
Candido Junior, Arnaldo Gavioli, Alan Candido Junior, Arnaldo Aikes Junior, Jorge |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação semântica Processamento de linguagem natural (Computação) Inteligência artificial Semantic computing Natural language processing (Computer science) Artificial intelligence |
dc.subject.por.fl_str_mv |
Computação semântica Processamento de linguagem natural (Computação) Inteligência artificial Semantic computing Natural language processing (Computer science) Artificial intelligence |
description |
O advento das áreas de Inteligência Artificial tem proporcionado o avanço e a criação de soluções aplicadas às mais diversas áreas. Com o Processamento de Linguagem Natural isso não está sendo diferente, nos últimos cinco anos as pesquisas sobre os algoritmos de representação vetorial e captura semântica das palavras obtiveram grandes resultados. Chamados também de word embeddings, esses algoritmos agregam benefícios que métodos anteriores não disponibilizavam. Visando a necessidade de maior estudo sobre esses novos algoritmos, como Skip-Gram, Glove e CBOW e, ao mesmo tempo, observando a importância da automatização de simplificação léxica em benefício de pessoas em aprendizagem do português, disléxicos, portadores de afasia, entre outros, desenvolveu-se neste trabalho um simplificador léxico utilizando-se dessas representações. Esse simplificador utilizou-se também de Rede Neural Artificial e alguns dicionários para criar simplificações. Nos experimentos realizados, gerou-se três contribuições, sendo elas: um simplificador capaz de auxiliar um falante proficiente no processo de simplificação léxica, uma estrutura de rede neural com tendência ao aprendizado automatizado e a comparação extrínseca dos algoritmos. Como melhor algoritmo, nas observações realizadas, o Wang2vec CBOW obteve os melhores resultados para a atividade de simplificação léxica. |
publishDate |
2017 |
dc.date.issued.fl_str_mv |
2017-11-23 |
dc.date.accessioned.fl_str_mv |
2020-11-16T13:09:48Z |
dc.date.available.fl_str_mv |
2020-11-16T13:09:48Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SALES, Alisson Mariano de. Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto. 2017. 67 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2017. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/12524 |
identifier_str_mv |
SALES, Alisson Mariano de. Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto. 2017. 67 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2017. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/12524 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Medianeira |
dc.publisher.program.fl_str_mv |
Graduação em Ciências da Computação |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Medianeira |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/1/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/3/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12524/4/compara%c3%a7%c3%a3oalgoritmoswordembedding.pdf.jpg |
bitstream.checksum.fl_str_mv |
10319ee86d0031097c5078c92032e6fd b9d82215ab23456fa2d8b49c5df1b95b e936dfafe677a4affff36af75adeeaf3 4c326cb8f7deda37706b79a21545b81d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805922918152011776 |