Estudo de modelos de word embedding

Detalhes bibliográficos
Autor(a) principal: Sousa, Samanta de
Data de Publicação: 2016
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/12522
Resumo: A área de Inteligência Artificial busca construir mecanismos que simulem a inteligência do ser humano de forma que os mesmos executem tarefas que os auxiliem. Tem-se o campo de estudo de Processamento de Língua Natural uma sub área de IA que busca compreender e gerar a língua natural, dessa forma o PLN ´e utilizado pela IA como um meio para aprimorar os mecanismos que utilizam da língua natural na sua execução, como escrita e produção de um texto, tradução, aprendizagem e ensino entre outros. A língua segue um formato não estruturado de difícil processamento pelo computador, como as variações morfológicas e sintáticas além da ambiguidade na língua natural que dificultam o processo de compreensão, dessa forma metodologias da área convertem tais informações de forma que a manipulação das mesmas pelo computador sejam mais fáceis. Dentre as representações de informações existentes a técnica deWord Embedding está em tendência atualmente no campo de PLN, onde as informações são representadas em vetores onde os seus valores são semelhantes quando as palavras são similares, ou seja, ´e uma representação que codifica as relações de similaridade entre as palavras além de possuir um custo computacional baixo. Dessa forma o objetivo do trabalho foi realizar um comparativo entre três modelos de Word Embeddings Cbow, Skipgram e Glove com a finalidade de identificar qual apresenta melhor desempenho na geração dos vetores de representação das palavras (embeddings). Primeiramente foi realizada a construção de um corpus utilizando a Wikipédia em sequência foi realizado o pré-processamento dessas informações para serem utilizadas como conjunto de treinamento, os modelos foram treinados utilizando scripts que forma criados utilizando as bibliotecas do Python Gensim e Glove, as avaliações dos embeddings foram feitas com as arquivos disponíveis por Pennington et al. (2014), onde em cada avaliação/teste feito os parâmetros eram modificados afim de verificar a sua influência no desempenho dos modelos. Algumas configurações específicas para execução do treinamento dos modelos foram identificadas e relatadas no trabalho, os resultados obtidos demonstraram que o Cbow foi o modelo que apresentou melhores desempenhos na maioria dos testes. Foi verificado que a técnica de Word Embeddings codifica razoavelmente bem as informações de similaridade entre as palavras mesmo com os valores dos parâmetros sendo pequenos se comparados com outros trabalhos.
id UTFPR-12_772ca5b09b9242a245557b9ec7a6a4b2
oai_identifier_str oai:repositorio.utfpr.edu.br:1/12522
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-16T13:09:45Z2020-11-16T13:09:45Z2016-11-16SOUSA, Samanta de. Estudo de modelos de word embedding. 2016. 53 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2016.http://repositorio.utfpr.edu.br/jspui/handle/1/12522A área de Inteligência Artificial busca construir mecanismos que simulem a inteligência do ser humano de forma que os mesmos executem tarefas que os auxiliem. Tem-se o campo de estudo de Processamento de Língua Natural uma sub área de IA que busca compreender e gerar a língua natural, dessa forma o PLN ´e utilizado pela IA como um meio para aprimorar os mecanismos que utilizam da língua natural na sua execução, como escrita e produção de um texto, tradução, aprendizagem e ensino entre outros. A língua segue um formato não estruturado de difícil processamento pelo computador, como as variações morfológicas e sintáticas além da ambiguidade na língua natural que dificultam o processo de compreensão, dessa forma metodologias da área convertem tais informações de forma que a manipulação das mesmas pelo computador sejam mais fáceis. Dentre as representações de informações existentes a técnica deWord Embedding está em tendência atualmente no campo de PLN, onde as informações são representadas em vetores onde os seus valores são semelhantes quando as palavras são similares, ou seja, ´e uma representação que codifica as relações de similaridade entre as palavras além de possuir um custo computacional baixo. Dessa forma o objetivo do trabalho foi realizar um comparativo entre três modelos de Word Embeddings Cbow, Skipgram e Glove com a finalidade de identificar qual apresenta melhor desempenho na geração dos vetores de representação das palavras (embeddings). Primeiramente foi realizada a construção de um corpus utilizando a Wikipédia em sequência foi realizado o pré-processamento dessas informações para serem utilizadas como conjunto de treinamento, os modelos foram treinados utilizando scripts que forma criados utilizando as bibliotecas do Python Gensim e Glove, as avaliações dos embeddings foram feitas com as arquivos disponíveis por Pennington et al. (2014), onde em cada avaliação/teste feito os parâmetros eram modificados afim de verificar a sua influência no desempenho dos modelos. Algumas configurações específicas para execução do treinamento dos modelos foram identificadas e relatadas no trabalho, os resultados obtidos demonstraram que o Cbow foi o modelo que apresentou melhores desempenhos na maioria dos testes. Foi verificado que a técnica de Word Embeddings codifica razoavelmente bem as informações de similaridade entre as palavras mesmo com os valores dos parâmetros sendo pequenos se comparados com outros trabalhos.The area of Artificial Intelligence seeks to construct mechanisms that simulate the intelligence of the Human beings so that they perform tasks that help them. There is the field of Natural Language Processing, an AI sub-area that seeks to understand and To generate the natural language, in this way the PLN is used by AI as a means to The mechanisms that use the natural language in its execution, such as writing and production Of a text, translation, learning and teaching among others. The language follows a format Not difficult to process by the computer, such as sd morphological variations and Syntactic as well as the ambiguity in the natural language that hinder the process of comprehension, In this way, area methodologies convert such information so that the manipulation Computer are easier. Among the information representations Existing Word Embedding technique is currently in the PLN field, where The information is represented in vectors where their values are similar when the Words are similar, that is, it is a representation that encodes similarity relations Between the words besides having a low computational cost. In this way the goal of Work was to carry out a comparison between three models ofWord Embeddings Cbow, Skip- Gram and Glove with the purpose of identifying which presents better performance in the generation of Vectors of representation of words (embeddings). First, construction was carried out Of a corpus using Wikipedia in sequence, the pre-processing of those corpus Information to be used as a training set, the models were trained Using scripts that are created using the Gensim and Glove Python libraries, the Embedding evaluations were done with the files available from Pennington et al. (2014), where in each evaluation / test the parameters were modified in order to verify the Their influence on the performance of models. Some specific settings for running Of the training of the models were identified and reported in the study, the results obtained Demonstrated that the Cbow was the model that presented better performances in the majority Of the tests. It has been found that the Word Embeddings technique fairly Similarity information between words even with the values of the parameters being Small compared to other jobs.porUniversidade Tecnológica Federal do ParanáMedianeiraGraduação em Ciência da ComputaçãoUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOInteligencia ArtificialProcessamento de linguagem natural (Computação)Bibliotecas digitaisArtificial intelligenceNatural language processing (Computer science)Digital librariesEstudo de modelos de word embeddingStudy word embedding modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisMedianeiraCandido Junior, ArnaldoHartmann, Nathan SiegleCandido Junior, ArnaldoAikes Junior, JorgePessini, Evando CarlosSousa, Samanta deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRLICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/1/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD51ORIGINALestudomodeloswordembedding.pdfapplication/pdf872880http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/2/estudomodeloswordembedding.pdf12218565807d34b491a4d37ee2c847b6MD52TEXTestudomodeloswordembedding.pdf.txtExtracted texttext/plain101946http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/3/estudomodeloswordembedding.pdf.txt6c278be50be23bd51c50d7c5ca3e45e7MD53THUMBNAILestudomodeloswordembedding.pdf.jpgGenerated Thumbnailimage/jpeg1230http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/4/estudomodeloswordembedding.pdf.jpgebea30d209bd57e2ce1b0b8dc402c0ebMD541/125222020-11-16 11:09:45.712oai:repositorio.utfpr.edu.br:1/12522TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-16T13:09:45Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Estudo de modelos de word embedding
dc.title.alternative.pt_BR.fl_str_mv Study word embedding models
title Estudo de modelos de word embedding
spellingShingle Estudo de modelos de word embedding
Sousa, Samanta de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Inteligencia Artificial
Processamento de linguagem natural (Computação)
Bibliotecas digitais
Artificial intelligence
Natural language processing (Computer science)
Digital libraries
title_short Estudo de modelos de word embedding
title_full Estudo de modelos de word embedding
title_fullStr Estudo de modelos de word embedding
title_full_unstemmed Estudo de modelos de word embedding
title_sort Estudo de modelos de word embedding
author Sousa, Samanta de
author_facet Sousa, Samanta de
author_role author
dc.contributor.advisor1.fl_str_mv Candido Junior, Arnaldo
dc.contributor.advisor-co1.fl_str_mv Hartmann, Nathan Siegle
dc.contributor.referee1.fl_str_mv Candido Junior, Arnaldo
dc.contributor.referee2.fl_str_mv Aikes Junior, Jorge
dc.contributor.referee3.fl_str_mv Pessini, Evando Carlos
dc.contributor.author.fl_str_mv Sousa, Samanta de
contributor_str_mv Candido Junior, Arnaldo
Hartmann, Nathan Siegle
Candido Junior, Arnaldo
Aikes Junior, Jorge
Pessini, Evando Carlos
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Inteligencia Artificial
Processamento de linguagem natural (Computação)
Bibliotecas digitais
Artificial intelligence
Natural language processing (Computer science)
Digital libraries
dc.subject.por.fl_str_mv Inteligencia Artificial
Processamento de linguagem natural (Computação)
Bibliotecas digitais
Artificial intelligence
Natural language processing (Computer science)
Digital libraries
description A área de Inteligência Artificial busca construir mecanismos que simulem a inteligência do ser humano de forma que os mesmos executem tarefas que os auxiliem. Tem-se o campo de estudo de Processamento de Língua Natural uma sub área de IA que busca compreender e gerar a língua natural, dessa forma o PLN ´e utilizado pela IA como um meio para aprimorar os mecanismos que utilizam da língua natural na sua execução, como escrita e produção de um texto, tradução, aprendizagem e ensino entre outros. A língua segue um formato não estruturado de difícil processamento pelo computador, como as variações morfológicas e sintáticas além da ambiguidade na língua natural que dificultam o processo de compreensão, dessa forma metodologias da área convertem tais informações de forma que a manipulação das mesmas pelo computador sejam mais fáceis. Dentre as representações de informações existentes a técnica deWord Embedding está em tendência atualmente no campo de PLN, onde as informações são representadas em vetores onde os seus valores são semelhantes quando as palavras são similares, ou seja, ´e uma representação que codifica as relações de similaridade entre as palavras além de possuir um custo computacional baixo. Dessa forma o objetivo do trabalho foi realizar um comparativo entre três modelos de Word Embeddings Cbow, Skipgram e Glove com a finalidade de identificar qual apresenta melhor desempenho na geração dos vetores de representação das palavras (embeddings). Primeiramente foi realizada a construção de um corpus utilizando a Wikipédia em sequência foi realizado o pré-processamento dessas informações para serem utilizadas como conjunto de treinamento, os modelos foram treinados utilizando scripts que forma criados utilizando as bibliotecas do Python Gensim e Glove, as avaliações dos embeddings foram feitas com as arquivos disponíveis por Pennington et al. (2014), onde em cada avaliação/teste feito os parâmetros eram modificados afim de verificar a sua influência no desempenho dos modelos. Algumas configurações específicas para execução do treinamento dos modelos foram identificadas e relatadas no trabalho, os resultados obtidos demonstraram que o Cbow foi o modelo que apresentou melhores desempenhos na maioria dos testes. Foi verificado que a técnica de Word Embeddings codifica razoavelmente bem as informações de similaridade entre as palavras mesmo com os valores dos parâmetros sendo pequenos se comparados com outros trabalhos.
publishDate 2016
dc.date.issued.fl_str_mv 2016-11-16
dc.date.accessioned.fl_str_mv 2020-11-16T13:09:45Z
dc.date.available.fl_str_mv 2020-11-16T13:09:45Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUSA, Samanta de. Estudo de modelos de word embedding. 2016. 53 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2016.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/12522
identifier_str_mv SOUSA, Samanta de. Estudo de modelos de word embedding. 2016. 53 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2016.
url http://repositorio.utfpr.edu.br/jspui/handle/1/12522
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Medianeira
dc.publisher.program.fl_str_mv Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Medianeira
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/1/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/2/estudomodeloswordembedding.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/3/estudomodeloswordembedding.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/12522/4/estudomodeloswordembedding.pdf.jpg
bitstream.checksum.fl_str_mv b9d82215ab23456fa2d8b49c5df1b95b
12218565807d34b491a4d37ee2c847b6
6c278be50be23bd51c50d7c5ca3e45e7
ebea30d209bd57e2ce1b0b8dc402c0eb
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805922995156287488