Comparação de arquiteturas de Word2Vec na análise de textos curtos

Cabalheiro, Tainá Ferreira

Comparação de arquiteturas de Word2Vec na análise de textos curtos

Detalhes bibliográficos
Autor(a) principal:	Cabalheiro, Tainá Ferreira
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/261982
Resumo:	Em função do avanço na produção e armazenamento de dados de texto, houve uma grande procura pela área de Processamento de Linguagem Natural (NLP), o que acarretou o desenvolvimento de métodos cada vez mais complexos para lidar com tarefas relativas a diversas finalidades. Entre esses métodos encontra-se o Word2Vec, um algoritmo que utiliza redes neurais para aprender representações de palavras. Ele possui duas arquiteturas de rede: o CBoW, que tem como objetivo prever a palavra central de uma sentença através das palavras ao redor, o chamado contexto, e o Skip-gram, que faz o contrário, busca prever o contexto com base na palavra central. O presente trabalho visa aplicar as duas arquiteturas associadas ao Word2Vec a fim de obter representações word embeddings de palavras contidas em descrições de produtos de notas fiscais eletrônicas. Este dado é não estruturado, com tamanho máximo de 120 caracteres, possuindo vários desafios associados à análise de textos curtos além do vocabulário bastante específico das descrições. Foram ajustados alguns modelos para bancos de dados vinculados a dois produtos: leite e carne. Foram comparados ajustes considerando a repetição ou não dos documentos, o mínimo de vezes que as palavras aparecem no corpus e diferentes tamanhos de janela de contexto.

Metadados do item

id	UFRGS-2_b8407b985086e2c58076328f47ec6f39
oai_identifier_str	oai:www.lume.ufrgs.br:10183/261982
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Cabalheiro, Tainá FerreiraBarbian, Márcia Helena2023-07-11T03:30:32Z2023http://hdl.handle.net/10183/261982001172503Em função do avanço na produção e armazenamento de dados de texto, houve uma grande procura pela área de Processamento de Linguagem Natural (NLP), o que acarretou o desenvolvimento de métodos cada vez mais complexos para lidar com tarefas relativas a diversas finalidades. Entre esses métodos encontra-se o Word2Vec, um algoritmo que utiliza redes neurais para aprender representações de palavras. Ele possui duas arquiteturas de rede: o CBoW, que tem como objetivo prever a palavra central de uma sentença através das palavras ao redor, o chamado contexto, e o Skip-gram, que faz o contrário, busca prever o contexto com base na palavra central. O presente trabalho visa aplicar as duas arquiteturas associadas ao Word2Vec a fim de obter representações word embeddings de palavras contidas em descrições de produtos de notas fiscais eletrônicas. Este dado é não estruturado, com tamanho máximo de 120 caracteres, possuindo vários desafios associados à análise de textos curtos além do vocabulário bastante específico das descrições. Foram ajustados alguns modelos para bancos de dados vinculados a dois produtos: leite e carne. Foram comparados ajustes considerando a repetição ou não dos documentos, o mínimo de vezes que as palavras aparecem no corpus e diferentes tamanhos de janela de contexto.Due to the advances in the production and storage of text data, there was a great demand for the area of Natural Language Processing (NLP), which led to the development of increasingly complex methods to deal with tasks related to different purposes. Among these methods is Word2Vec, an algorithm that uses neural networks to learn word representations. It has two network architectures: CBoW, which aims to predict the central word of a sentence through the surrounding words, the socalled context, and Skip-gram, which does the opposite, and seeks to predict the context based on the central word. The present work aims to apply the two architectures associated withWord2Vec to obtain word embeddings representations of words contained in product descriptions of electronic invoices. This data is unstructured, with a maximum size of 120 characters, with several challenges associated with the analysis of short texts in addition to the very specific vocabulary of the descriptions. Some models were adjusted for databases linked to two products: milk and meat. Adjustments were compared considering the repetition or not of the documents, the minimum number of times the words appear in the corpus, and different sizes of the context window.application/pdfporRedes neuraisArquitetura de redes neuraisProcessamento de linguagem naturalNatural language processingNeural networkContinuous bag of wordsSkip-gramInvoicesProduct descriptionsComparação de arquiteturas de Word2Vec na análise de textos curtosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2023Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001172503.pdf.txt001172503.pdf.txtExtracted Texttext/plain106183http://www.lume.ufrgs.br/bitstream/10183/261982/2/001172503.pdf.txta4404d22ae06d44121c237ee6a7550eeMD52ORIGINAL001172503.pdfTexto completoapplication/pdf8367257http://www.lume.ufrgs.br/bitstream/10183/261982/1/001172503.pdfad4feef34813a3a8def84ae5aa04675dMD5110183/2619822023-07-12 03:35:23.108942oai:www.lume.ufrgs.br:10183/261982Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-07-12T06:35:23Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Comparação de arquiteturas de Word2Vec na análise de textos curtos
title	Comparação de arquiteturas de Word2Vec na análise de textos curtos
spellingShingle	Comparação de arquiteturas de Word2Vec na análise de textos curtos Cabalheiro, Tainá Ferreira Redes neurais Arquitetura de redes neurais Processamento de linguagem natural Natural language processing Neural network Continuous bag of words Skip-gram Invoices Product descriptions
title_short	Comparação de arquiteturas de Word2Vec na análise de textos curtos
title_full	Comparação de arquiteturas de Word2Vec na análise de textos curtos
title_fullStr	Comparação de arquiteturas de Word2Vec na análise de textos curtos
title_full_unstemmed	Comparação de arquiteturas de Word2Vec na análise de textos curtos
title_sort	Comparação de arquiteturas de Word2Vec na análise de textos curtos
author	Cabalheiro, Tainá Ferreira
author_facet	Cabalheiro, Tainá Ferreira
author_role	author
dc.contributor.author.fl_str_mv	Cabalheiro, Tainá Ferreira
dc.contributor.advisor1.fl_str_mv	Barbian, Márcia Helena
contributor_str_mv	Barbian, Márcia Helena
dc.subject.por.fl_str_mv	Redes neurais Arquitetura de redes neurais Processamento de linguagem natural
topic	Redes neurais Arquitetura de redes neurais Processamento de linguagem natural Natural language processing Neural network Continuous bag of words Skip-gram Invoices Product descriptions
dc.subject.eng.fl_str_mv	Natural language processing Neural network Continuous bag of words Skip-gram Invoices Product descriptions
description	Em função do avanço na produção e armazenamento de dados de texto, houve uma grande procura pela área de Processamento de Linguagem Natural (NLP), o que acarretou o desenvolvimento de métodos cada vez mais complexos para lidar com tarefas relativas a diversas finalidades. Entre esses métodos encontra-se o Word2Vec, um algoritmo que utiliza redes neurais para aprender representações de palavras. Ele possui duas arquiteturas de rede: o CBoW, que tem como objetivo prever a palavra central de uma sentença através das palavras ao redor, o chamado contexto, e o Skip-gram, que faz o contrário, busca prever o contexto com base na palavra central. O presente trabalho visa aplicar as duas arquiteturas associadas ao Word2Vec a fim de obter representações word embeddings de palavras contidas em descrições de produtos de notas fiscais eletrônicas. Este dado é não estruturado, com tamanho máximo de 120 caracteres, possuindo vários desafios associados à análise de textos curtos além do vocabulário bastante específico das descrições. Foram ajustados alguns modelos para bancos de dados vinculados a dois produtos: leite e carne. Foram comparados ajustes considerando a repetição ou não dos documentos, o mínimo de vezes que as palavras aparecem no corpus e diferentes tamanhos de janela de contexto.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-07-11T03:30:32Z
dc.date.issued.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/261982
dc.identifier.nrb.pt_BR.fl_str_mv	001172503
url	http://hdl.handle.net/10183/261982
identifier_str_mv	001172503
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/261982/2/001172503.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/261982/1/001172503.pdf
bitstream.checksum.fl_str_mv	a4404d22ae06d44121c237ee6a7550ee ad4feef34813a3a8def84ae5aa04675d
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224664408653824

Comparação de arquiteturas de Word2Vec na análise de textos curtos

Registros relacionados