Aprendizado não-supervisionado para textos curtos

Detalhes bibliográficos
Autor(a) principal: Utpott, Gustavo Machado
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/258439
Resumo: Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.
id UFRGS-2_298c5ffa3b33e8d46688926baad46994
oai_identifier_str oai:www.lume.ufrgs.br:10183/258439
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Utpott, Gustavo MachadoBarbian, Márcia Helena2023-05-24T03:27:36Z2022http://hdl.handle.net/10183/258439001143691Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.With the evolution of technology in the field of communication, huge quantities of text are being written and shared in a lot of platforms across the internet, leading to an increasing demand for Natural Language Processing (NLP) techniques. The goals of the analysis are plenty and go from spam identification, text translation and classification to sentiment analysis. Among those themes, uncovering topics in text that doesn’t have any kind of previous classification has become more common. Those methods are named Topic Modeling and are defined as an Unsupervised Learning class of algorithms. Specifically, documents that have a limited amount of characters, short texts, need different methods to those commonly applied, such as the famous Latent Dirichlet Allocation (LDA). This work aims to apply one of these techniques which is called Biterm Topic Modeling (BTM), in a database made of different merchandise to, after the clustering, be able to select the most similar topics to a given product of interest. Besides the application of BTM to the data, an algorithm will be proposed to replace the abbreviations contained on the document being analysed.application/pdfporAprendizado não supervisionadoProcessamento de linguagem naturalUnsupervised learningTopic modelingNatural language processingShort textsBiterm topic modelingAprendizado não-supervisionado para textos curtosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2022Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001143691.pdf.txt001143691.pdf.txtExtracted Texttext/plain58976http://www.lume.ufrgs.br/bitstream/10183/258439/2/001143691.pdf.txt8a3dc100bb290fdd598c29d2d62df0ffMD52ORIGINAL001143691.pdfTexto completoapplication/pdf2948057http://www.lume.ufrgs.br/bitstream/10183/258439/1/001143691.pdfd9342429bd3d2584469bc53eb2924769MD5110183/2584392023-05-25 03:26:19.164032oai:www.lume.ufrgs.br:10183/258439Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-05-25T06:26:19Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Aprendizado não-supervisionado para textos curtos
title Aprendizado não-supervisionado para textos curtos
spellingShingle Aprendizado não-supervisionado para textos curtos
Utpott, Gustavo Machado
Aprendizado não supervisionado
Processamento de linguagem natural
Unsupervised learning
Topic modeling
Natural language processing
Short texts
Biterm topic modeling
title_short Aprendizado não-supervisionado para textos curtos
title_full Aprendizado não-supervisionado para textos curtos
title_fullStr Aprendizado não-supervisionado para textos curtos
title_full_unstemmed Aprendizado não-supervisionado para textos curtos
title_sort Aprendizado não-supervisionado para textos curtos
author Utpott, Gustavo Machado
author_facet Utpott, Gustavo Machado
author_role author
dc.contributor.author.fl_str_mv Utpott, Gustavo Machado
dc.contributor.advisor1.fl_str_mv Barbian, Márcia Helena
contributor_str_mv Barbian, Márcia Helena
dc.subject.por.fl_str_mv Aprendizado não supervisionado
Processamento de linguagem natural
topic Aprendizado não supervisionado
Processamento de linguagem natural
Unsupervised learning
Topic modeling
Natural language processing
Short texts
Biterm topic modeling
dc.subject.eng.fl_str_mv Unsupervised learning
Topic modeling
Natural language processing
Short texts
Biterm topic modeling
description Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.
publishDate 2022
dc.date.issued.fl_str_mv 2022
dc.date.accessioned.fl_str_mv 2023-05-24T03:27:36Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/258439
dc.identifier.nrb.pt_BR.fl_str_mv 001143691
url http://hdl.handle.net/10183/258439
identifier_str_mv 001143691
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/258439/2/001143691.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/258439/1/001143691.pdf
bitstream.checksum.fl_str_mv 8a3dc100bb290fdd598c29d2d62df0ff
d9342429bd3d2584469bc53eb2924769
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224659690061824