Aprendizado não-supervisionado para textos curtos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/258439 |
Resumo: | Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados. |
id |
UFRGS-2_298c5ffa3b33e8d46688926baad46994 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/258439 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Utpott, Gustavo MachadoBarbian, Márcia Helena2023-05-24T03:27:36Z2022http://hdl.handle.net/10183/258439001143691Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.With the evolution of technology in the field of communication, huge quantities of text are being written and shared in a lot of platforms across the internet, leading to an increasing demand for Natural Language Processing (NLP) techniques. The goals of the analysis are plenty and go from spam identification, text translation and classification to sentiment analysis. Among those themes, uncovering topics in text that doesn’t have any kind of previous classification has become more common. Those methods are named Topic Modeling and are defined as an Unsupervised Learning class of algorithms. Specifically, documents that have a limited amount of characters, short texts, need different methods to those commonly applied, such as the famous Latent Dirichlet Allocation (LDA). This work aims to apply one of these techniques which is called Biterm Topic Modeling (BTM), in a database made of different merchandise to, after the clustering, be able to select the most similar topics to a given product of interest. Besides the application of BTM to the data, an algorithm will be proposed to replace the abbreviations contained on the document being analysed.application/pdfporAprendizado não supervisionadoProcessamento de linguagem naturalUnsupervised learningTopic modelingNatural language processingShort textsBiterm topic modelingAprendizado não-supervisionado para textos curtosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2022Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001143691.pdf.txt001143691.pdf.txtExtracted Texttext/plain58976http://www.lume.ufrgs.br/bitstream/10183/258439/2/001143691.pdf.txt8a3dc100bb290fdd598c29d2d62df0ffMD52ORIGINAL001143691.pdfTexto completoapplication/pdf2948057http://www.lume.ufrgs.br/bitstream/10183/258439/1/001143691.pdfd9342429bd3d2584469bc53eb2924769MD5110183/2584392023-05-25 03:26:19.164032oai:www.lume.ufrgs.br:10183/258439Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-05-25T06:26:19Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Aprendizado não-supervisionado para textos curtos |
title |
Aprendizado não-supervisionado para textos curtos |
spellingShingle |
Aprendizado não-supervisionado para textos curtos Utpott, Gustavo Machado Aprendizado não supervisionado Processamento de linguagem natural Unsupervised learning Topic modeling Natural language processing Short texts Biterm topic modeling |
title_short |
Aprendizado não-supervisionado para textos curtos |
title_full |
Aprendizado não-supervisionado para textos curtos |
title_fullStr |
Aprendizado não-supervisionado para textos curtos |
title_full_unstemmed |
Aprendizado não-supervisionado para textos curtos |
title_sort |
Aprendizado não-supervisionado para textos curtos |
author |
Utpott, Gustavo Machado |
author_facet |
Utpott, Gustavo Machado |
author_role |
author |
dc.contributor.author.fl_str_mv |
Utpott, Gustavo Machado |
dc.contributor.advisor1.fl_str_mv |
Barbian, Márcia Helena |
contributor_str_mv |
Barbian, Márcia Helena |
dc.subject.por.fl_str_mv |
Aprendizado não supervisionado Processamento de linguagem natural |
topic |
Aprendizado não supervisionado Processamento de linguagem natural Unsupervised learning Topic modeling Natural language processing Short texts Biterm topic modeling |
dc.subject.eng.fl_str_mv |
Unsupervised learning Topic modeling Natural language processing Short texts Biterm topic modeling |
description |
Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022 |
dc.date.accessioned.fl_str_mv |
2023-05-24T03:27:36Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/258439 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001143691 |
url |
http://hdl.handle.net/10183/258439 |
identifier_str_mv |
001143691 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/258439/2/001143691.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/258439/1/001143691.pdf |
bitstream.checksum.fl_str_mv |
8a3dc100bb290fdd598c29d2d62df0ff d9342429bd3d2584469bc53eb2924769 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224659690061824 |