Aprendizado não-supervisionado para textos curtos

Utpott, Gustavo Machado

Aprendizado não-supervisionado para textos curtos

Detalhes bibliográficos
Autor(a) principal:	Utpott, Gustavo Machado
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/258439
Resumo:	Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.

Metadados do item

id	UFRGS-2_298c5ffa3b33e8d46688926baad46994
oai_identifier_str	oai:www.lume.ufrgs.br:10183/258439
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Utpott, Gustavo MachadoBarbian, Márcia Helena2023-05-24T03:27:36Z2022http://hdl.handle.net/10183/258439001143691Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.With the evolution of technology in the field of communication, huge quantities of text are being written and shared in a lot of platforms across the internet, leading to an increasing demand for Natural Language Processing (NLP) techniques. The goals of the analysis are plenty and go from spam identification, text translation and classification to sentiment analysis. Among those themes, uncovering topics in text that doesn’t have any kind of previous classification has become more common. Those methods are named Topic Modeling and are defined as an Unsupervised Learning class of algorithms. Specifically, documents that have a limited amount of characters, short texts, need different methods to those commonly applied, such as the famous Latent Dirichlet Allocation (LDA). This work aims to apply one of these techniques which is called Biterm Topic Modeling (BTM), in a database made of different merchandise to, after the clustering, be able to select the most similar topics to a given product of interest. Besides the application of BTM to the data, an algorithm will be proposed to replace the abbreviations contained on the document being analysed.application/pdfporAprendizado não supervisionadoProcessamento de linguagem naturalUnsupervised learningTopic modelingNatural language processingShort textsBiterm topic modelingAprendizado não-supervisionado para textos curtosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2022Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001143691.pdf.txt001143691.pdf.txtExtracted Texttext/plain58976http://www.lume.ufrgs.br/bitstream/10183/258439/2/001143691.pdf.txt8a3dc100bb290fdd598c29d2d62df0ffMD52ORIGINAL001143691.pdfTexto completoapplication/pdf2948057http://www.lume.ufrgs.br/bitstream/10183/258439/1/001143691.pdfd9342429bd3d2584469bc53eb2924769MD5110183/2584392023-05-25 03:26:19.164032oai:www.lume.ufrgs.br:10183/258439Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-05-25T06:26:19Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Aprendizado não-supervisionado para textos curtos
title	Aprendizado não-supervisionado para textos curtos
spellingShingle	Aprendizado não-supervisionado para textos curtos Utpott, Gustavo Machado Aprendizado não supervisionado Processamento de linguagem natural Unsupervised learning Topic modeling Natural language processing Short texts Biterm topic modeling
title_short	Aprendizado não-supervisionado para textos curtos
title_full	Aprendizado não-supervisionado para textos curtos
title_fullStr	Aprendizado não-supervisionado para textos curtos
title_full_unstemmed	Aprendizado não-supervisionado para textos curtos
title_sort	Aprendizado não-supervisionado para textos curtos
author	Utpott, Gustavo Machado
author_facet	Utpott, Gustavo Machado
author_role	author
dc.contributor.author.fl_str_mv	Utpott, Gustavo Machado
dc.contributor.advisor1.fl_str_mv	Barbian, Márcia Helena
contributor_str_mv	Barbian, Márcia Helena
dc.subject.por.fl_str_mv	Aprendizado não supervisionado Processamento de linguagem natural
topic	Aprendizado não supervisionado Processamento de linguagem natural Unsupervised learning Topic modeling Natural language processing Short texts Biterm topic modeling
dc.subject.eng.fl_str_mv	Unsupervised learning Topic modeling Natural language processing Short texts Biterm topic modeling
description	Com a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.
publishDate	2022
dc.date.issued.fl_str_mv	2022
dc.date.accessioned.fl_str_mv	2023-05-24T03:27:36Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/258439
dc.identifier.nrb.pt_BR.fl_str_mv	001143691
url	http://hdl.handle.net/10183/258439
identifier_str_mv	001143691
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/258439/2/001143691.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/258439/1/001143691.pdf
bitstream.checksum.fl_str_mv	8a3dc100bb290fdd598c29d2d62df0ff d9342429bd3d2584469bc53eb2924769
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224659690061824

Aprendizado não-supervisionado para textos curtos

Registros relacionados