Visualização de vetores de texto por meio de projeções multidimensionais

Detalhes bibliográficos
Autor(a) principal: Silva, Luís Felipe Braga Gebrim
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Monografias da UnB
Texto Completo: https://bdm.unb.br/handle/10483/29353
Resumo: Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.
id UNB-2_52a488e6e167061b01a5c93d2433ea53
oai_identifier_str oai:bdm.unb.br:10483/29353
network_acronym_str UNB-2
network_name_str Biblioteca Digital de Monografias da UnB
repository_id_str 11571
spelling Silva, Luís Felipe Braga GebrimSilva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021.https://bdm.unb.br/handle/10483/29353Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.A maioria dos trabalhos na literatura relacionados com a visualização de textos baseada no posicionamento de pontos consideram a representação de textos no modelo de espaço vetorial, obtida por técnicas como bag-of-words e Term Frequency-Inverse Document Fre- quency (TF-IDF). Apesar de ser popular, essa representação apresenta limitações ao cap- turar o contexto dos textos, pois não leva em consideração a ordem das palavras presentes no texto. Recentemente, as representações baseadas em text embeddings se mostraram promissoras ao gerar vetores dos textos com preservação do contexto. Dessa maneira, este estudo tem como objetivo investigar se os gráficos de espalhamento gerados por vi- sualizações baseadas em projeções multidimensionais são capazes de refletir informações associadas ao contexto dos textos, como também expressar apropriadamente suas relações de similaridade. Para esse propósito, foram realizados experimentos a partir de diferentes corpos de texto, sobre os quais foram aplicadas as técnicas de text embeddings Vetor de Parágrafos e Bidirectional Encoder Representations from Transformers (BERT). A partir dos vetores obtidos, as técnicas de redução de dimensionalidade t-Stochastic Distributed Neighbor Em- bedding (t-SNE) e Uniform Manifold Approximation Projection (UMAP) foram utilizadas para gerar os gráficos de espalhamento, que tiveram suas qualidades avaliadas com base em métricas que medem a preservação das relações previamente presentes no espaço de alta dimensionalidade. A análise visual dos gráficos de espalhamento obtidos pela técnica t-SNE permite observar que textos similares em relação ao contexto foram posicionados próximos uns aos outros, formando grupos de pontos com baixa separabilidade entre si. Por sua vez, utilizando a técnica UMAP, foi possível verificar uma boa separação de grupos de pontos, associados a textos diferentes. Entretanto, dependendo do conjunto de vetores sobre o qual o UMAP é utilizado, são gerados gráficos de espalhamentos com grupos de pontos esparsos, o que dificulta a identificação de padrões e grupos de textos similares na análise visual.Submitted by Diego Araújo Campos (diegoa@bce.unb.br) on 2021-12-08T15:03:11Z No. of bitstreams: 1 2021_LuisFelipeBragaGebrimSilva_tcc.pdf: 14188507 bytes, checksum: 486f1ff84c2ab0fa9ed6c75db3184f70 (MD5)Approved for entry into archive by Diego Araújo Campos (diegoa@bce.unb.br) on 2021-12-08T15:05:42Z (GMT) No. of bitstreams: 1 2021_LuisFelipeBragaGebrimSilva_tcc.pdf: 14188507 bytes, checksum: 486f1ff84c2ab0fa9ed6c75db3184f70 (MD5)Made available in DSpace on 2021-12-08T15:05:42Z (GMT). No. of bitstreams: 1 2021_LuisFelipeBragaGebrimSilva_tcc.pdf: 14188507 bytes, checksum: 486f1ff84c2ab0fa9ed6c75db3184f70 (MD5)In literature, several researches related to point placement visualization consider repre- sentations for texts based on the vector space model, such as the bag-of-words and Ferm Frequency-Inverse Document Frequency. Although being useful in text analysis tasks, this approach presents limitations regarding the context preservation on texts, since the words order is lost in these representations. Recent, approaches based on text embeddings have emerged as promising representations by generating embedding vectors that captures the context. This study proposes to investigate if projection-based visualizations are able to reflect context-based information from texts, as well as to express properly its similarity relations. For this purpose, experiments were carried out using different text corpus, in which the text embeddings techniques Paragraph Vector and Bidirectional Encoder Representations from Transformers (BERT) were applied. After the vectors were obtained, the dimen- sionality reduction techniques t-Stochastic Distributed Neighbor Embedding (t-SNE) and Uniform Manifold Approximation Projection (UMAP) were employed as visualizations to generate the scatter plots, and its quality was assessed based on metrics that measure the preservation of the relationships previously present in the high dimensional space. The visual analysis of the scatter plots obtained by the t-SNE technique, shows that similar context texts were positioned close to each other, forming groups of points with low separability from each other. On the other hand, using the UMAP technique it was possible to verify a good separation of groups of points, associated with different texts. However, depending on the set of vectors on which UMAP is used, scatter plots are generated with widespread groups of points, which makes it difficult to identify patterns and groups of similar texts in visual analysis.A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.info:eu-repo/semantics/openAccessMineração de textoAprendizado de máquinaVisualização de vetores de texto por meio de projeções multidimensionaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2021-12-08T15:05:42Z2021-12-08T15:05:42Z2021-04-24porreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBLICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/29353/2/license.txt21554873e56ad8ddc69c092699b98f95MD52ORIGINAL2021_LuisFelipeBragaGebrimSilva_tcc.pdf2021_LuisFelipeBragaGebrimSilva_tcc.pdfapplication/pdf14188507http://bdm.unb.br/xmlui/bitstream/10483/29353/1/2021_LuisFelipeBragaGebrimSilva_tcc.pdf486f1ff84c2ab0fa9ed6c75db3184f70MD5110483/293532021-12-08 13:05:42.461oai:bdm.unb.br:10483/29353w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712021-12-08T15:05:42Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv Visualização de vetores de texto por meio de projeções multidimensionais
title Visualização de vetores de texto por meio de projeções multidimensionais
spellingShingle Visualização de vetores de texto por meio de projeções multidimensionais
Silva, Luís Felipe Braga Gebrim
Mineração de texto
Aprendizado de máquina
title_short Visualização de vetores de texto por meio de projeções multidimensionais
title_full Visualização de vetores de texto por meio de projeções multidimensionais
title_fullStr Visualização de vetores de texto por meio de projeções multidimensionais
title_full_unstemmed Visualização de vetores de texto por meio de projeções multidimensionais
title_sort Visualização de vetores de texto por meio de projeções multidimensionais
author Silva, Luís Felipe Braga Gebrim
author_facet Silva, Luís Felipe Braga Gebrim
author_role author
dc.contributor.author.fl_str_mv Silva, Luís Felipe Braga Gebrim
dc.subject.keyword.pt_BR.fl_str_mv Mineração de texto
Aprendizado de máquina
topic Mineração de texto
Aprendizado de máquina
description Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.
publishDate 2021
dc.date.submitted.none.fl_str_mv 2021-04-24
dc.date.accessioned.fl_str_mv 2021-12-08T15:05:42Z
dc.date.available.fl_str_mv 2021-12-08T15:05:42Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Silva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021.
dc.identifier.uri.fl_str_mv https://bdm.unb.br/handle/10483/29353
identifier_str_mv Silva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021.
url https://bdm.unb.br/handle/10483/29353
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Monografias da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Biblioteca Digital de Monografias da UnB
collection Biblioteca Digital de Monografias da UnB
bitstream.url.fl_str_mv http://bdm.unb.br/xmlui/bitstream/10483/29353/2/license.txt
http://bdm.unb.br/xmlui/bitstream/10483/29353/1/2021_LuisFelipeBragaGebrimSilva_tcc.pdf
bitstream.checksum.fl_str_mv 21554873e56ad8ddc69c092699b98f95
486f1ff84c2ab0fa9ed6c75db3184f70
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv bdm@bce.unb.br||patricia@bce.unb.br
_version_ 1813908062962974720