Visualização de vetores de texto por meio de projeções multidimensionais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Monografias da UnB |
Texto Completo: | https://bdm.unb.br/handle/10483/29353 |
Resumo: | Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021. |
id |
UNB-2_52a488e6e167061b01a5c93d2433ea53 |
---|---|
oai_identifier_str |
oai:bdm.unb.br:10483/29353 |
network_acronym_str |
UNB-2 |
network_name_str |
Biblioteca Digital de Monografias da UnB |
repository_id_str |
11571 |
spelling |
Silva, Luís Felipe Braga GebrimSilva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021.https://bdm.unb.br/handle/10483/29353Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.A maioria dos trabalhos na literatura relacionados com a visualização de textos baseada no posicionamento de pontos consideram a representação de textos no modelo de espaço vetorial, obtida por técnicas como bag-of-words e Term Frequency-Inverse Document Fre- quency (TF-IDF). Apesar de ser popular, essa representação apresenta limitações ao cap- turar o contexto dos textos, pois não leva em consideração a ordem das palavras presentes no texto. Recentemente, as representações baseadas em text embeddings se mostraram promissoras ao gerar vetores dos textos com preservação do contexto. Dessa maneira, este estudo tem como objetivo investigar se os gráficos de espalhamento gerados por vi- sualizações baseadas em projeções multidimensionais são capazes de refletir informações associadas ao contexto dos textos, como também expressar apropriadamente suas relações de similaridade. Para esse propósito, foram realizados experimentos a partir de diferentes corpos de texto, sobre os quais foram aplicadas as técnicas de text embeddings Vetor de Parágrafos e Bidirectional Encoder Representations from Transformers (BERT). A partir dos vetores obtidos, as técnicas de redução de dimensionalidade t-Stochastic Distributed Neighbor Em- bedding (t-SNE) e Uniform Manifold Approximation Projection (UMAP) foram utilizadas para gerar os gráficos de espalhamento, que tiveram suas qualidades avaliadas com base em métricas que medem a preservação das relações previamente presentes no espaço de alta dimensionalidade. A análise visual dos gráficos de espalhamento obtidos pela técnica t-SNE permite observar que textos similares em relação ao contexto foram posicionados próximos uns aos outros, formando grupos de pontos com baixa separabilidade entre si. Por sua vez, utilizando a técnica UMAP, foi possível verificar uma boa separação de grupos de pontos, associados a textos diferentes. Entretanto, dependendo do conjunto de vetores sobre o qual o UMAP é utilizado, são gerados gráficos de espalhamentos com grupos de pontos esparsos, o que dificulta a identificação de padrões e grupos de textos similares na análise visual.Submitted by Diego Araújo Campos (diegoa@bce.unb.br) on 2021-12-08T15:03:11Z No. of bitstreams: 1 2021_LuisFelipeBragaGebrimSilva_tcc.pdf: 14188507 bytes, checksum: 486f1ff84c2ab0fa9ed6c75db3184f70 (MD5)Approved for entry into archive by Diego Araújo Campos (diegoa@bce.unb.br) on 2021-12-08T15:05:42Z (GMT) No. of bitstreams: 1 2021_LuisFelipeBragaGebrimSilva_tcc.pdf: 14188507 bytes, checksum: 486f1ff84c2ab0fa9ed6c75db3184f70 (MD5)Made available in DSpace on 2021-12-08T15:05:42Z (GMT). No. of bitstreams: 1 2021_LuisFelipeBragaGebrimSilva_tcc.pdf: 14188507 bytes, checksum: 486f1ff84c2ab0fa9ed6c75db3184f70 (MD5)In literature, several researches related to point placement visualization consider repre- sentations for texts based on the vector space model, such as the bag-of-words and Ferm Frequency-Inverse Document Frequency. Although being useful in text analysis tasks, this approach presents limitations regarding the context preservation on texts, since the words order is lost in these representations. Recent, approaches based on text embeddings have emerged as promising representations by generating embedding vectors that captures the context. This study proposes to investigate if projection-based visualizations are able to reflect context-based information from texts, as well as to express properly its similarity relations. For this purpose, experiments were carried out using different text corpus, in which the text embeddings techniques Paragraph Vector and Bidirectional Encoder Representations from Transformers (BERT) were applied. After the vectors were obtained, the dimen- sionality reduction techniques t-Stochastic Distributed Neighbor Embedding (t-SNE) and Uniform Manifold Approximation Projection (UMAP) were employed as visualizations to generate the scatter plots, and its quality was assessed based on metrics that measure the preservation of the relationships previously present in the high dimensional space. The visual analysis of the scatter plots obtained by the t-SNE technique, shows that similar context texts were positioned close to each other, forming groups of points with low separability from each other. On the other hand, using the UMAP technique it was possible to verify a good separation of groups of points, associated with different texts. However, depending on the set of vectors on which UMAP is used, scatter plots are generated with widespread groups of points, which makes it difficult to identify patterns and groups of similar texts in visual analysis.A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.info:eu-repo/semantics/openAccessMineração de textoAprendizado de máquinaVisualização de vetores de texto por meio de projeções multidimensionaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2021-12-08T15:05:42Z2021-12-08T15:05:42Z2021-04-24porreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBLICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/29353/2/license.txt21554873e56ad8ddc69c092699b98f95MD52ORIGINAL2021_LuisFelipeBragaGebrimSilva_tcc.pdf2021_LuisFelipeBragaGebrimSilva_tcc.pdfapplication/pdf14188507http://bdm.unb.br/xmlui/bitstream/10483/29353/1/2021_LuisFelipeBragaGebrimSilva_tcc.pdf486f1ff84c2ab0fa9ed6c75db3184f70MD5110483/293532021-12-08 13:05:42.461oai:bdm.unb.br:10483/29353w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712021-12-08T15:05:42Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false |
dc.title.pt_BR.fl_str_mv |
Visualização de vetores de texto por meio de projeções multidimensionais |
title |
Visualização de vetores de texto por meio de projeções multidimensionais |
spellingShingle |
Visualização de vetores de texto por meio de projeções multidimensionais Silva, Luís Felipe Braga Gebrim Mineração de texto Aprendizado de máquina |
title_short |
Visualização de vetores de texto por meio de projeções multidimensionais |
title_full |
Visualização de vetores de texto por meio de projeções multidimensionais |
title_fullStr |
Visualização de vetores de texto por meio de projeções multidimensionais |
title_full_unstemmed |
Visualização de vetores de texto por meio de projeções multidimensionais |
title_sort |
Visualização de vetores de texto por meio de projeções multidimensionais |
author |
Silva, Luís Felipe Braga Gebrim |
author_facet |
Silva, Luís Felipe Braga Gebrim |
author_role |
author |
dc.contributor.author.fl_str_mv |
Silva, Luís Felipe Braga Gebrim |
dc.subject.keyword.pt_BR.fl_str_mv |
Mineração de texto Aprendizado de máquina |
topic |
Mineração de texto Aprendizado de máquina |
description |
Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021. |
publishDate |
2021 |
dc.date.submitted.none.fl_str_mv |
2021-04-24 |
dc.date.accessioned.fl_str_mv |
2021-12-08T15:05:42Z |
dc.date.available.fl_str_mv |
2021-12-08T15:05:42Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
Silva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021. |
dc.identifier.uri.fl_str_mv |
https://bdm.unb.br/handle/10483/29353 |
identifier_str_mv |
Silva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021. |
url |
https://bdm.unb.br/handle/10483/29353 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Monografias da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Biblioteca Digital de Monografias da UnB |
collection |
Biblioteca Digital de Monografias da UnB |
bitstream.url.fl_str_mv |
http://bdm.unb.br/xmlui/bitstream/10483/29353/2/license.txt http://bdm.unb.br/xmlui/bitstream/10483/29353/1/2021_LuisFelipeBragaGebrimSilva_tcc.pdf |
bitstream.checksum.fl_str_mv |
21554873e56ad8ddc69c092699b98f95 486f1ff84c2ab0fa9ed6c75db3184f70 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
bdm@bce.unb.br||patricia@bce.unb.br |
_version_ |
1813908062962974720 |