A study on different text representation methods for clustering algorithms

Detalhes bibliográficos
Autor(a) principal: Ferraria, Matheus Amendoeira
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: eng
por
Título da fonte: Biblioteca Digital de Teses e Dissertações do Mackenzie
Texto Completo: https://dspace.mackenzie.br/handle/10899/38523
Resumo: A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.
id UPM_f9e4e9f845db9de3526b3d8b06402e12
oai_identifier_str oai:dspace.mackenzie.br:10899/38523
network_acronym_str UPM
network_name_str Biblioteca Digital de Teses e Dissertações do Mackenzie
repository_id_str 10277
spelling Ferraria, Matheus AmendoeiraOliveira, Pedro Paulo Balbi de2024-04-22T13:11:47Z2024-04-22T13:11:47Z2024-02-20A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.CAPES - Coordenação de Aperfeiçoamento de Pessoal de NívelCNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológicohttps://dspace.mackenzie.br/handle/10899/38523engporUniversidade Presbiteriana Mackenzieagrupamento de textosanálise léxicamineração de textosmodelos de linguagemprocessamento de linguagem naturalrede imunológica artificialword embeddingsA study on different text representation methods for clustering algorithmsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEinfo:eu-repo/semantics/openAccesshttp://lattes.cnpq.br/9556738277476279https://orcid.org/0000-0002-6022-0270http://lattes.cnpq.br/8382186109028514Ruivo, Eurico Luiz Prosperohttp://lattes.cnpq.br/5918644808671007Silva, Ana Estela Antunes dahttp://lattes.cnpq.br/9070607576528017https://orcid.org/0000-0001-9886-3506The increasing availability of massive amounts of text data has drawn a lot of attention for text mining and natural language processing methods. The complexity of using text arises from the fact that, by nature, computers are not able to comprehend text, usually requiring the application of techniques capable of converting texts into a more familiar type of data for computers. Such type of data is commonly referred to as text repre sentation. In the search for finding a proper text representation many studies emerged, each one proposing different philosophies and strategies to represent texts and extract fea tures from them. For this research, three different categories of text representations are studied: Standard Vector Representation by means of Bag-of-Words (BoW); Grammar Based representation, including Linguistic Inquiry and Word Count (LIWC), Part-of Speech Tagging (POS-Tagging) and Medical Research Council Psycholinguistic Database (MRC); and Distributed representations, such as Word2Vec, fastText, Doc2Vec, and Sen tenceBERT. To obtain results that are representative of different types of text data, four categories of texts are used: short texts (e.g., tweets, and text messages), reviews, news and abstracts. The evaluation of the eight text representations studied in this research was performed from a clustering perspective by using aiNet, a nature-inspired clustering algorithm, and the results are evaluated using five different measures split across internal and external measures. Based on the experimental results, it was possible to observe that, overall, grammar-based representations, despite being simpler, provide very competitive results with the more complex distributed representations. Although the results indicate that some very good clusters are being found, they are significantly different from the categories or the clusters available in the original data. Moreover, the obtained results provided a different observation on pre-trained models, as SentenceBERT obtained worse clusters, as indicated by its internal measures, than most of the other representations studied here.artificial immune networklanguage modelslexiconnatural computingnatural language processingtext clusteringtext miningword embeddingsBrasilEscola de Engenharia Mackenzie (EE)UPMEngenharia Elétrica e ComputaçãoCNPQ::ENGENHARIASORIGINALMATHEUS AMENDOEIRA FERRARIA - protegido.pdfMATHEUS AMENDOEIRA FERRARIA - protegido.pdfapplication/pdf4741675https://dspace.mackenzie.br/bitstreams/077089cb-2276-490f-8cea-a7099f3886ff/downloaded35ef02d356c37e391002fef6e58304MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82269https://dspace.mackenzie.br/bitstreams/4999586b-9b78-4421-a0d4-d517e2c479c9/downloadf0d4931322d30f6d2ee9ebafdf037c16MD52TEXTMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.txtMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.txtExtracted texttext/plain215316https://dspace.mackenzie.br/bitstreams/902b6bd4-24b8-44bd-aee3-205078c28385/downloadba34247aa6eaeede23a330f843cde11fMD53THUMBNAILMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.jpgMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.jpgGenerated Thumbnailimage/jpeg3134https://dspace.mackenzie.br/bitstreams/38bfed1a-bffc-42aa-9576-e000404ea0e9/download92afbef40fd2428e95fd76c3fe323712MD5410899/385232024-04-23 03:01:40.495oai:dspace.mackenzie.br:10899/38523https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772024-04-23T03:01:40Biblioteca Digital de Teses e Dissertações do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKPGJyPjxicj4KQ29tIG8gYWNlaXRlIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIFByZXNiaXRlcmlhbmEgTWFja2VuemllIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSBkaXN0cmlidWlyIHNldSB0cmFiYWxobyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgo8YnI+PGJyPgpBY2VpdGFuZG8gZXNzYSBsaWNlbsOnYSB2b2PDqiBjb25jb3JkYSBxdWUgYSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIG8gc2V1IHRyYWJhbGhvIHBhcmEgcXVhbHF1ZXIgbWVpbyBvdSBmb3JtYXRvIGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkbyBzZXUgdHJhYmFsaG8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgo8YnI+PGJyPgpDb25jb3JkYXLDoSBxdWUgc2V1IHRyYWJhbGhvIHRhbWLDqW0gc2Vyw6EgcmVnaWRvIHBlbGEgQ3JlYXRpdmUgQ29tbW9ucyBxdWUgTsODTyBwZXJtaXRlIG8gdXNvIGNvbWVyY2lhbCBvdSBxdWFscXVlciBhbHRlcmHDp8OjbyBkYSBvYnJhIHBvciB0ZXJjZWlyb3MgY29uZm9ybWUgZGVzY3JpdG8gZW0gPGEgaHJlZj0iaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8iIHRhcmdldD0iX2JsYW5rIj5odHRwczovL2NyZWF0aXZlY29tbW9ucy5vcmcvbGljZW5zZXMvYnktbmMtbmQvNC4wLzwvYT4uCjxicj48YnI+ClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBvIGRlcMOzc2l0byBkbyBzZXUgdHJhYmFsaG8gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCjxicj48YnI+CkNhc28gbyBzZXUgdHJhYmFsaG8gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBQcmVzYml0ZXJpYW5hIE1hY2tlbnppZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRvIHNldSB0cmFiYWxobyBvcmEgZGVwb3NpdGFkby4KPGJyPjxicj4KQ0FTTyBPIFRSQUJBTEhPIE9SQSBERVBPU0lUQURPIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgVU5JVkVSU0lEQURFIFBSRVNCSVRFUklBTkEgTUFDS0VOWklFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KPGJyPjxicj4KQSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIGRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZG8gc2V1IHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==
dc.title.none.fl_str_mv A study on different text representation methods for clustering algorithms
title A study on different text representation methods for clustering algorithms
spellingShingle A study on different text representation methods for clustering algorithms
Ferraria, Matheus Amendoeira
agrupamento de textos
análise léxica
mineração de textos
modelos de linguagem
processamento de linguagem natural
rede imunológica artificial
word embeddings
title_short A study on different text representation methods for clustering algorithms
title_full A study on different text representation methods for clustering algorithms
title_fullStr A study on different text representation methods for clustering algorithms
title_full_unstemmed A study on different text representation methods for clustering algorithms
title_sort A study on different text representation methods for clustering algorithms
author Ferraria, Matheus Amendoeira
author_facet Ferraria, Matheus Amendoeira
author_role author
dc.contributor.author.fl_str_mv Ferraria, Matheus Amendoeira
dc.contributor.advisor1.fl_str_mv Oliveira, Pedro Paulo Balbi de
contributor_str_mv Oliveira, Pedro Paulo Balbi de
dc.subject.por.fl_str_mv agrupamento de textos
análise léxica
mineração de textos
modelos de linguagem
processamento de linguagem natural
rede imunológica artificial
word embeddings
topic agrupamento de textos
análise léxica
mineração de textos
modelos de linguagem
processamento de linguagem natural
rede imunológica artificial
word embeddings
description A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-04-22T13:11:47Z
dc.date.available.fl_str_mv 2024-04-22T13:11:47Z
dc.date.issued.fl_str_mv 2024-02-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://dspace.mackenzie.br/handle/10899/38523
url https://dspace.mackenzie.br/handle/10899/38523
dc.language.iso.fl_str_mv eng
por
language eng
por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Biblioteca Digital de Teses e Dissertações do Mackenzie
collection Biblioteca Digital de Teses e Dissertações do Mackenzie
bitstream.url.fl_str_mv https://dspace.mackenzie.br/bitstreams/077089cb-2276-490f-8cea-a7099f3886ff/download
https://dspace.mackenzie.br/bitstreams/4999586b-9b78-4421-a0d4-d517e2c479c9/download
https://dspace.mackenzie.br/bitstreams/902b6bd4-24b8-44bd-aee3-205078c28385/download
https://dspace.mackenzie.br/bitstreams/38bfed1a-bffc-42aa-9576-e000404ea0e9/download
bitstream.checksum.fl_str_mv ed35ef02d356c37e391002fef6e58304
f0d4931322d30f6d2ee9ebafdf037c16
ba34247aa6eaeede23a330f843cde11f
92afbef40fd2428e95fd76c3fe323712
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv repositorio@mackenzie.br||paola.damato@mackenzie.br
_version_ 1813820031301058560