A study on different text representation methods for clustering algorithms

Ferraria, Matheus Amendoeira

A study on different text representation methods for clustering algorithms

Detalhes bibliográficos
Autor(a) principal:	Ferraria, Matheus Amendoeira
Data de Publicação:	2024
Tipo de documento:	Dissertação
Idioma:	eng por
Título da fonte:	Repositório Digital do Mackenzie
Texto Completo:	https://dspace.mackenzie.br/handle/10899/38523
Resumo:	A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.

Metadados do item

id	UPM_f9e4e9f845db9de3526b3d8b06402e12
oai_identifier_str	oai:dspace.mackenzie.br:10899/38523
network_acronym_str	UPM
network_name_str	Repositório Digital do Mackenzie
repository_id_str	10277
spelling	Ferraria, Matheus AmendoeiraOliveira, Pedro Paulo Balbi de2024-04-22T13:11:47Z2024-04-22T13:11:47Z2024-02-20A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.CAPES - Coordenação de Aperfeiçoamento de Pessoal de NívelCNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológicohttps://dspace.mackenzie.br/handle/10899/38523engporUniversidade Presbiteriana Mackenzieagrupamento de textosanálise léxicamineração de textosmodelos de linguagemprocessamento de linguagem naturalrede imunológica artificialword embeddingsA study on different text representation methods for clustering algorithmsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEinfo:eu-repo/semantics/openAccesshttp://lattes.cnpq.br/9556738277476279https://orcid.org/0000-0002-6022-0270http://lattes.cnpq.br/8382186109028514Ruivo, Eurico Luiz Prosperohttp://lattes.cnpq.br/5918644808671007Silva, Ana Estela Antunes dahttp://lattes.cnpq.br/9070607576528017https://orcid.org/0000-0001-9886-3506The increasing availability of massive amounts of text data has drawn a lot of attention for text mining and natural language processing methods. The complexity of using text arises from the fact that, by nature, computers are not able to comprehend text, usually requiring the application of techniques capable of converting texts into a more familiar type of data for computers. Such type of data is commonly referred to as text repre sentation. In the search for finding a proper text representation many studies emerged, each one proposing different philosophies and strategies to represent texts and extract fea tures from them. For this research, three different categories of text representations are studied: Standard Vector Representation by means of Bag-of-Words (BoW); Grammar Based representation, including Linguistic Inquiry and Word Count (LIWC), Part-of Speech Tagging (POS-Tagging) and Medical Research Council Psycholinguistic Database (MRC); and Distributed representations, such as Word2Vec, fastText, Doc2Vec, and Sen tenceBERT. To obtain results that are representative of different types of text data, four categories of texts are used: short texts (e.g., tweets, and text messages), reviews, news and abstracts. The evaluation of the eight text representations studied in this research was performed from a clustering perspective by using aiNet, a nature-inspired clustering algorithm, and the results are evaluated using five different measures split across internal and external measures. Based on the experimental results, it was possible to observe that, overall, grammar-based representations, despite being simpler, provide very competitive results with the more complex distributed representations. Although the results indicate that some very good clusters are being found, they are significantly different from the categories or the clusters available in the original data. Moreover, the obtained results provided a different observation on pre-trained models, as SentenceBERT obtained worse clusters, as indicated by its internal measures, than most of the other representations studied here.artificial immune networklanguage modelslexiconnatural computingnatural language processingtext clusteringtext miningword embeddingsBrasilEscola de Engenharia Mackenzie (EE)UPMEngenharia Elétrica e ComputaçãoCNPQ::ENGENHARIASORIGINALMATHEUS AMENDOEIRA FERRARIA - protegido.pdfMATHEUS AMENDOEIRA FERRARIA - protegido.pdfapplication/pdf4741675https://dspace.mackenzie.br/bitstreams/077089cb-2276-490f-8cea-a7099f3886ff/downloaded35ef02d356c37e391002fef6e58304MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82269https://dspace.mackenzie.br/bitstreams/4999586b-9b78-4421-a0d4-d517e2c479c9/downloadf0d4931322d30f6d2ee9ebafdf037c16MD52TEXTMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.txtMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.txtExtracted texttext/plain215316https://dspace.mackenzie.br/bitstreams/902b6bd4-24b8-44bd-aee3-205078c28385/downloadba34247aa6eaeede23a330f843cde11fMD53THUMBNAILMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.jpgMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.jpgGenerated Thumbnailimage/jpeg3134https://dspace.mackenzie.br/bitstreams/38bfed1a-bffc-42aa-9576-e000404ea0e9/download92afbef40fd2428e95fd76c3fe323712MD5410899/385232024-04-23 03:01:40.495oai:dspace.mackenzie.br:10899/38523https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br\|\|paola.damato@mackenzie.bropendoar:102772024-04-23T03:01:40Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKPGJyPjxicj4KQ29tIG8gYWNlaXRlIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIFByZXNiaXRlcmlhbmEgTWFja2VuemllIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSBkaXN0cmlidWlyIHNldSB0cmFiYWxobyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgo8YnI+PGJyPgpBY2VpdGFuZG8gZXNzYSBsaWNlbsOnYSB2b2PDqiBjb25jb3JkYSBxdWUgYSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIG8gc2V1IHRyYWJhbGhvIHBhcmEgcXVhbHF1ZXIgbWVpbyBvdSBmb3JtYXRvIGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkbyBzZXUgdHJhYmFsaG8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgo8YnI+PGJyPgpDb25jb3JkYXLDoSBxdWUgc2V1IHRyYWJhbGhvIHRhbWLDqW0gc2Vyw6EgcmVnaWRvIHBlbGEgQ3JlYXRpdmUgQ29tbW9ucyBxdWUgTsODTyBwZXJtaXRlIG8gdXNvIGNvbWVyY2lhbCBvdSBxdWFscXVlciBhbHRlcmHDp8OjbyBkYSBvYnJhIHBvciB0ZXJjZWlyb3MgY29uZm9ybWUgZGVzY3JpdG8gZW0gPGEgaHJlZj0iaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8iIHRhcmdldD0iX2JsYW5rIj5odHRwczovL2NyZWF0aXZlY29tbW9ucy5vcmcvbGljZW5zZXMvYnktbmMtbmQvNC4wLzwvYT4uCjxicj48YnI+ClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBvIGRlcMOzc2l0byBkbyBzZXUgdHJhYmFsaG8gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCjxicj48YnI+CkNhc28gbyBzZXUgdHJhYmFsaG8gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBQcmVzYml0ZXJpYW5hIE1hY2tlbnppZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRvIHNldSB0cmFiYWxobyBvcmEgZGVwb3NpdGFkby4KPGJyPjxicj4KQ0FTTyBPIFRSQUJBTEhPIE9SQSBERVBPU0lUQURPIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgVU5JVkVSU0lEQURFIFBSRVNCSVRFUklBTkEgTUFDS0VOWklFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KPGJyPjxicj4KQSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIGRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZG8gc2V1IHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==
dc.title.none.fl_str_mv	A study on different text representation methods for clustering algorithms
title	A study on different text representation methods for clustering algorithms
spellingShingle	A study on different text representation methods for clustering algorithms Ferraria, Matheus Amendoeira agrupamento de textos análise léxica mineração de textos modelos de linguagem processamento de linguagem natural rede imunológica artificial word embeddings
title_short	A study on different text representation methods for clustering algorithms
title_full	A study on different text representation methods for clustering algorithms
title_fullStr	A study on different text representation methods for clustering algorithms
title_full_unstemmed	A study on different text representation methods for clustering algorithms
title_sort	A study on different text representation methods for clustering algorithms
author	Ferraria, Matheus Amendoeira
author_facet	Ferraria, Matheus Amendoeira
author_role	author
dc.contributor.author.fl_str_mv	Ferraria, Matheus Amendoeira
dc.contributor.advisor1.fl_str_mv	Oliveira, Pedro Paulo Balbi de
contributor_str_mv	Oliveira, Pedro Paulo Balbi de
dc.subject.por.fl_str_mv	agrupamento de textos análise léxica mineração de textos modelos de linguagem processamento de linguagem natural rede imunológica artificial word embeddings
topic	agrupamento de textos análise léxica mineração de textos modelos de linguagem processamento de linguagem natural rede imunológica artificial word embeddings
description	A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.
publishDate	2024
dc.date.accessioned.fl_str_mv	2024-04-22T13:11:47Z
dc.date.available.fl_str_mv	2024-04-22T13:11:47Z
dc.date.issued.fl_str_mv	2024-02-20
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://dspace.mackenzie.br/handle/10899/38523
url	https://dspace.mackenzie.br/handle/10899/38523
dc.language.iso.fl_str_mv	eng por
language	eng por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv	Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv	reponame:Repositório Digital do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE
instname_str	Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str	MACKENZIE
institution	MACKENZIE
reponame_str	Repositório Digital do Mackenzie
collection	Repositório Digital do Mackenzie
bitstream.url.fl_str_mv	https://dspace.mackenzie.br/bitstreams/077089cb-2276-490f-8cea-a7099f3886ff/download https://dspace.mackenzie.br/bitstreams/4999586b-9b78-4421-a0d4-d517e2c479c9/download https://dspace.mackenzie.br/bitstreams/902b6bd4-24b8-44bd-aee3-205078c28385/download https://dspace.mackenzie.br/bitstreams/38bfed1a-bffc-42aa-9576-e000404ea0e9/download
bitstream.checksum.fl_str_mv	ed35ef02d356c37e391002fef6e58304 f0d4931322d30f6d2ee9ebafdf037c16 ba34247aa6eaeede23a330f843cde11f 92afbef40fd2428e95fd76c3fe323712
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv	repositorio@mackenzie.br\|\|paola.damato@mackenzie.br
_version_	1822588114507399168

A study on different text representation methods for clustering algorithms

Registros relacionados