A study on different text representation methods for clustering algorithms
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | eng por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do Mackenzie |
Texto Completo: | https://dspace.mackenzie.br/handle/10899/38523 |
Resumo: | A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas. |
id |
UPM_f9e4e9f845db9de3526b3d8b06402e12 |
---|---|
oai_identifier_str |
oai:dspace.mackenzie.br:10899/38523 |
network_acronym_str |
UPM |
network_name_str |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
repository_id_str |
10277 |
spelling |
Ferraria, Matheus AmendoeiraOliveira, Pedro Paulo Balbi de2024-04-22T13:11:47Z2024-04-22T13:11:47Z2024-02-20A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas.CAPES - Coordenação de Aperfeiçoamento de Pessoal de NívelCNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológicohttps://dspace.mackenzie.br/handle/10899/38523engporUniversidade Presbiteriana Mackenzieagrupamento de textosanálise léxicamineração de textosmodelos de linguagemprocessamento de linguagem naturalrede imunológica artificialword embeddingsA study on different text representation methods for clustering algorithmsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEinfo:eu-repo/semantics/openAccesshttp://lattes.cnpq.br/9556738277476279https://orcid.org/0000-0002-6022-0270http://lattes.cnpq.br/8382186109028514Ruivo, Eurico Luiz Prosperohttp://lattes.cnpq.br/5918644808671007Silva, Ana Estela Antunes dahttp://lattes.cnpq.br/9070607576528017https://orcid.org/0000-0001-9886-3506The increasing availability of massive amounts of text data has drawn a lot of attention for text mining and natural language processing methods. The complexity of using text arises from the fact that, by nature, computers are not able to comprehend text, usually requiring the application of techniques capable of converting texts into a more familiar type of data for computers. Such type of data is commonly referred to as text repre sentation. In the search for finding a proper text representation many studies emerged, each one proposing different philosophies and strategies to represent texts and extract fea tures from them. For this research, three different categories of text representations are studied: Standard Vector Representation by means of Bag-of-Words (BoW); Grammar Based representation, including Linguistic Inquiry and Word Count (LIWC), Part-of Speech Tagging (POS-Tagging) and Medical Research Council Psycholinguistic Database (MRC); and Distributed representations, such as Word2Vec, fastText, Doc2Vec, and Sen tenceBERT. To obtain results that are representative of different types of text data, four categories of texts are used: short texts (e.g., tweets, and text messages), reviews, news and abstracts. The evaluation of the eight text representations studied in this research was performed from a clustering perspective by using aiNet, a nature-inspired clustering algorithm, and the results are evaluated using five different measures split across internal and external measures. Based on the experimental results, it was possible to observe that, overall, grammar-based representations, despite being simpler, provide very competitive results with the more complex distributed representations. Although the results indicate that some very good clusters are being found, they are significantly different from the categories or the clusters available in the original data. Moreover, the obtained results provided a different observation on pre-trained models, as SentenceBERT obtained worse clusters, as indicated by its internal measures, than most of the other representations studied here.artificial immune networklanguage modelslexiconnatural computingnatural language processingtext clusteringtext miningword embeddingsBrasilEscola de Engenharia Mackenzie (EE)UPMEngenharia Elétrica e ComputaçãoCNPQ::ENGENHARIASORIGINALMATHEUS AMENDOEIRA FERRARIA - protegido.pdfMATHEUS AMENDOEIRA FERRARIA - protegido.pdfapplication/pdf4741675https://dspace.mackenzie.br/bitstreams/077089cb-2276-490f-8cea-a7099f3886ff/downloaded35ef02d356c37e391002fef6e58304MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82269https://dspace.mackenzie.br/bitstreams/4999586b-9b78-4421-a0d4-d517e2c479c9/downloadf0d4931322d30f6d2ee9ebafdf037c16MD52TEXTMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.txtMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.txtExtracted texttext/plain215316https://dspace.mackenzie.br/bitstreams/902b6bd4-24b8-44bd-aee3-205078c28385/downloadba34247aa6eaeede23a330f843cde11fMD53THUMBNAILMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.jpgMATHEUS AMENDOEIRA FERRARIA - protegido.pdf.jpgGenerated Thumbnailimage/jpeg3134https://dspace.mackenzie.br/bitstreams/38bfed1a-bffc-42aa-9576-e000404ea0e9/download92afbef40fd2428e95fd76c3fe323712MD5410899/385232024-04-23 03:01:40.495oai:dspace.mackenzie.br:10899/38523https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772024-04-23T03:01:40Biblioteca Digital de Teses e Dissertações do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)falseTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKPGJyPjxicj4KQ29tIG8gYWNlaXRlIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIFByZXNiaXRlcmlhbmEgTWFja2VuemllIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSBkaXN0cmlidWlyIHNldSB0cmFiYWxobyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgo8YnI+PGJyPgpBY2VpdGFuZG8gZXNzYSBsaWNlbsOnYSB2b2PDqiBjb25jb3JkYSBxdWUgYSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIG8gc2V1IHRyYWJhbGhvIHBhcmEgcXVhbHF1ZXIgbWVpbyBvdSBmb3JtYXRvIGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkbyBzZXUgdHJhYmFsaG8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgo8YnI+PGJyPgpDb25jb3JkYXLDoSBxdWUgc2V1IHRyYWJhbGhvIHRhbWLDqW0gc2Vyw6EgcmVnaWRvIHBlbGEgQ3JlYXRpdmUgQ29tbW9ucyBxdWUgTsODTyBwZXJtaXRlIG8gdXNvIGNvbWVyY2lhbCBvdSBxdWFscXVlciBhbHRlcmHDp8OjbyBkYSBvYnJhIHBvciB0ZXJjZWlyb3MgY29uZm9ybWUgZGVzY3JpdG8gZW0gPGEgaHJlZj0iaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8iIHRhcmdldD0iX2JsYW5rIj5odHRwczovL2NyZWF0aXZlY29tbW9ucy5vcmcvbGljZW5zZXMvYnktbmMtbmQvNC4wLzwvYT4uCjxicj48YnI+ClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBvIGRlcMOzc2l0byBkbyBzZXUgdHJhYmFsaG8gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCjxicj48YnI+CkNhc28gbyBzZXUgdHJhYmFsaG8gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBQcmVzYml0ZXJpYW5hIE1hY2tlbnppZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRvIHNldSB0cmFiYWxobyBvcmEgZGVwb3NpdGFkby4KPGJyPjxicj4KQ0FTTyBPIFRSQUJBTEhPIE9SQSBERVBPU0lUQURPIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgVU5JVkVSU0lEQURFIFBSRVNCSVRFUklBTkEgTUFDS0VOWklFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KPGJyPjxicj4KQSBVbml2ZXJzaWRhZGUgUHJlc2JpdGVyaWFuYSBNYWNrZW56aWUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIGRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZG8gc2V1IHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg== |
dc.title.none.fl_str_mv |
A study on different text representation methods for clustering algorithms |
title |
A study on different text representation methods for clustering algorithms |
spellingShingle |
A study on different text representation methods for clustering algorithms Ferraria, Matheus Amendoeira agrupamento de textos análise léxica mineração de textos modelos de linguagem processamento de linguagem natural rede imunológica artificial word embeddings |
title_short |
A study on different text representation methods for clustering algorithms |
title_full |
A study on different text representation methods for clustering algorithms |
title_fullStr |
A study on different text representation methods for clustering algorithms |
title_full_unstemmed |
A study on different text representation methods for clustering algorithms |
title_sort |
A study on different text representation methods for clustering algorithms |
author |
Ferraria, Matheus Amendoeira |
author_facet |
Ferraria, Matheus Amendoeira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Ferraria, Matheus Amendoeira |
dc.contributor.advisor1.fl_str_mv |
Oliveira, Pedro Paulo Balbi de |
contributor_str_mv |
Oliveira, Pedro Paulo Balbi de |
dc.subject.por.fl_str_mv |
agrupamento de textos análise léxica mineração de textos modelos de linguagem processamento de linguagem natural rede imunológica artificial word embeddings |
topic |
agrupamento de textos análise léxica mineração de textos modelos de linguagem processamento de linguagem natural rede imunológica artificial word embeddings |
description |
A crescente disponibilidade de dados textuais tem atraído bastante atenção para o estudo de técnicas de mineração de texto e processamento de linguagem natural. A complexidade em se utilizar textos decorre do fato de que, por natureza, computadores são incapazes de compreender textos, resultando na necessidade da aplicação de técnicas capazes de converter tais textos em estruturas de dados mais adequadas para um computador. Estas estruturas são chamadas de representações de textos. Na procura por representações eficazes, diversos estudos foram realizados, cada um deles adotando diferentes estratégias e filosofias para representar textos e extrair o conhecimento armazenado neles. Para esta pesquisa três categorias de representação foram estudadas: Representações Vetoriais Básicas através do Bag-of-Words (BoW); Representações Gramaticais, incluindo Linguistic Inquiry and Word Count (LIWC), Part-of-Speech Tagging (POS-Tagging) e Medical Research Council Psycholinguistic Database (MRC); e, Representações Distribuídas, como Word2Vec, fastText, Doc2Vec e SentenceBERT. Para obter resultados mais representativos dos diferentes tipos de dados textuais, quatro categorias foram usadas: textos curtos (e.g., tweets e mensagens de texto), reviews, notícias e resumos de artigos científicos. As oito representações estudadas nesta pesquisa foram avaliadas a partir de uma perspectiva de agrupamento utilizando-se o aiNet, um algoritmo de agrupamento inspirado na natureza, e os resultados foram avaliados através de cinco medidas de avaliação diferentes, tais medidas estão divididas entre internas e externas. A partir dos resultados obtidos foi possível observar que, no geral, representações gramaticais, apesar de mais simples, obtiveram resultados competitivos quando comparados com representações mais complexas como as distribuídas. Apesar dos resultados indicarem que ótimos agrupamentos foram encontrados, eles são significativamente diferentes das categorias apresentadas pelas próprias bases de dados. Ademais, os resultados obtidos garantiram uma perspectiva diferente sobre os modelos pré-treinados, visto que o SentenceBERT obteve agrupamentos piores que as outras representações estudadas, conforme observado pelos resultados de suas medidas internas. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-04-22T13:11:47Z |
dc.date.available.fl_str_mv |
2024-04-22T13:11:47Z |
dc.date.issued.fl_str_mv |
2024-02-20 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://dspace.mackenzie.br/handle/10899/38523 |
url |
https://dspace.mackenzie.br/handle/10899/38523 |
dc.language.iso.fl_str_mv |
eng por |
language |
eng por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE |
instname_str |
Universidade Presbiteriana Mackenzie (MACKENZIE) |
instacron_str |
MACKENZIE |
institution |
MACKENZIE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
collection |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
bitstream.url.fl_str_mv |
https://dspace.mackenzie.br/bitstreams/077089cb-2276-490f-8cea-a7099f3886ff/download https://dspace.mackenzie.br/bitstreams/4999586b-9b78-4421-a0d4-d517e2c479c9/download https://dspace.mackenzie.br/bitstreams/902b6bd4-24b8-44bd-aee3-205078c28385/download https://dspace.mackenzie.br/bitstreams/38bfed1a-bffc-42aa-9576-e000404ea0e9/download |
bitstream.checksum.fl_str_mv |
ed35ef02d356c37e391002fef6e58304 f0d4931322d30f6d2ee9ebafdf037c16 ba34247aa6eaeede23a330f843cde11f 92afbef40fd2428e95fd76c3fe323712 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE) |
repository.mail.fl_str_mv |
repositorio@mackenzie.br||paola.damato@mackenzie.br |
_version_ |
1813820031301058560 |