Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos

Detalhes bibliográficos
Autor(a) principal: Dal Bello, Paulo Henrique
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/16675
Resumo: Due to the large amount of data produced daily in text format, whether publicly on social networks or privately within companies, there is a need to analyze and extract information from them. The goal is to turn them into useful tools, such as translation systems and virtual assistants. The area of Natural Language Processing, in conjunction with Machine Learning, provides the necessary technologies for such an objective. One of the most explored tasks in this context is the clustering of documents through unsupervised classification. Document clusters can provide a description of the subjects covered by a collection of documents, representing, in general, categories or themes. Considering this task, in addition to the traditional clustering algorithms, such as k-Means, approaches based on networks have been gaining notoriety in the literature, which build a network from the document collection and use community detection to find groups of documents representing similar themes. These approaches initially need the construction of a network from the documents analyzed, and several algorithms can be used for this purpose, which produces networks with distinct topological characteristics, directly interfering with the quality of the cluster. In this context, the aim of this study is to analyze the influence of network construction algorithms in the clustering of texts. It seeks to assess whether the different ways of building networks can influence the generation of community structures that are representative considering the classes of text documents.
id SCAR_d479f9a1e8d18efb84943849642e953a
oai_identifier_str oai:repositorio.ufscar.br:ufscar/16675
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Dal Bello, Paulo HenriqueValejo, Alan Demétrius Bariahttp://lattes.cnpq.br/9546164790189830http://lattes.cnpq.br/3918266533231668601a6f1b-94bc-410e-8ffa-1acd3c5df6572022-09-26T19:43:08Z2022-09-26T19:43:08Z2022-09-20DAL BELLO, Paulo Henrique. Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos. 2022. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16675.https://repositorio.ufscar.br/handle/ufscar/16675Due to the large amount of data produced daily in text format, whether publicly on social networks or privately within companies, there is a need to analyze and extract information from them. The goal is to turn them into useful tools, such as translation systems and virtual assistants. The area of Natural Language Processing, in conjunction with Machine Learning, provides the necessary technologies for such an objective. One of the most explored tasks in this context is the clustering of documents through unsupervised classification. Document clusters can provide a description of the subjects covered by a collection of documents, representing, in general, categories or themes. Considering this task, in addition to the traditional clustering algorithms, such as k-Means, approaches based on networks have been gaining notoriety in the literature, which build a network from the document collection and use community detection to find groups of documents representing similar themes. These approaches initially need the construction of a network from the documents analyzed, and several algorithms can be used for this purpose, which produces networks with distinct topological characteristics, directly interfering with the quality of the cluster. In this context, the aim of this study is to analyze the influence of network construction algorithms in the clustering of texts. It seeks to assess whether the different ways of building networks can influence the generation of community structures that are representative considering the classes of text documents.Devido à grande quantidade de dados produzidos diariamente no formato de texto, seja publicamente em redes sociais ou de forma privada dentro de empresas, há a necessidade de analisá-los e extrair deles informação. O objetivo é transformá-los em ferramentas úteis, como sistemas de tradução e assistentes virtuais. A área de Processamento de Linguagem Natural, em conjunto com o Aprendizado de Máquina, fornece as tecnologias necessárias para tal objetivo. Uma tarefa muito explorada nesse contexto é o agrupamento de documentos por meio de classificação não supervisionada. Grupos de documentos podem fornecer uma descrição dos assuntos abordados por uma coleção de documentos, representando, em geral, categorias ou temas. Considerando essa tarefa, além dos algoritmos tradicionais de agrupamento, como o k-Means, as abordagens baseadas em redes vem ganhando notoriedade na literatura, as quais constroem uma rede a partir da coleção de documento e utilizam detecção de comunidades para encontrar grupos de documentos que representem temas similares. Essas abordagens necessitam, inicialmente, da construção de uma rede a partir dos documentos analisados, sendo que diversos algoritmos podem ser utilizados para esse propósito, os quais produzem redes com características topológicas distintas, interferindo diretamente na qualidade do agrupamento. Nesse contexto, o objetivo deste estudo é analisar a influência dos algoritmos de construção de redes no agrupamento de textos. Busca-se avaliar se as diferentes formas de se construir redes podem influenciar na geração de estruturas de comunidades que sejam representativas considerando as classes dos documentos de textos.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAprendizado de máquinaAprendizado não supervisionadoAgrupamentoDetecção de comunidadesRedesCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAvaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textosA comparative study on network construction and community detection in document clusteringinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis60060026707d32-df20-4d5f-8bcc-e78dbb278b98reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL2021_1_TCC_Paulo_Dal_Bello_final.pdf2021_1_TCC_Paulo_Dal_Bello_final.pdfTCC Paulo Henrique Dal Belloapplication/pdf1112684https://repositorio.ufscar.br/bitstream/ufscar/16675/1/2021_1_TCC_Paulo_Dal_Bello_final.pdf09022df0e89a96703b2937b8a9009cd4MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/16675/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52TEXT2021_1_TCC_Paulo_Dal_Bello_final.pdf.txt2021_1_TCC_Paulo_Dal_Bello_final.pdf.txtExtracted texttext/plain70056https://repositorio.ufscar.br/bitstream/ufscar/16675/3/2021_1_TCC_Paulo_Dal_Bello_final.pdf.txt82f3395c8bae675167d18faf11464e34MD53THUMBNAIL2021_1_TCC_Paulo_Dal_Bello_final.pdf.jpg2021_1_TCC_Paulo_Dal_Bello_final.pdf.jpgIM Thumbnailimage/jpeg6920https://repositorio.ufscar.br/bitstream/ufscar/16675/4/2021_1_TCC_Paulo_Dal_Bello_final.pdf.jpg44a28b6406e8f856901c89df16b5ff8fMD54ufscar/166752023-09-18 18:32:26.507oai:repositorio.ufscar.br:ufscar/16675Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:26Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
dc.title.alternative.eng.fl_str_mv A comparative study on network construction and community detection in document clustering
title Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
spellingShingle Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
Dal Bello, Paulo Henrique
Aprendizado de máquina
Aprendizado não supervisionado
Agrupamento
Detecção de comunidades
Redes
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
title_full Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
title_fullStr Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
title_full_unstemmed Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
title_sort Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos
author Dal Bello, Paulo Henrique
author_facet Dal Bello, Paulo Henrique
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/3918266533231668
dc.contributor.author.fl_str_mv Dal Bello, Paulo Henrique
dc.contributor.advisor1.fl_str_mv Valejo, Alan Demétrius Baria
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9546164790189830
dc.contributor.authorID.fl_str_mv 601a6f1b-94bc-410e-8ffa-1acd3c5df657
contributor_str_mv Valejo, Alan Demétrius Baria
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado não supervisionado
Agrupamento
Detecção de comunidades
Redes
topic Aprendizado de máquina
Aprendizado não supervisionado
Agrupamento
Detecção de comunidades
Redes
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Due to the large amount of data produced daily in text format, whether publicly on social networks or privately within companies, there is a need to analyze and extract information from them. The goal is to turn them into useful tools, such as translation systems and virtual assistants. The area of Natural Language Processing, in conjunction with Machine Learning, provides the necessary technologies for such an objective. One of the most explored tasks in this context is the clustering of documents through unsupervised classification. Document clusters can provide a description of the subjects covered by a collection of documents, representing, in general, categories or themes. Considering this task, in addition to the traditional clustering algorithms, such as k-Means, approaches based on networks have been gaining notoriety in the literature, which build a network from the document collection and use community detection to find groups of documents representing similar themes. These approaches initially need the construction of a network from the documents analyzed, and several algorithms can be used for this purpose, which produces networks with distinct topological characteristics, directly interfering with the quality of the cluster. In this context, the aim of this study is to analyze the influence of network construction algorithms in the clustering of texts. It seeks to assess whether the different ways of building networks can influence the generation of community structures that are representative considering the classes of text documents.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-09-26T19:43:08Z
dc.date.available.fl_str_mv 2022-09-26T19:43:08Z
dc.date.issued.fl_str_mv 2022-09-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DAL BELLO, Paulo Henrique. Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos. 2022. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16675.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/16675
identifier_str_mv DAL BELLO, Paulo Henrique. Avaliação de métodos de construção de redes e detecção de comunidades no agrupamento de textos. 2022. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16675.
url https://repositorio.ufscar.br/handle/ufscar/16675
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 26707d32-df20-4d5f-8bcc-e78dbb278b98
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/16675/1/2021_1_TCC_Paulo_Dal_Bello_final.pdf
https://repositorio.ufscar.br/bitstream/ufscar/16675/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/16675/3/2021_1_TCC_Paulo_Dal_Bello_final.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/16675/4/2021_1_TCC_Paulo_Dal_Bello_final.pdf.jpg
bitstream.checksum.fl_str_mv 09022df0e89a96703b2937b8a9009cd4
e39d27027a6cc9cb039ad269a5db8e34
82f3395c8bae675167d18faf11464e34
44a28b6406e8f856901c89df16b5ff8f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136411724316672