Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese

Detalhes bibliográficos
Autor(a) principal: Magalhães , Lúcia Helena de
Data de Publicação: 2020
Outros Autores: Souza , Renato Rocha
Tipo de documento: Artigo
Idioma: por
Título da fonte: Múltiplos Olhares em Ciência da Informação
Texto Completo: https://periodicos.ufmg.br/index.php/moci/article/view/19170
Resumo: Clustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity.
id UFMG-20_4e43d217a59f7be7f39bc60f9712836d
oai_identifier_str oai:periodicos.ufmg.br:article/19170
network_acronym_str UFMG-20
network_name_str Múltiplos Olhares em Ciência da Informação
repository_id_str
spelling Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in PortugueseAgrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma portuguêsAgrupamento de notíciasProcessamento de linguagem naturalAprendizado de MáquinaAnálise de textosGrouping of newsNatural Language ProcessingMachine LearningText analysisClustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity.Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.Universidade Federal de Minas Gerais (UFMG)2020-02-03info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/moci/article/view/19170Múltiplos Olhares em Ciência da Informação ; Vol. 9 No. 2 (2019): PPGGOG - DiscentesMúltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 Núm. 2 (2019): PPGGOG - DiscentesMúltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 No 2 (2019): PPGGOG - DiscentesMúltiplos Olhares em Ciência da Informação; v. 9 n. 2 (2019): PPGGOG - Discentes2237-6658reponame:Múltiplos Olhares em Ciência da Informaçãoinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/moci/article/view/19170/16237Copyright (c) 2020 Múltiplos Olhares em Ciência da Informaçãoinfo:eu-repo/semantics/openAccessMagalhães , Lúcia Helena de Souza , Renato Rocha 2020-04-19T19:55:40Zoai:periodicos.ufmg.br:article/19170Revistahttps://periodicos.ufmg.br/index.php/moci/PUBhttps://periodicos.ufmg.br/index.php/moci/oaimoci@eci.ufmg.br2237-66582237-6658opendoar:2020-04-19T19:55:40Múltiplos Olhares em Ciência da Informação - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português
title Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
spellingShingle Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
Magalhães , Lúcia Helena de
Agrupamento de notícias
Processamento de linguagem natural
Aprendizado de Máquina
Análise de textos
Grouping of news
Natural Language Processing
Machine Learning
Text analysis
title_short Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
title_full Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
title_fullStr Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
title_full_unstemmed Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
title_sort Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
author Magalhães , Lúcia Helena de
author_facet Magalhães , Lúcia Helena de
Souza , Renato Rocha
author_role author
author2 Souza , Renato Rocha
author2_role author
dc.contributor.author.fl_str_mv Magalhães , Lúcia Helena de
Souza , Renato Rocha
dc.subject.por.fl_str_mv Agrupamento de notícias
Processamento de linguagem natural
Aprendizado de Máquina
Análise de textos
Grouping of news
Natural Language Processing
Machine Learning
Text analysis
topic Agrupamento de notícias
Processamento de linguagem natural
Aprendizado de Máquina
Análise de textos
Grouping of news
Natural Language Processing
Machine Learning
Text analysis
description Clustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity.
publishDate 2020
dc.date.none.fl_str_mv 2020-02-03
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.ufmg.br/index.php/moci/article/view/19170
url https://periodicos.ufmg.br/index.php/moci/article/view/19170
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.ufmg.br/index.php/moci/article/view/19170/16237
dc.rights.driver.fl_str_mv Copyright (c) 2020 Múltiplos Olhares em Ciência da Informação
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2020 Múltiplos Olhares em Ciência da Informação
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais (UFMG)
publisher.none.fl_str_mv Universidade Federal de Minas Gerais (UFMG)
dc.source.none.fl_str_mv Múltiplos Olhares em Ciência da Informação ; Vol. 9 No. 2 (2019): PPGGOG - Discentes
Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 Núm. 2 (2019): PPGGOG - Discentes
Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 No 2 (2019): PPGGOG - Discentes
Múltiplos Olhares em Ciência da Informação; v. 9 n. 2 (2019): PPGGOG - Discentes
2237-6658
reponame:Múltiplos Olhares em Ciência da Informação
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Múltiplos Olhares em Ciência da Informação
collection Múltiplos Olhares em Ciência da Informação
repository.name.fl_str_mv Múltiplos Olhares em Ciência da Informação - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv moci@eci.ufmg.br
_version_ 1796797464268767232