Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Múltiplos Olhares em Ciência da Informação |
Texto Completo: | https://periodicos.ufmg.br/index.php/moci/article/view/19170 |
Resumo: | Clustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity. |
id |
UFMG-20_4e43d217a59f7be7f39bc60f9712836d |
---|---|
oai_identifier_str |
oai:periodicos.ufmg.br:article/19170 |
network_acronym_str |
UFMG-20 |
network_name_str |
Múltiplos Olhares em Ciência da Informação |
repository_id_str |
|
spelling |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in PortugueseAgrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma portuguêsAgrupamento de notíciasProcessamento de linguagem naturalAprendizado de MáquinaAnálise de textosGrouping of newsNatural Language ProcessingMachine LearningText analysisClustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity.Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.Universidade Federal de Minas Gerais (UFMG)2020-02-03info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/moci/article/view/19170Múltiplos Olhares em Ciência da Informação ; Vol. 9 No. 2 (2019): PPGGOG - DiscentesMúltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 Núm. 2 (2019): PPGGOG - DiscentesMúltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 No 2 (2019): PPGGOG - DiscentesMúltiplos Olhares em Ciência da Informação; v. 9 n. 2 (2019): PPGGOG - Discentes2237-6658reponame:Múltiplos Olhares em Ciência da Informaçãoinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/moci/article/view/19170/16237Copyright (c) 2020 Múltiplos Olhares em Ciência da Informaçãoinfo:eu-repo/semantics/openAccessMagalhães , Lúcia Helena de Souza , Renato Rocha 2020-04-19T19:55:40Zoai:periodicos.ufmg.br:article/19170Revistahttps://periodicos.ufmg.br/index.php/moci/PUBhttps://periodicos.ufmg.br/index.php/moci/oaimoci@eci.ufmg.br2237-66582237-6658opendoar:2020-04-19T19:55:40Múltiplos Olhares em Ciência da Informação - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.none.fl_str_mv |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português |
title |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese |
spellingShingle |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese Magalhães , Lúcia Helena de Agrupamento de notícias Processamento de linguagem natural Aprendizado de Máquina Análise de textos Grouping of news Natural Language Processing Machine Learning Text analysis |
title_short |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese |
title_full |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese |
title_fullStr |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese |
title_full_unstemmed |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese |
title_sort |
Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese |
author |
Magalhães , Lúcia Helena de |
author_facet |
Magalhães , Lúcia Helena de Souza , Renato Rocha |
author_role |
author |
author2 |
Souza , Renato Rocha |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Magalhães , Lúcia Helena de Souza , Renato Rocha |
dc.subject.por.fl_str_mv |
Agrupamento de notícias Processamento de linguagem natural Aprendizado de Máquina Análise de textos Grouping of news Natural Language Processing Machine Learning Text analysis |
topic |
Agrupamento de notícias Processamento de linguagem natural Aprendizado de Máquina Análise de textos Grouping of news Natural Language Processing Machine Learning Text analysis |
description |
Clustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-02-03 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufmg.br/index.php/moci/article/view/19170 |
url |
https://periodicos.ufmg.br/index.php/moci/article/view/19170 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.ufmg.br/index.php/moci/article/view/19170/16237 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2020 Múltiplos Olhares em Ciência da Informação info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2020 Múltiplos Olhares em Ciência da Informação |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais (UFMG) |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais (UFMG) |
dc.source.none.fl_str_mv |
Múltiplos Olhares em Ciência da Informação ; Vol. 9 No. 2 (2019): PPGGOG - Discentes Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 Núm. 2 (2019): PPGGOG - Discentes Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 No 2 (2019): PPGGOG - Discentes Múltiplos Olhares em Ciência da Informação; v. 9 n. 2 (2019): PPGGOG - Discentes 2237-6658 reponame:Múltiplos Olhares em Ciência da Informação instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Múltiplos Olhares em Ciência da Informação |
collection |
Múltiplos Olhares em Ciência da Informação |
repository.name.fl_str_mv |
Múltiplos Olhares em Ciência da Informação - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
moci@eci.ufmg.br |
_version_ |
1796797464268767232 |