A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://linguamatica.com/index.php/linguamatica/article/view/V7N1-2 |
Resumo: | Automatic document summarization is the task of automatically generating condensed versions of source texts, presenting itself as one of the fundamental problems in the areas of Information Retrieval and Natural Language Processing. In this paper, different extractive approaches are compared in the task of summarizing individual documents corresponding to journalistic texts written in Portuguese. Through the use of the ROUGE package for measuring the quality of the produced summaries, we report on results for two different experimental domains, involving (i) the generation of headlines for news articles written in European Portuguese, and (ii) the generation of summaries for news articles written in Brazilian Portuguese. The results demonstrate that methods based on the selection of the first sentences have the best results when building extractive news headlines in terms of several ROUGE metrics. Regarding the generation of summaries with more than one sentence, the method that achieved the best results was the LSA Squared algorithm, for the various ROUGE metrics. |
id |
RCAP_e598ae2dfd250d63f4753a9d5cd53a1f |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/203 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese TextsUma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em PortuguêsUma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em PortuguêsSumarização ExtrativaRecuperção de InformaçãoProcessamento de Linguagem NaturalAutomatic document summarization is the task of automatically generating condensed versions of source texts, presenting itself as one of the fundamental problems in the areas of Information Retrieval and Natural Language Processing. In this paper, different extractive approaches are compared in the task of summarizing individual documents corresponding to journalistic texts written in Portuguese. Through the use of the ROUGE package for measuring the quality of the produced summaries, we report on results for two different experimental domains, involving (i) the generation of headlines for news articles written in European Portuguese, and (ii) the generation of summaries for news articles written in Brazilian Portuguese. The results demonstrate that methods based on the selection of the first sentences have the best results when building extractive news headlines in terms of several ROUGE metrics. Regarding the generation of summaries with more than one sentence, the method that achieved the best results was the LSA Squared algorithm, for the various ROUGE metrics.A sumarização automática consiste na tarefa de gerar automaticamente versões condensadas de textos fonte, apresentando-se como um dos problemas fundamentais nas áreas da Recuperação de Informação e do Processamento de Linguagem Natural. Neste artigo, considerando metodologias puramente extrativas, são comparadas diferentes abordagens na tarefa de sumarizar documentos individuais correspondendo a textos jornalísticos escritos em Português. Através da utilização da bancada ROUGE como forma de medir a qualidade dos sumários produzidos, são reportados resultados para dois domínios experimentais diferentes, respetivamente envolvendo (i) a geração de títulos para textos jornalísticos escritos na variante Europeia do Português, e (ii) a geração de sumários com base em artigos jornalísticos escritos na variante Brasileira do Português. Os resultados obtidos demonstram que uma baseline simples, baseada na seleção da primeira frase, obtém melhores resultados na construção de títulos de notícias de forma extrativa, em termos de várias métricas ROUGE. No segundo domínio experimental, envolvendo a geração de sumários de notícias, o método que obteve melhores resultados foi o algoritmo LSA Squared, para as várias métricas ROUGE consideradas neste trabalho.A sumarização automática consiste na tarefa de gerar automaticamente versões condensadas de textos fonte, apresentando-se como um dos problemas fundamentais nas áreas da Recuperação de Informação e do Processamento de Linguagem Natural. Neste artigo, considerando metodologias puramente extrativas, são comparadas diferentes abordagens na tarefa de sumarizar documentos individuais correspondendo a textos jornalísticos escritos em Português. Através da utilização da bancada ROUGE como forma de medir a qualidade dos sumários produzidos, são reportados resultados para dois domínios experimentais diferentes, respetivamente envolvendo (i) a geração de títulos para textos jornalísticos escritos na variante Europeia do Português, e (ii) a geração de sumários com base em artigos jornalísticos escritos na variante Brasileira do Português. Os resultados obtidos demonstram que uma baseline simples, baseada na seleção da primeira frase, obtém melhores resultados na construção de títulos de notícias de forma extrativa, em termos de várias métricas ROUGE. No segundo domínio experimental, envolvendo a geração de sumários de notícias, o método que obteve melhores resultados foi o algoritmo LSA Squared, para as várias métricas ROUGE consideradas neste trabalho.Universidade do Minho e Universidade de Vigo2015-07-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://linguamatica.com/index.php/linguamatica/article/view/V7N1-2Linguamática; Vol. 7 No. 1; 23-40Linguamática; Vol. 7 Núm. 1; 23-40Linguamática; v. 7 n. 1; 23-401647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/V7N1-2https://linguamatica.com/index.php/linguamatica/article/view/V7N1-2/315Costa, Miguel Ângelo AbrantesMartins, Brunoinfo:eu-repo/semantics/openAccess2023-09-08T13:46:33Zoai:linguamatica.com:article/203Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:36.971359Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts Uma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em Português Uma Comparação Sistemática de Diferentes Abordagens para a Sumarização Automática Extrativa de Textos em Português |
title |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts |
spellingShingle |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts Costa, Miguel Ângelo Abrantes Sumarização Extrativa Recuperção de Informação Processamento de Linguagem Natural |
title_short |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts |
title_full |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts |
title_fullStr |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts |
title_full_unstemmed |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts |
title_sort |
A Comparison of Multiple Approaches for the Extractive Summarization of Portuguese Texts |
author |
Costa, Miguel Ângelo Abrantes |
author_facet |
Costa, Miguel Ângelo Abrantes Martins, Bruno |
author_role |
author |
author2 |
Martins, Bruno |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Costa, Miguel Ângelo Abrantes Martins, Bruno |
dc.subject.por.fl_str_mv |
Sumarização Extrativa Recuperção de Informação Processamento de Linguagem Natural |
topic |
Sumarização Extrativa Recuperção de Informação Processamento de Linguagem Natural |
description |
Automatic document summarization is the task of automatically generating condensed versions of source texts, presenting itself as one of the fundamental problems in the areas of Information Retrieval and Natural Language Processing. In this paper, different extractive approaches are compared in the task of summarizing individual documents corresponding to journalistic texts written in Portuguese. Through the use of the ROUGE package for measuring the quality of the produced summaries, we report on results for two different experimental domains, involving (i) the generation of headlines for news articles written in European Portuguese, and (ii) the generation of summaries for news articles written in Brazilian Portuguese. The results demonstrate that methods based on the selection of the first sentences have the best results when building extractive news headlines in terms of several ROUGE metrics. Regarding the generation of summaries with more than one sentence, the method that achieved the best results was the LSA Squared algorithm, for the various ROUGE metrics. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-07-31 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/V7N1-2 |
url |
https://linguamatica.com/index.php/linguamatica/article/view/V7N1-2 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/V7N1-2 https://linguamatica.com/index.php/linguamatica/article/view/V7N1-2/315 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 7 No. 1; 23-40 Linguamática; Vol. 7 Núm. 1; 23-40 Linguamática; v. 7 n. 1; 23-40 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133553258135552 |