Sumarização abstrativa de textos em português utilizando aprendizado de máquina

Detalhes bibliográficos
Autor(a) principal: Paiola, Pedro Henrique
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/236858
Resumo: A sumarização automática consiste no processo de capturar as informações mais relevantes de um texto e condensá-las em um texto compreensível em linguagem natural. Este processo pode ser classificado como sumarização extrativa, quando identifica as sentenças mais importantes do texto de origem para compor o sumário utilizando as mesmas sentenças, ou sumarização abstrativa, quando gera novas sentenças baseadas nas informações mais relevantes do texto de origem. Pesquisas em sumarização automática abstrativa para o português brasileiro ainda são escassas, especialmente para sumarização abstrativa baseada em aprendizado em profundidade. Por este motivo, este consiste no foco desta pesquisa. Nesta dissertação são apresentados experimentos com modelos pré-treinados, ajustados para as bases TeMário, CSTNews e para os textos em português da WikiLingua e XL-Sum. Os resultados apresentados por estes experimentos são relativamente satisfatórios, ainda apresentando problemas, dos quais a maioria são comuns em sumarização abstrativa, mas que podem servir como ponto de partida para futuras pesquisas.
id UNSP_d3ec51a44265964d2d1e34933eac05ae
oai_identifier_str oai:repositorio.unesp.br:11449/236858
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Sumarização abstrativa de textos em português utilizando aprendizado de máquinaAbstractive summarization for portuguese texts using machine learningProcessamento de Linguagem NaturalAprendizado de MáquinaSumarizaçãoSumarização AbstrativaPortuguês BrasileiroNatural language processingMachine learningSummarizationAbstractive summarizationBrazilian portugueseA sumarização automática consiste no processo de capturar as informações mais relevantes de um texto e condensá-las em um texto compreensível em linguagem natural. Este processo pode ser classificado como sumarização extrativa, quando identifica as sentenças mais importantes do texto de origem para compor o sumário utilizando as mesmas sentenças, ou sumarização abstrativa, quando gera novas sentenças baseadas nas informações mais relevantes do texto de origem. Pesquisas em sumarização automática abstrativa para o português brasileiro ainda são escassas, especialmente para sumarização abstrativa baseada em aprendizado em profundidade. Por este motivo, este consiste no foco desta pesquisa. Nesta dissertação são apresentados experimentos com modelos pré-treinados, ajustados para as bases TeMário, CSTNews e para os textos em português da WikiLingua e XL-Sum. Os resultados apresentados por estes experimentos são relativamente satisfatórios, ainda apresentando problemas, dos quais a maioria são comuns em sumarização abstrativa, mas que podem servir como ponto de partida para futuras pesquisas.Automatic summarization captures the most relevant information in a text and condenses it into an understandable text in natural language. This process can be classified as extractive summarization, which identifies the most important sentences from the source text and composes the summary using that very same sentences, or abstractive summarization, which generates new sentences based on the most relevant information from the source text. Research on Brazilian Portuguese-based abstractive summarization is still scarce, especially for deep learning-based abstractive summarization. For this reason, this is the focus of this research. This master thesis presents experiments with pre-trained models, fine-tuned for the TeMário and CSTNews databases and for the texts in Portuguese from WikiLingua and XL-Sum. The results presented by these experiments are relatively satisfactory, still presenting problems, most of which are common in abstractive summarization, but can serve as a starting point for future research.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 88887.487277/2020-00Universidade Estadual Paulista (Unesp)Papa, João Paulo [UNESP]Universidade Estadual Paulista (Unesp)Paiola, Pedro Henrique2022-10-06T16:45:52Z2022-10-06T16:45:52Z2022-09-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/23685833004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-04-23T14:48:46Zoai:repositorio.unesp.br:11449/236858Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T16:58:58.340756Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Sumarização abstrativa de textos em português utilizando aprendizado de máquina
Abstractive summarization for portuguese texts using machine learning
title Sumarização abstrativa de textos em português utilizando aprendizado de máquina
spellingShingle Sumarização abstrativa de textos em português utilizando aprendizado de máquina
Paiola, Pedro Henrique
Processamento de Linguagem Natural
Aprendizado de Máquina
Sumarização
Sumarização Abstrativa
Português Brasileiro
Natural language processing
Machine learning
Summarization
Abstractive summarization
Brazilian portuguese
title_short Sumarização abstrativa de textos em português utilizando aprendizado de máquina
title_full Sumarização abstrativa de textos em português utilizando aprendizado de máquina
title_fullStr Sumarização abstrativa de textos em português utilizando aprendizado de máquina
title_full_unstemmed Sumarização abstrativa de textos em português utilizando aprendizado de máquina
title_sort Sumarização abstrativa de textos em português utilizando aprendizado de máquina
author Paiola, Pedro Henrique
author_facet Paiola, Pedro Henrique
author_role author
dc.contributor.none.fl_str_mv Papa, João Paulo [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Paiola, Pedro Henrique
dc.subject.por.fl_str_mv Processamento de Linguagem Natural
Aprendizado de Máquina
Sumarização
Sumarização Abstrativa
Português Brasileiro
Natural language processing
Machine learning
Summarization
Abstractive summarization
Brazilian portuguese
topic Processamento de Linguagem Natural
Aprendizado de Máquina
Sumarização
Sumarização Abstrativa
Português Brasileiro
Natural language processing
Machine learning
Summarization
Abstractive summarization
Brazilian portuguese
description A sumarização automática consiste no processo de capturar as informações mais relevantes de um texto e condensá-las em um texto compreensível em linguagem natural. Este processo pode ser classificado como sumarização extrativa, quando identifica as sentenças mais importantes do texto de origem para compor o sumário utilizando as mesmas sentenças, ou sumarização abstrativa, quando gera novas sentenças baseadas nas informações mais relevantes do texto de origem. Pesquisas em sumarização automática abstrativa para o português brasileiro ainda são escassas, especialmente para sumarização abstrativa baseada em aprendizado em profundidade. Por este motivo, este consiste no foco desta pesquisa. Nesta dissertação são apresentados experimentos com modelos pré-treinados, ajustados para as bases TeMário, CSTNews e para os textos em português da WikiLingua e XL-Sum. Os resultados apresentados por estes experimentos são relativamente satisfatórios, ainda apresentando problemas, dos quais a maioria são comuns em sumarização abstrativa, mas que podem servir como ponto de partida para futuras pesquisas.
publishDate 2022
dc.date.none.fl_str_mv 2022-10-06T16:45:52Z
2022-10-06T16:45:52Z
2022-09-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/236858
33004153073P2
url http://hdl.handle.net/11449/236858
identifier_str_mv 33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808128729411485696