Estratégias para Sumarização de Documentos

Detalhes bibliográficos
Autor(a) principal: Silva, João Francisco Feliciano
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/139562
Resumo: Nesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia a
id RCAP_c80ce51e6ab6ef7b67bfb4dee4993a40
oai_identifier_str oai:run.unl.pt:10362/139562
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Estratégias para Sumarização de DocumentosSumarização ExtrativaSumarização AbstrativaTextRankmBARTDANCERDeep-LearningDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaNesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia aThis thesis explored the feasibility of automatically generating executive summaries of technical documents published by Banco de Portugal and maintaining, globally, the main messages. For this purpose, different types of summarization were explored: extractive, the summary is composed of the most relevant sentences in the document (TextRank) and abstractive, text is generated to summarize the document based on its content (mBART and DANCER). The evaluation of results focused on the calculation and analysis of the ROUGE and BERTScore metrics by comparing the summaries produced by the explored models and executive summaries extracted from the documents. The TextRank[34] extractive summarization algorithm proved to be highly capable of selecting the phrases in the documents that best reflect the messages of the respective executive summaries and was found that the best results arise from the application of a summarization ratio depending on the size of the document, to the detriment of usage a single ratio or depending on the type of document. Given the nature of extractive summaries, there is a loss of relationship between the meaning of sentences. In order to approximate the final result to a summary written by humans, the mBART[55] abstractive model was applied to perform the paraphrasing on the result of the TextRank application. Due to the reduced number of data available for training and the considerable size of the summaries generated, there was a deterioration of the results and a considerably higher computational effort. The abstractive algorithm DANCER[17] divides the summarization task into smaller sub-tasks, allowing not only the considerable increase in training examples but also the significant reduction in the training and execution time of the model. This method also made it possible to overcome the limitation of the amount of information that mBART can process simultaneously (1024 tokens). The best solutions are the use of TextRank, when the speed of results is privileged, and the use of DANCER, when greater quality and fluidity is required.Pereira, NunoMagalhães, JoãoLeal, AndréRUNSilva, João Francisco Feliciano2022-06-07T10:40:58Z2022-012022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/139562porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:16:50Zoai:run.unl.pt:10362/139562Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:49:27.569741Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Estratégias para Sumarização de Documentos
title Estratégias para Sumarização de Documentos
spellingShingle Estratégias para Sumarização de Documentos
Silva, João Francisco Feliciano
Sumarização Extrativa
Sumarização Abstrativa
TextRank
mBART
DANCER
Deep-Learning
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Estratégias para Sumarização de Documentos
title_full Estratégias para Sumarização de Documentos
title_fullStr Estratégias para Sumarização de Documentos
title_full_unstemmed Estratégias para Sumarização de Documentos
title_sort Estratégias para Sumarização de Documentos
author Silva, João Francisco Feliciano
author_facet Silva, João Francisco Feliciano
author_role author
dc.contributor.none.fl_str_mv Pereira, Nuno
Magalhães, João
Leal, André
RUN
dc.contributor.author.fl_str_mv Silva, João Francisco Feliciano
dc.subject.por.fl_str_mv Sumarização Extrativa
Sumarização Abstrativa
TextRank
mBART
DANCER
Deep-Learning
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Sumarização Extrativa
Sumarização Abstrativa
TextRank
mBART
DANCER
Deep-Learning
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Nesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia a
publishDate 2022
dc.date.none.fl_str_mv 2022-06-07T10:40:58Z
2022-01
2022-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/139562
url http://hdl.handle.net/10362/139562
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799138093435977728