Estratégias para Sumarização de Documentos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10362/139562 |
Resumo: | Nesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia a |
id |
RCAP_c80ce51e6ab6ef7b67bfb4dee4993a40 |
---|---|
oai_identifier_str |
oai:run.unl.pt:10362/139562 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Estratégias para Sumarização de DocumentosSumarização ExtrativaSumarização AbstrativaTextRankmBARTDANCERDeep-LearningDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaNesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia aThis thesis explored the feasibility of automatically generating executive summaries of technical documents published by Banco de Portugal and maintaining, globally, the main messages. For this purpose, different types of summarization were explored: extractive, the summary is composed of the most relevant sentences in the document (TextRank) and abstractive, text is generated to summarize the document based on its content (mBART and DANCER). The evaluation of results focused on the calculation and analysis of the ROUGE and BERTScore metrics by comparing the summaries produced by the explored models and executive summaries extracted from the documents. The TextRank[34] extractive summarization algorithm proved to be highly capable of selecting the phrases in the documents that best reflect the messages of the respective executive summaries and was found that the best results arise from the application of a summarization ratio depending on the size of the document, to the detriment of usage a single ratio or depending on the type of document. Given the nature of extractive summaries, there is a loss of relationship between the meaning of sentences. In order to approximate the final result to a summary written by humans, the mBART[55] abstractive model was applied to perform the paraphrasing on the result of the TextRank application. Due to the reduced number of data available for training and the considerable size of the summaries generated, there was a deterioration of the results and a considerably higher computational effort. The abstractive algorithm DANCER[17] divides the summarization task into smaller sub-tasks, allowing not only the considerable increase in training examples but also the significant reduction in the training and execution time of the model. This method also made it possible to overcome the limitation of the amount of information that mBART can process simultaneously (1024 tokens). The best solutions are the use of TextRank, when the speed of results is privileged, and the use of DANCER, when greater quality and fluidity is required.Pereira, NunoMagalhães, JoãoLeal, AndréRUNSilva, João Francisco Feliciano2022-06-07T10:40:58Z2022-012022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/139562porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:16:50Zoai:run.unl.pt:10362/139562Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:49:27.569741Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Estratégias para Sumarização de Documentos |
title |
Estratégias para Sumarização de Documentos |
spellingShingle |
Estratégias para Sumarização de Documentos Silva, João Francisco Feliciano Sumarização Extrativa Sumarização Abstrativa TextRank mBART DANCER Deep-Learning Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Estratégias para Sumarização de Documentos |
title_full |
Estratégias para Sumarização de Documentos |
title_fullStr |
Estratégias para Sumarização de Documentos |
title_full_unstemmed |
Estratégias para Sumarização de Documentos |
title_sort |
Estratégias para Sumarização de Documentos |
author |
Silva, João Francisco Feliciano |
author_facet |
Silva, João Francisco Feliciano |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pereira, Nuno Magalhães, João Leal, André RUN |
dc.contributor.author.fl_str_mv |
Silva, João Francisco Feliciano |
dc.subject.por.fl_str_mv |
Sumarização Extrativa Sumarização Abstrativa TextRank mBART DANCER Deep-Learning Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Sumarização Extrativa Sumarização Abstrativa TextRank mBART DANCER Deep-Learning Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Nesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia a |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-06-07T10:40:58Z 2022-01 2022-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10362/139562 |
url |
http://hdl.handle.net/10362/139562 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799138093435977728 |