Estratégias para Sumarização de Documentos

Silva, João Francisco Feliciano

Estratégias para Sumarização de Documentos

Detalhes bibliográficos
Autor(a) principal:	Silva, João Francisco Feliciano
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10362/139562
Resumo:	Nesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia a

Metadados do item

id	RCAP_c80ce51e6ab6ef7b67bfb4dee4993a40
oai_identifier_str	oai:run.unl.pt:10362/139562
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Estratégias para Sumarização de DocumentosSumarização ExtrativaSumarização AbstrativaTextRankmBARTDANCERDeep-LearningDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaNesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia aThis thesis explored the feasibility of automatically generating executive summaries of technical documents published by Banco de Portugal and maintaining, globally, the main messages. For this purpose, different types of summarization were explored: extractive, the summary is composed of the most relevant sentences in the document (TextRank) and abstractive, text is generated to summarize the document based on its content (mBART and DANCER). The evaluation of results focused on the calculation and analysis of the ROUGE and BERTScore metrics by comparing the summaries produced by the explored models and executive summaries extracted from the documents. The TextRank[34] extractive summarization algorithm proved to be highly capable of selecting the phrases in the documents that best reflect the messages of the respective executive summaries and was found that the best results arise from the application of a summarization ratio depending on the size of the document, to the detriment of usage a single ratio or depending on the type of document. Given the nature of extractive summaries, there is a loss of relationship between the meaning of sentences. In order to approximate the final result to a summary written by humans, the mBART[55] abstractive model was applied to perform the paraphrasing on the result of the TextRank application. Due to the reduced number of data available for training and the considerable size of the summaries generated, there was a deterioration of the results and a considerably higher computational effort. The abstractive algorithm DANCER[17] divides the summarization task into smaller sub-tasks, allowing not only the considerable increase in training examples but also the significant reduction in the training and execution time of the model. This method also made it possible to overcome the limitation of the amount of information that mBART can process simultaneously (1024 tokens). The best solutions are the use of TextRank, when the speed of results is privileged, and the use of DANCER, when greater quality and fluidity is required.Pereira, NunoMagalhães, JoãoLeal, AndréRUNSilva, João Francisco Feliciano2022-06-07T10:40:58Z2022-012022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/139562porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-05-22T18:02:18Zoai:run.unl.pt:10362/139562Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-05-22T18:02:18Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Estratégias para Sumarização de Documentos
title	Estratégias para Sumarização de Documentos
spellingShingle	Estratégias para Sumarização de Documentos Silva, João Francisco Feliciano Sumarização Extrativa Sumarização Abstrativa TextRank mBART DANCER Deep-Learning Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Estratégias para Sumarização de Documentos
title_full	Estratégias para Sumarização de Documentos
title_fullStr	Estratégias para Sumarização de Documentos
title_full_unstemmed	Estratégias para Sumarização de Documentos
title_sort	Estratégias para Sumarização de Documentos
author	Silva, João Francisco Feliciano
author_facet	Silva, João Francisco Feliciano
author_role	author
dc.contributor.none.fl_str_mv	Pereira, Nuno Magalhães, João Leal, André RUN
dc.contributor.author.fl_str_mv	Silva, João Francisco Feliciano
dc.subject.por.fl_str_mv	Sumarização Extrativa Sumarização Abstrativa TextRank mBART DANCER Deep-Learning Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Sumarização Extrativa Sumarização Abstrativa TextRank mBART DANCER Deep-Learning Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Nesta tese foi explorada a viabilidade de gerar automaticamente sumários executivos de documentos técnicos publicados pelo Banco de Portugal e manter, globalmente, as principais mensagens. Para o efeito, foram explorados diferentes tipos de sumarização: extrativa, o sumário é composto pelas frases mais relevantes do documento (TextRank) e abstrativa, é gerado texto para resumir o documento com base no conteúdo do mesmo (mBART e DANCER). A avaliação de resultados incidiu sobre o cálculo e análise das métricas ROUGE e BERTScore através da comparação entre os sumários produzidos pelos modelos explorados e sumários executivos extraídos dos documentos. O algoritmo de sumarização extrativa TextRank[34] provou capacidade elevada de selecionar as frases dos documentos que melhor refletem as mensagens dos respetivos sumários executivos tendo sido constatado que os melhores resultados surgem da aplicação de um rácio de sumarização em função do tamanho do documento, em deterimento da utilização de um rácio único ou em função da tipologia do documento. Dada a natureza dos sumários extrativos, existe uma perda de relação entre o significado das frases. Com objetivo de aproximar o resultado final a um sumário redigido por humanos, aplicou-se o modelo abstrativo mBART[55] para realizar o parafraseamento sobre o resultado da aplicação do TextRank. Devido ao reduzido número de dados disponíveis para treino e ao tamanho considerável dos sumários gerados, assistiu-se a uma deterioração dos resultados além de um esforço computacional consideravelmente superior. O algoritmo abstrativo DANCER[17] divide a tarefa de sumarização em sub-tarefas de inferior dimensão, permitindo não só o aumento considerável de exemplos de treino como a redução significativa do tempo de treino e execução do modelo. Este método permitiu ainda ultrapassar a limitação da quantidade de informação que o mBART consegue processar em simultâneo (1024 tokens). As melhores soluções passam pela utilização do TextRank, quando se privilegia a
publishDate	2022
dc.date.none.fl_str_mv	2022-06-07T10:40:58Z 2022-01 2022-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10362/139562
url	http://hdl.handle.net/10362/139562
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv	mluisa.alvim@gmail.com
_version_	1817545867483152384

Estratégias para Sumarização de Documentos

Registros relacionados