Automatic Summarization for the Generation of Slides

Detalhes bibliográficos
Autor(a) principal: Costa, Maria João Simões
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/103118
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_c237276bc23d7046a7c1c0a50fba01ea
oai_identifier_str oai:estudogeral.uc.pt:10316/103118
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Automatic Summarization for the Generation of SlidesSumarização Automática para Geração de SlidesSumarizaçãoGeração Automática de SlidesMétodos ExtrativosMétodos AbstrativosProcessamento de linguagem natural; TransformadoresSummarizationAutomatic Generation of SlidesExtractive MethodsAbstractive MethodsNatural Language Processing; TransformersDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaA tecnologia está a tornar-se cada vez mais importante no mundo de hoje, com aplicações em praticamente todos os aspectos da vida das pessoas. Isto é o caso da educação, onde slides de apresentação são uma das ferramentas mais utilizadas para demonstrar facilmente certos tópicos. Por outro lado, criá-los pode ser uma tarefa complexa e demorada; é necessário ler e resumir vários documentos relacionados a um determinado assunto antes de apresentar os resultados em slides. Métodos de inteligência artificial, como aprendizagem automática e processamento de linguagem natural, podem ser usados para criar conjuntos de slides automaticamente, permitindo que os professores usem melhor seu tempo, bastando excluir ou adicionar determinados elementos nos slides, em vez de começar do zero.Esta tese fornece uma visão geral de vários métodos diferentes usados em estudos para a geração automática de slides de apresentação, e também relata um estudo e comparação de vários métodos de sumarização de dois tipos: abstrativos e extrativos. Alguns métodos extrativos são mencionados no estado da arte, enquanto outros foram usados anteriormente apenas para sumarização e são testados neste trabalho em um contexto de geração de slides. Os métodos abstrativos, que apresentam duas abordagens para a sumarização de documentos – uma que resume todo o texto e outra que resume seções individuais – nunca foram usados para geração de slides. Métodos extrativos supervisionados e não supervisionados são usados. Os métodos extrativos não supervisionados e um dos métodos abstrativos são avaliados em inglês e português. Além disso, três datasets são utilizados para as experiências: dois são compostos por pares de documentos e slides, enquanto o outro foi criado especificamente para este estudo e é composto por artigos da Wikipédia. Esses datasets foram usados para avaliar todos os métodos investigados automaticamente usando três métricas diferentes. Depois disso, os slides dos artigos da Wikipedia foram criados e avaliados por humanos.Os resultados dizem-nos que não existe um método melhor que os outros. O método escolhido depende do contexto em que é usado. No entanto, as pessoas que avaliaram os slides consideraram-nos, independentemente do método fornecido, um bom ponto de partida para criar a apresentação de slides final, sendo que isso é o principal objetivo deste projeto. Assim, embora não exista um método que possa ser considerado o melhor para cada sumário, esta tese apresenta as vantagens e limitações de diversos métodos, que ajudarão na criação de sumários futuros e, consequentemente, na automatização da criação de decks de slides, que atualmente é totalmente manual.Technology is becoming increasingly important in today's world, with applications in practically every aspect of people's lives. This is the case in education, where slide shows are one of the most widely used tools during the presentation of specific topics. Creating them, on the other hand, can be a complex and time consuming task, since before presenting the results in slides, it is necessary to read and summarize several documents related to a given subject. Artificial Intelligence methods such as machine learning and natural language processing can be used to automatically create slide decks, allowing teachers and trainers in general to make better use of their time by only having to delete or add certain elements rather than having to start from scratch.This thesis provides an overview of several different methods used in studies for the automatic generation of presentation slides, and it also reports on a study and comparison of several summarization methods of two types: abstractive and extractive. Some extractive methods are mentioned in the state of the art, while others were only previously used for summarization and are tested in this work in a slide generation context. The abstractive methods, which present two approaches to document summarization—one that summarises the entire text and the other that summarises individual sections—have never before been used for slide generation. Both supervised and unsupervised extractive methods are used. The unsupervised extractive methods and one of the abstractive methods are evaluated in both English and Portuguese. Furthermore, three datasets are used for the experiments: two are composed of pairs of documents and slides, while the other was created specifically for this study and it is composed of Wikipedia articles. These datasets were used to evaluate all the investigated methods automatically using three different metrics. After that, slide decks of Wikipedia articles were created and evaluated by humans.The results tell us that there is not a single best method. The chosen method will vary depending on the context in which it is used. However, the people that evaluated the slides considered them, independently of the given method, a good starting point to create the final slide presentation, which is the main goal of this project. So, even though there is not a method that can be considered the best for every text summarization, this thesis presents the advantages and limitations of several methods, which will help in the creation of future summaries and, consequently, in the automation of the creation of slide decks, which is currently completely manual.Outro - O SmartEDU (CENTRO-01-0247-FEDER-072620) é cofinanciado pelo Fundo Europeu de Desenvolvimento Regional (FEDER), através do Portugal 2020 (PT2020), e pelo Programa Operacional Regional Centro 2020.2022-09-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/103118http://hdl.handle.net/10316/103118TID:203077946engCosta, Maria João Simõesinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-10-19T20:38:53Zoai:estudogeral.uc.pt:10316/103118Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:20:00.387466Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Automatic Summarization for the Generation of Slides
Sumarização Automática para Geração de Slides
title Automatic Summarization for the Generation of Slides
spellingShingle Automatic Summarization for the Generation of Slides
Costa, Maria João Simões
Sumarização
Geração Automática de Slides
Métodos Extrativos
Métodos Abstrativos
Processamento de linguagem natural; Transformadores
Summarization
Automatic Generation of Slides
Extractive Methods
Abstractive Methods
Natural Language Processing; Transformers
title_short Automatic Summarization for the Generation of Slides
title_full Automatic Summarization for the Generation of Slides
title_fullStr Automatic Summarization for the Generation of Slides
title_full_unstemmed Automatic Summarization for the Generation of Slides
title_sort Automatic Summarization for the Generation of Slides
author Costa, Maria João Simões
author_facet Costa, Maria João Simões
author_role author
dc.contributor.author.fl_str_mv Costa, Maria João Simões
dc.subject.por.fl_str_mv Sumarização
Geração Automática de Slides
Métodos Extrativos
Métodos Abstrativos
Processamento de linguagem natural; Transformadores
Summarization
Automatic Generation of Slides
Extractive Methods
Abstractive Methods
Natural Language Processing; Transformers
topic Sumarização
Geração Automática de Slides
Métodos Extrativos
Métodos Abstrativos
Processamento de linguagem natural; Transformadores
Summarization
Automatic Generation of Slides
Extractive Methods
Abstractive Methods
Natural Language Processing; Transformers
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2022
dc.date.none.fl_str_mv 2022-09-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/103118
http://hdl.handle.net/10316/103118
TID:203077946
url http://hdl.handle.net/10316/103118
identifier_str_mv TID:203077946
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134093493927936