Automatic Summarization for the Generation of Slides
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/103118 |
Resumo: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_c237276bc23d7046a7c1c0a50fba01ea |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/103118 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Automatic Summarization for the Generation of SlidesSumarização Automática para Geração de SlidesSumarizaçãoGeração Automática de SlidesMétodos ExtrativosMétodos AbstrativosProcessamento de linguagem natural; TransformadoresSummarizationAutomatic Generation of SlidesExtractive MethodsAbstractive MethodsNatural Language Processing; TransformersDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaA tecnologia está a tornar-se cada vez mais importante no mundo de hoje, com aplicações em praticamente todos os aspectos da vida das pessoas. Isto é o caso da educação, onde slides de apresentação são uma das ferramentas mais utilizadas para demonstrar facilmente certos tópicos. Por outro lado, criá-los pode ser uma tarefa complexa e demorada; é necessário ler e resumir vários documentos relacionados a um determinado assunto antes de apresentar os resultados em slides. Métodos de inteligência artificial, como aprendizagem automática e processamento de linguagem natural, podem ser usados para criar conjuntos de slides automaticamente, permitindo que os professores usem melhor seu tempo, bastando excluir ou adicionar determinados elementos nos slides, em vez de começar do zero.Esta tese fornece uma visão geral de vários métodos diferentes usados em estudos para a geração automática de slides de apresentação, e também relata um estudo e comparação de vários métodos de sumarização de dois tipos: abstrativos e extrativos. Alguns métodos extrativos são mencionados no estado da arte, enquanto outros foram usados anteriormente apenas para sumarização e são testados neste trabalho em um contexto de geração de slides. Os métodos abstrativos, que apresentam duas abordagens para a sumarização de documentos – uma que resume todo o texto e outra que resume seções individuais – nunca foram usados para geração de slides. Métodos extrativos supervisionados e não supervisionados são usados. Os métodos extrativos não supervisionados e um dos métodos abstrativos são avaliados em inglês e português. Além disso, três datasets são utilizados para as experiências: dois são compostos por pares de documentos e slides, enquanto o outro foi criado especificamente para este estudo e é composto por artigos da Wikipédia. Esses datasets foram usados para avaliar todos os métodos investigados automaticamente usando três métricas diferentes. Depois disso, os slides dos artigos da Wikipedia foram criados e avaliados por humanos.Os resultados dizem-nos que não existe um método melhor que os outros. O método escolhido depende do contexto em que é usado. No entanto, as pessoas que avaliaram os slides consideraram-nos, independentemente do método fornecido, um bom ponto de partida para criar a apresentação de slides final, sendo que isso é o principal objetivo deste projeto. Assim, embora não exista um método que possa ser considerado o melhor para cada sumário, esta tese apresenta as vantagens e limitações de diversos métodos, que ajudarão na criação de sumários futuros e, consequentemente, na automatização da criação de decks de slides, que atualmente é totalmente manual.Technology is becoming increasingly important in today's world, with applications in practically every aspect of people's lives. This is the case in education, where slide shows are one of the most widely used tools during the presentation of specific topics. Creating them, on the other hand, can be a complex and time consuming task, since before presenting the results in slides, it is necessary to read and summarize several documents related to a given subject. Artificial Intelligence methods such as machine learning and natural language processing can be used to automatically create slide decks, allowing teachers and trainers in general to make better use of their time by only having to delete or add certain elements rather than having to start from scratch.This thesis provides an overview of several different methods used in studies for the automatic generation of presentation slides, and it also reports on a study and comparison of several summarization methods of two types: abstractive and extractive. Some extractive methods are mentioned in the state of the art, while others were only previously used for summarization and are tested in this work in a slide generation context. The abstractive methods, which present two approaches to document summarization—one that summarises the entire text and the other that summarises individual sections—have never before been used for slide generation. Both supervised and unsupervised extractive methods are used. The unsupervised extractive methods and one of the abstractive methods are evaluated in both English and Portuguese. Furthermore, three datasets are used for the experiments: two are composed of pairs of documents and slides, while the other was created specifically for this study and it is composed of Wikipedia articles. These datasets were used to evaluate all the investigated methods automatically using three different metrics. After that, slide decks of Wikipedia articles were created and evaluated by humans.The results tell us that there is not a single best method. The chosen method will vary depending on the context in which it is used. However, the people that evaluated the slides considered them, independently of the given method, a good starting point to create the final slide presentation, which is the main goal of this project. So, even though there is not a method that can be considered the best for every text summarization, this thesis presents the advantages and limitations of several methods, which will help in the creation of future summaries and, consequently, in the automation of the creation of slide decks, which is currently completely manual.Outro - O SmartEDU (CENTRO-01-0247-FEDER-072620) é cofinanciado pelo Fundo Europeu de Desenvolvimento Regional (FEDER), através do Portugal 2020 (PT2020), e pelo Programa Operacional Regional Centro 2020.2022-09-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/103118http://hdl.handle.net/10316/103118TID:203077946engCosta, Maria João Simõesinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-10-19T20:38:53Zoai:estudogeral.uc.pt:10316/103118Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:20:00.387466Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Automatic Summarization for the Generation of Slides Sumarização Automática para Geração de Slides |
title |
Automatic Summarization for the Generation of Slides |
spellingShingle |
Automatic Summarization for the Generation of Slides Costa, Maria João Simões Sumarização Geração Automática de Slides Métodos Extrativos Métodos Abstrativos Processamento de linguagem natural; Transformadores Summarization Automatic Generation of Slides Extractive Methods Abstractive Methods Natural Language Processing; Transformers |
title_short |
Automatic Summarization for the Generation of Slides |
title_full |
Automatic Summarization for the Generation of Slides |
title_fullStr |
Automatic Summarization for the Generation of Slides |
title_full_unstemmed |
Automatic Summarization for the Generation of Slides |
title_sort |
Automatic Summarization for the Generation of Slides |
author |
Costa, Maria João Simões |
author_facet |
Costa, Maria João Simões |
author_role |
author |
dc.contributor.author.fl_str_mv |
Costa, Maria João Simões |
dc.subject.por.fl_str_mv |
Sumarização Geração Automática de Slides Métodos Extrativos Métodos Abstrativos Processamento de linguagem natural; Transformadores Summarization Automatic Generation of Slides Extractive Methods Abstractive Methods Natural Language Processing; Transformers |
topic |
Sumarização Geração Automática de Slides Métodos Extrativos Métodos Abstrativos Processamento de linguagem natural; Transformadores Summarization Automatic Generation of Slides Extractive Methods Abstractive Methods Natural Language Processing; Transformers |
description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-09-15 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/103118 http://hdl.handle.net/10316/103118 TID:203077946 |
url |
http://hdl.handle.net/10316/103118 |
identifier_str_mv |
TID:203077946 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134093493927936 |