Template Generation for Automatic Summarization

Detalhes bibliográficos
Autor(a) principal: Gouveia, André Francisco Gonçalves
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/92483
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_ef896bf2192658599930b3e8c97064a2
oai_identifier_str oai:estudogeral.uc.pt:10316/92483
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Template Generation for Automatic SummarizationTemplate Generation for Automatic SummarizationProcessamento de Linguagem NaturalExtração de InformaçãoGeração de TemplatesSumarizaçãoRepresentação de TriplosNatural Language ProcessingInformation ExtractionTemplate GenerationSummarizationTriple RepresentationDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaO excesso de dados textuais não estruturados que cresce consistemente a um elevado ritmo via "call centers", onde as interações, usando linguagem natural, entre agentes e clientes ocorrem numa escala de milhões por dia, elevam a urgência de soluções capazes de identificar e resumir o conteúdo relevante nos diálogos.Este estágio ocorreu no Laboratório Inovador da Talkdesk, localizado em Coimbra. Em relação ao produto desenvolvido, este integrará o produto Agent Assist. Com o objetivo claro de revolucionar a forma como os Contact Center funcionam, o Talkdesk Agent Assist é um guia inteligente de conversação que fornece ações sugeridas contextualizadas em tempo real para ajudar e guiar os agentes na entrega de interações de qualidade com os clientes.A equipa do Agent Assist já implementou uma solução para resumir as chamadas de "call centers". No entanto, nesta solução, os templates são criados manualmente. Portanto, o objetivo do estágio é automatizar esse processo, desenvolvendo um produto, recebendo um conjunto de momentos já identificados e classificados, que gere automaticamente resumos de templates.Para alcançar esse objetivo, foram estudados os métodos seguidos por diferentes autores na tarefa de extrair informações de diálogos e de sumarização dos mesmos. Posteriormente, alguns conjuntos de dados foram examinados com base na variação e complexidade da riqueza linguística, bem como na dimensão, sendo, depois, escolhido aquele que tinha mais capacidades de representar as informações não estruturadas existentes nos diálogos. Optamos por uma abordagem baseada na extração de triplos e no clustering para extrair fatos que irão entrar nos templates finais. Foram obtidos resultados que atingiram 78% F1 para alguns domínios, o que nos leva a concluir que o nosso produto é capaz de automatizar o processo de geração de templates.The plethora of unstructured textual data continually growing at an immense rate via call center logs where interactions, using natural language, between agents and customers, happen at a scale of millions per day elevate the urgency of solutions capable of identifying and summarizing relevant content in dialogues.This internship took place at Talkdesk's Innovative Lab located in Coimbra. Regarding the framework developed, it will integrate the Agent Assist Product. With the clear target of revolutionizing the Contact Center space, Talkdesk Agent Assist is an intelligent conversational guide that supplies real-time contextualized suggested actions to aid and support agents in delivering quality customer interactions.Agent Assist team already implemented a solution for summarizing calls. However, in this solution, templates are created manually. So, the purpose of the internship is to automate this process by developing a framework, receiving a set of already identified and classified moments, that automatically generates template summaries.Towards this goal, methods proposed by different researchers for the task of extracting information from dialogues, or even, that summarize dialogues, were first investigated. Later, some datasets were examined based on the linguistic richness, variation, and complexity, as well as the dimension, and therefore was chosen the one most capable of representing the unstructured information present in dialogues.We opted for an approach relying on triple extraction and clustering to extract the facts that will enter the final templates. Results were obtained that reached 78% F1 for some domain types, which leads us to conclude that our framework is capable of automating the process of generating templates/structural summaries.2020-07-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/92483http://hdl.handle.net/10316/92483TID:202521052engGouveia, André Francisco Gonçalvesinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-06-02T07:57:35Zoai:estudogeral.uc.pt:10316/92483Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:11:34.071016Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Template Generation for Automatic Summarization
Template Generation for Automatic Summarization
title Template Generation for Automatic Summarization
spellingShingle Template Generation for Automatic Summarization
Gouveia, André Francisco Gonçalves
Processamento de Linguagem Natural
Extração de Informação
Geração de Templates
Sumarização
Representação de Triplos
Natural Language Processing
Information Extraction
Template Generation
Summarization
Triple Representation
title_short Template Generation for Automatic Summarization
title_full Template Generation for Automatic Summarization
title_fullStr Template Generation for Automatic Summarization
title_full_unstemmed Template Generation for Automatic Summarization
title_sort Template Generation for Automatic Summarization
author Gouveia, André Francisco Gonçalves
author_facet Gouveia, André Francisco Gonçalves
author_role author
dc.contributor.author.fl_str_mv Gouveia, André Francisco Gonçalves
dc.subject.por.fl_str_mv Processamento de Linguagem Natural
Extração de Informação
Geração de Templates
Sumarização
Representação de Triplos
Natural Language Processing
Information Extraction
Template Generation
Summarization
Triple Representation
topic Processamento de Linguagem Natural
Extração de Informação
Geração de Templates
Sumarização
Representação de Triplos
Natural Language Processing
Information Extraction
Template Generation
Summarization
Triple Representation
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2020
dc.date.none.fl_str_mv 2020-07-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/92483
http://hdl.handle.net/10316/92483
TID:202521052
url http://hdl.handle.net/10316/92483
identifier_str_mv TID:202521052
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134012542812160