Speech Synthesis Framework

Detalhes bibliográficos
Autor(a) principal: Simões, Pedro Vide
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/92500
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_389dfa9259edb87261bc12cc04980d51
oai_identifier_str oai:estudogeral.uc.pt:10316/92500
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Speech Synthesis FrameworkSpeech Synthesis FrameworkAgentes VirtuaisTexto para FalaRedes NeuronaisSintetização de FalaDeteção de ErrosVirtual AgentsText-to-SpeechNeural NetworksSpeech SynthesisError DetectionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaO desenvolvimento de sistemas capazes de compreender e sintetizar fala tem visto grandes progressos nos últimos anos, sendo que estes sistemas, mais conhecidos por assistentes virtuais, já estão presentes em grande parte dos telemóveis e computadores usados nos dias de hoje. Estes assistentes são compostos por dois sistemas principais, um de texto para voz e outro de voz para texto, que permitem interação usando linguagem natural, fornecendo assim uma forma mais fácil e intuitiva de comunicação entre o utilizador e a máquina.Ao aperceber-se dos rápidos desenvolvimentos tecnológicos neste campo, a Talkdesk decidiu avançar com a criação do projeto Virtual Agent (Agente Virtual), cujo intuito é o desenvolvimento de um sistema capaz de responder a simples perguntas recorrentes em call-centers, permitindo assim que os agentes humanos se foquem em assuntos de maior complexidade, o que leva a uma otimização em termos de tempo e recursos.Embora o objetivo inicial fosse o desenvolvimento de uma solução interna, a investigação realizada durante o primeiro semestre permitiu que a equipa adquirisse conhecimentos técnicos nesta área, o que por sua vez permitiu concluir que para alcançar melhoramentos sobre as implementação open-source existentes, seria necessário um investimento considerável em termos financeiros e temporais. Sendo assim, uma nova solução foi pensada.Esta dissertação propõe o desenvolvimento de uma ferramenta interna de sintetização de fala, baseada em redes neuronais e aprendizagem profunda, para o módulo de texto para fala do projeto Virtual Agent, tendo o objetivo de detectar erros ocorridos durante a sintetização e permitir obter uma avaliação de vários sistemas de texto para fala de uma forma rápida e eficaz. A meta final é adquirir conhecimento sobre como um determinado sistema se comporta em relação aos áudio que gera, tendo em conta erros comuns como vozes robóticas ou a presença de longos excertos de silêncio no meio das frases.The development of systems capable of understanding and synthesizing speech has seen great progress in the last years, to a degree where such systems, more commonly known as virtual assistants, are present in most of smartphones and computers used today. These assistants are a conjunction between speech-to-text and text-to-speech systems, which allow interaction using natural language, providing an easier and more intuitive way to communicate between the user and the machine.Seeing these quick technological advances, Talkdesk created the Virtual Agent project, aiming at the development of a system capable of answering simple and recurrent questions on call-centers, allowing human agents to deal with more complex matters and, as a consequence, optimize time and resources.While the initial goal was the development of an in-house solution, all the research made during the first internship allowed us to gather technical knowledge on the text-to-speech field, bringing the conclusion that to make improvements over the existing open-source implementations, a considerable amount of financial and temporal resources would be needed. As such, a new, useful approach, was devised.This dissertation proposes the development of an in-house deep learning speech synthesis framework, for Virtual Agent's text-to-speech module, aimed at detecting synthesization errors and evaluate given text-to-speech solutions. The final goal is gathering knowledge on how a certain system performs when synthesizing speech, looking at usual errors such as robotic tones, presence of extensive silence mid phrases, among others.2020-07-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/92500http://hdl.handle.net/10316/92500TID:202521214engSimões, Pedro Videinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T05:53:37Zoai:estudogeral.uc.pt:10316/92500Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:11:34.926199Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Speech Synthesis Framework
Speech Synthesis Framework
title Speech Synthesis Framework
spellingShingle Speech Synthesis Framework
Simões, Pedro Vide
Agentes Virtuais
Texto para Fala
Redes Neuronais
Sintetização de Fala
Deteção de Erros
Virtual Agents
Text-to-Speech
Neural Networks
Speech Synthesis
Error Detection
title_short Speech Synthesis Framework
title_full Speech Synthesis Framework
title_fullStr Speech Synthesis Framework
title_full_unstemmed Speech Synthesis Framework
title_sort Speech Synthesis Framework
author Simões, Pedro Vide
author_facet Simões, Pedro Vide
author_role author
dc.contributor.author.fl_str_mv Simões, Pedro Vide
dc.subject.por.fl_str_mv Agentes Virtuais
Texto para Fala
Redes Neuronais
Sintetização de Fala
Deteção de Erros
Virtual Agents
Text-to-Speech
Neural Networks
Speech Synthesis
Error Detection
topic Agentes Virtuais
Texto para Fala
Redes Neuronais
Sintetização de Fala
Deteção de Erros
Virtual Agents
Text-to-Speech
Neural Networks
Speech Synthesis
Error Detection
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2020
dc.date.none.fl_str_mv 2020-07-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/92500
http://hdl.handle.net/10316/92500
TID:202521214
url http://hdl.handle.net/10316/92500
identifier_str_mv TID:202521214
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134012584755200