Prosody and speech synthesis: an integrative literature review

Detalhes bibliográficos
Autor(a) principal: Galdino, Julio Cesar
Data de Publicação: 2023
Outros Autores: Oliveira Jr., Miguel
Tipo de documento: Artigo
Idioma: por
Título da fonte: Revista da ABRALIN (Online)
Texto Completo: https://revista.abralin.org/index.php/abralin/article/view/2130
Resumo: This article aims to present an integrative review of prosody and speech synthesis. To achieve this objective, we elaborated the research question “Which prosodic characteristics are most involved in the improvement of speech synthesis?” and we performed a search on Google Scholar, based on the syntax (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR "síntese da fala"). We included 10 studies between 2010 and 2021, which showed that fundamental frequency and pitch are the most expressive features, although text-to-speech systems use other prosodic features to generate synthetic voice intonation or to improve their performance. Furthermore, the results of this review showed that there are still few studies in Brazil on the relationship between prosody and speech synthesis and that joint research between researchers in the fields of linguistics and engineering is important in order to improve the speech synthesis.
id UFPR-12_9911cfa18c35b564106cbfde11b40dfa
oai_identifier_str oai:ojs.revista.ojs.abralin.org:article/2130
network_acronym_str UFPR-12
network_name_str Revista da ABRALIN (Online)
repository_id_str
spelling Prosody and speech synthesis: an integrative literature reviewProsódia e síntese da fala: uma revisão integrativa da literaturaSíntese de falaProsódiaFrequência fundamentalSpeech SynthesisProsodyFundamental FrequencyThis article aims to present an integrative review of prosody and speech synthesis. To achieve this objective, we elaborated the research question “Which prosodic characteristics are most involved in the improvement of speech synthesis?” and we performed a search on Google Scholar, based on the syntax (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR "síntese da fala"). We included 10 studies between 2010 and 2021, which showed that fundamental frequency and pitch are the most expressive features, although text-to-speech systems use other prosodic features to generate synthetic voice intonation or to improve their performance. Furthermore, the results of this review showed that there are still few studies in Brazil on the relationship between prosody and speech synthesis and that joint research between researchers in the fields of linguistics and engineering is important in order to improve the speech synthesis.Este é um trabalho de revisão integrativa acerca de estudos feitos entre as relações da prosódia e da síntese de fala. A partir da pergunta de pesquisa “Como a prosódia tem sido considerada em trabalhos que visam o aprimoramento da síntese de fala?”, realizamos uma busca no Google Scholar com a sintaxe (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR “síntese da fala”). Avaliamos os títulos e os resumos dos estudos e, mediante a observação de critérios de inclusão e de exclusão, encontramos 10 estudos, entre 2010 e 2021, que dissertam sobre prosódia e síntese de fala. Os trabalhos selecionados indicam que a frequência fundamental (ou pitch) é o recurso mais expressivo para o aprimoramento da fala sintética, embora os sistemas de conversão de texto para a fala utilizem outras características prosódicas para aprimorar seu desempenho. Além disso, os resultados desta revisão mostraram que há ainda pouco estudo no Brasil sobre a relação entre a prosódia e a síntese de fala e que é importante a pesquisa conjunta entre pesquisadores de áreas da linguística e das engenharias, a fim de se obter melhores resultados em sistemas de síntese de fala.Associação Brasileira de Linguística2023-05-22info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontextoinfo:eu-repo/semantics/otherapplication/pdftext/xmlhttps://revista.abralin.org/index.php/abralin/article/view/213010.25189/rabralin.v22i1.2130Revista da ABRALIN; V. 22 N. 1 (2023); 1-15Revista da ABRALIN; V. 22 N. 1 (2023); 1-150102-715810.25189/rabralin.v22i1reponame:Revista da ABRALIN (Online)instname:Universidade Federal do Paraná (UFPR)instacron:UFPRporhttps://revista.abralin.org/index.php/abralin/article/view/2130/2732https://revista.abralin.org/index.php/abralin/article/view/2130/2733Copyright (c) 2023 Julio Cesar Galdino, Miguel Oliveira Jr.https://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessGaldino, Julio CesarOliveira Jr., Miguel2023-06-09T17:15:11Zoai:ojs.revista.ojs.abralin.org:article/2130Revistahttps://revista.abralin.org/index.php/abralinPUBhttps://revista.abralin.org/index.php/abralin/oairkofreitag@uol.com.br || ra@abralin.org2178-76031678-1805opendoar:2023-06-09T17:15:11Revista da ABRALIN (Online) - Universidade Federal do Paraná (UFPR)false
dc.title.none.fl_str_mv Prosody and speech synthesis: an integrative literature review
Prosódia e síntese da fala: uma revisão integrativa da literatura
title Prosody and speech synthesis: an integrative literature review
spellingShingle Prosody and speech synthesis: an integrative literature review
Galdino, Julio Cesar
Síntese de fala
Prosódia
Frequência fundamental
Speech Synthesis
Prosody
Fundamental Frequency
title_short Prosody and speech synthesis: an integrative literature review
title_full Prosody and speech synthesis: an integrative literature review
title_fullStr Prosody and speech synthesis: an integrative literature review
title_full_unstemmed Prosody and speech synthesis: an integrative literature review
title_sort Prosody and speech synthesis: an integrative literature review
author Galdino, Julio Cesar
author_facet Galdino, Julio Cesar
Oliveira Jr., Miguel
author_role author
author2 Oliveira Jr., Miguel
author2_role author
dc.contributor.author.fl_str_mv Galdino, Julio Cesar
Oliveira Jr., Miguel
dc.subject.por.fl_str_mv Síntese de fala
Prosódia
Frequência fundamental
Speech Synthesis
Prosody
Fundamental Frequency
topic Síntese de fala
Prosódia
Frequência fundamental
Speech Synthesis
Prosody
Fundamental Frequency
description This article aims to present an integrative review of prosody and speech synthesis. To achieve this objective, we elaborated the research question “Which prosodic characteristics are most involved in the improvement of speech synthesis?” and we performed a search on Google Scholar, based on the syntax (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR "síntese da fala"). We included 10 studies between 2010 and 2021, which showed that fundamental frequency and pitch are the most expressive features, although text-to-speech systems use other prosodic features to generate synthetic voice intonation or to improve their performance. Furthermore, the results of this review showed that there are still few studies in Brazil on the relationship between prosody and speech synthesis and that joint research between researchers in the fields of linguistics and engineering is important in order to improve the speech synthesis.
publishDate 2023
dc.date.none.fl_str_mv 2023-05-22
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
texto
info:eu-repo/semantics/other
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://revista.abralin.org/index.php/abralin/article/view/2130
10.25189/rabralin.v22i1.2130
url https://revista.abralin.org/index.php/abralin/article/view/2130
identifier_str_mv 10.25189/rabralin.v22i1.2130
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://revista.abralin.org/index.php/abralin/article/view/2130/2732
https://revista.abralin.org/index.php/abralin/article/view/2130/2733
dc.rights.driver.fl_str_mv Copyright (c) 2023 Julio Cesar Galdino, Miguel Oliveira Jr.
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2023 Julio Cesar Galdino, Miguel Oliveira Jr.
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
text/xml
dc.publisher.none.fl_str_mv Associação Brasileira de Linguística
publisher.none.fl_str_mv Associação Brasileira de Linguística
dc.source.none.fl_str_mv Revista da ABRALIN; V. 22 N. 1 (2023); 1-15
Revista da ABRALIN; V. 22 N. 1 (2023); 1-15
0102-7158
10.25189/rabralin.v22i1
reponame:Revista da ABRALIN (Online)
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Revista da ABRALIN (Online)
collection Revista da ABRALIN (Online)
repository.name.fl_str_mv Revista da ABRALIN (Online) - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv rkofreitag@uol.com.br || ra@abralin.org
_version_ 1798329768272199680