Prosody and speech synthesis: an integrative literature review
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Revista da ABRALIN (Online) |
Texto Completo: | https://revista.abralin.org/index.php/abralin/article/view/2130 |
Resumo: | This article aims to present an integrative review of prosody and speech synthesis. To achieve this objective, we elaborated the research question “Which prosodic characteristics are most involved in the improvement of speech synthesis?” and we performed a search on Google Scholar, based on the syntax (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR "síntese da fala"). We included 10 studies between 2010 and 2021, which showed that fundamental frequency and pitch are the most expressive features, although text-to-speech systems use other prosodic features to generate synthetic voice intonation or to improve their performance. Furthermore, the results of this review showed that there are still few studies in Brazil on the relationship between prosody and speech synthesis and that joint research between researchers in the fields of linguistics and engineering is important in order to improve the speech synthesis. |
id |
UFPR-12_9911cfa18c35b564106cbfde11b40dfa |
---|---|
oai_identifier_str |
oai:ojs.revista.ojs.abralin.org:article/2130 |
network_acronym_str |
UFPR-12 |
network_name_str |
Revista da ABRALIN (Online) |
repository_id_str |
|
spelling |
Prosody and speech synthesis: an integrative literature reviewProsódia e síntese da fala: uma revisão integrativa da literaturaSíntese de falaProsódiaFrequência fundamentalSpeech SynthesisProsodyFundamental FrequencyThis article aims to present an integrative review of prosody and speech synthesis. To achieve this objective, we elaborated the research question “Which prosodic characteristics are most involved in the improvement of speech synthesis?” and we performed a search on Google Scholar, based on the syntax (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR "síntese da fala"). We included 10 studies between 2010 and 2021, which showed that fundamental frequency and pitch are the most expressive features, although text-to-speech systems use other prosodic features to generate synthetic voice intonation or to improve their performance. Furthermore, the results of this review showed that there are still few studies in Brazil on the relationship between prosody and speech synthesis and that joint research between researchers in the fields of linguistics and engineering is important in order to improve the speech synthesis.Este é um trabalho de revisão integrativa acerca de estudos feitos entre as relações da prosódia e da síntese de fala. A partir da pergunta de pesquisa “Como a prosódia tem sido considerada em trabalhos que visam o aprimoramento da síntese de fala?”, realizamos uma busca no Google Scholar com a sintaxe (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR “síntese da fala”). Avaliamos os títulos e os resumos dos estudos e, mediante a observação de critérios de inclusão e de exclusão, encontramos 10 estudos, entre 2010 e 2021, que dissertam sobre prosódia e síntese de fala. Os trabalhos selecionados indicam que a frequência fundamental (ou pitch) é o recurso mais expressivo para o aprimoramento da fala sintética, embora os sistemas de conversão de texto para a fala utilizem outras características prosódicas para aprimorar seu desempenho. Além disso, os resultados desta revisão mostraram que há ainda pouco estudo no Brasil sobre a relação entre a prosódia e a síntese de fala e que é importante a pesquisa conjunta entre pesquisadores de áreas da linguística e das engenharias, a fim de se obter melhores resultados em sistemas de síntese de fala.Associação Brasileira de Linguística2023-05-22info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontextoinfo:eu-repo/semantics/otherapplication/pdftext/xmlhttps://revista.abralin.org/index.php/abralin/article/view/213010.25189/rabralin.v22i1.2130Revista da ABRALIN; V. 22 N. 1 (2023); 1-15Revista da ABRALIN; V. 22 N. 1 (2023); 1-150102-715810.25189/rabralin.v22i1reponame:Revista da ABRALIN (Online)instname:Universidade Federal do Paraná (UFPR)instacron:UFPRporhttps://revista.abralin.org/index.php/abralin/article/view/2130/2732https://revista.abralin.org/index.php/abralin/article/view/2130/2733Copyright (c) 2023 Julio Cesar Galdino, Miguel Oliveira Jr.https://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessGaldino, Julio CesarOliveira Jr., Miguel2023-06-09T17:15:11Zoai:ojs.revista.ojs.abralin.org:article/2130Revistahttps://revista.abralin.org/index.php/abralinPUBhttps://revista.abralin.org/index.php/abralin/oairkofreitag@uol.com.br || ra@abralin.org2178-76031678-1805opendoar:2023-06-09T17:15:11Revista da ABRALIN (Online) - Universidade Federal do Paraná (UFPR)false |
dc.title.none.fl_str_mv |
Prosody and speech synthesis: an integrative literature review Prosódia e síntese da fala: uma revisão integrativa da literatura |
title |
Prosody and speech synthesis: an integrative literature review |
spellingShingle |
Prosody and speech synthesis: an integrative literature review Galdino, Julio Cesar Síntese de fala Prosódia Frequência fundamental Speech Synthesis Prosody Fundamental Frequency |
title_short |
Prosody and speech synthesis: an integrative literature review |
title_full |
Prosody and speech synthesis: an integrative literature review |
title_fullStr |
Prosody and speech synthesis: an integrative literature review |
title_full_unstemmed |
Prosody and speech synthesis: an integrative literature review |
title_sort |
Prosody and speech synthesis: an integrative literature review |
author |
Galdino, Julio Cesar |
author_facet |
Galdino, Julio Cesar Oliveira Jr., Miguel |
author_role |
author |
author2 |
Oliveira Jr., Miguel |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Galdino, Julio Cesar Oliveira Jr., Miguel |
dc.subject.por.fl_str_mv |
Síntese de fala Prosódia Frequência fundamental Speech Synthesis Prosody Fundamental Frequency |
topic |
Síntese de fala Prosódia Frequência fundamental Speech Synthesis Prosody Fundamental Frequency |
description |
This article aims to present an integrative review of prosody and speech synthesis. To achieve this objective, we elaborated the research question “Which prosodic characteristics are most involved in the improvement of speech synthesis?” and we performed a search on Google Scholar, based on the syntax (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR "síntese da fala"). We included 10 studies between 2010 and 2021, which showed that fundamental frequency and pitch are the most expressive features, although text-to-speech systems use other prosodic features to generate synthetic voice intonation or to improve their performance. Furthermore, the results of this review showed that there are still few studies in Brazil on the relationship between prosody and speech synthesis and that joint research between researchers in the fields of linguistics and engineering is important in order to improve the speech synthesis. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-05-22 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion texto info:eu-repo/semantics/other |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://revista.abralin.org/index.php/abralin/article/view/2130 10.25189/rabralin.v22i1.2130 |
url |
https://revista.abralin.org/index.php/abralin/article/view/2130 |
identifier_str_mv |
10.25189/rabralin.v22i1.2130 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://revista.abralin.org/index.php/abralin/article/view/2130/2732 https://revista.abralin.org/index.php/abralin/article/view/2130/2733 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2023 Julio Cesar Galdino, Miguel Oliveira Jr. https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2023 Julio Cesar Galdino, Miguel Oliveira Jr. https://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf text/xml |
dc.publisher.none.fl_str_mv |
Associação Brasileira de Linguística |
publisher.none.fl_str_mv |
Associação Brasileira de Linguística |
dc.source.none.fl_str_mv |
Revista da ABRALIN; V. 22 N. 1 (2023); 1-15 Revista da ABRALIN; V. 22 N. 1 (2023); 1-15 0102-7158 10.25189/rabralin.v22i1 reponame:Revista da ABRALIN (Online) instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Revista da ABRALIN (Online) |
collection |
Revista da ABRALIN (Online) |
repository.name.fl_str_mv |
Revista da ABRALIN (Online) - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
rkofreitag@uol.com.br || ra@abralin.org |
_version_ |
1798329768272199680 |