Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias

Detalhes bibliográficos
Autor(a) principal: Afonso, Marcelo Carvalho
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/39549
Resumo: O aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano.
id RCAP_6a7841d50601b017f06bd27acb677511
oai_identifier_str oai:ria.ua.pt:10773/39549
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notíciasJornalismoMultimédiaSomAutomatismoDigitalAudiovisualNotíciasÁudioLocuçãoPodcastPlataformasTTSOralizaçãoLocuçãoO aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano.The increase in digital consumption has, in many cases, penalized media companies, leading to reduced revenue and the need to reinvent business models. Companies seek to reinvent themselves with solutions that enable relevant digital presences without raising production costs. The digital revolution has introduced new consumer formats, some which, the information industry will be able to take advantage of during its digitization process. In this context, news podcasts are already a reality. Although its existence is relatively short as far as the chronology of journalism goes, the increase in consumption of this format makes it a desirable target to incorporate into journalism. Although the production costs of this format are low, sound editing tools and knowledge are needed, which can be limiting for some newsrooms. This research work essentially focuses on the premise of facilitating the creation of this format, keeping in mind the reduction of costs and the reduction of the knowledge necessary for its implementation. For this, we propose the use of text-to-speech technology, commonly recognized as TTS (from English Text-to-Speech) as a proposal for the oralization of journalistic texts. Firstly, we sought to assess which service and voices in Portuguese of Portugal are most suited for this purpose. The tests performed used TTS services from Amazon Polly and Google Cloud Speech Wavenet, with Google Cloud Speech Wavenet services achieving superior results compared to their Amazon peers. Next, we sought to understand how we can combine TTS voices with human voice for podcasts, by testing three different models using real and TTS voices intertwined. The human voice and hybrid voice model obtained better results compared to an exclusive podcast model with synthesized TTS voice. The results also show an acceptance of Text-to-Speech technology in the use of news podcasts, but also the need for technology evolution in the perspective of convergence with human speech.2023-10-18T10:11:30Z2022-12-16T00:00:00Z2022-12-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/39549porAfonso, Marcelo Carvalhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T12:17:16Zoai:ria.ua.pt:10773/39549Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:09:42.820774Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
spellingShingle Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
Afonso, Marcelo Carvalho
Jornalismo
Multimédia
Som
Automatismo
Digital
Audiovisual
Notícias
Áudio
Locução
Podcast
Plataformas
TTS
Oralização
Locução
title_short Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_full Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_fullStr Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_full_unstemmed Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_sort Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
author Afonso, Marcelo Carvalho
author_facet Afonso, Marcelo Carvalho
author_role author
dc.contributor.author.fl_str_mv Afonso, Marcelo Carvalho
dc.subject.por.fl_str_mv Jornalismo
Multimédia
Som
Automatismo
Digital
Audiovisual
Notícias
Áudio
Locução
Podcast
Plataformas
TTS
Oralização
Locução
topic Jornalismo
Multimédia
Som
Automatismo
Digital
Audiovisual
Notícias
Áudio
Locução
Podcast
Plataformas
TTS
Oralização
Locução
description O aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-16T00:00:00Z
2022-12-16
2023-10-18T10:11:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/39549
url http://hdl.handle.net/10773/39549
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137747739344896