Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10773/39549 |
Resumo: | O aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano. |
id |
RCAP_6a7841d50601b017f06bd27acb677511 |
---|---|
oai_identifier_str |
oai:ria.ua.pt:10773/39549 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notíciasJornalismoMultimédiaSomAutomatismoDigitalAudiovisualNotíciasÁudioLocuçãoPodcastPlataformasTTSOralizaçãoLocuçãoO aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano.The increase in digital consumption has, in many cases, penalized media companies, leading to reduced revenue and the need to reinvent business models. Companies seek to reinvent themselves with solutions that enable relevant digital presences without raising production costs. The digital revolution has introduced new consumer formats, some which, the information industry will be able to take advantage of during its digitization process. In this context, news podcasts are already a reality. Although its existence is relatively short as far as the chronology of journalism goes, the increase in consumption of this format makes it a desirable target to incorporate into journalism. Although the production costs of this format are low, sound editing tools and knowledge are needed, which can be limiting for some newsrooms. This research work essentially focuses on the premise of facilitating the creation of this format, keeping in mind the reduction of costs and the reduction of the knowledge necessary for its implementation. For this, we propose the use of text-to-speech technology, commonly recognized as TTS (from English Text-to-Speech) as a proposal for the oralization of journalistic texts. Firstly, we sought to assess which service and voices in Portuguese of Portugal are most suited for this purpose. The tests performed used TTS services from Amazon Polly and Google Cloud Speech Wavenet, with Google Cloud Speech Wavenet services achieving superior results compared to their Amazon peers. Next, we sought to understand how we can combine TTS voices with human voice for podcasts, by testing three different models using real and TTS voices intertwined. The human voice and hybrid voice model obtained better results compared to an exclusive podcast model with synthesized TTS voice. The results also show an acceptance of Text-to-Speech technology in the use of news podcasts, but also the need for technology evolution in the perspective of convergence with human speech.2023-10-18T10:11:30Z2022-12-16T00:00:00Z2022-12-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/39549porAfonso, Marcelo Carvalhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T12:17:16Zoai:ria.ua.pt:10773/39549Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:09:42.820774Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias |
title |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias |
spellingShingle |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias Afonso, Marcelo Carvalho Jornalismo Multimédia Som Automatismo Digital Audiovisual Notícias Áudio Locução Podcast Plataformas TTS Oralização Locução |
title_short |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias |
title_full |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias |
title_fullStr |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias |
title_full_unstemmed |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias |
title_sort |
Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias |
author |
Afonso, Marcelo Carvalho |
author_facet |
Afonso, Marcelo Carvalho |
author_role |
author |
dc.contributor.author.fl_str_mv |
Afonso, Marcelo Carvalho |
dc.subject.por.fl_str_mv |
Jornalismo Multimédia Som Automatismo Digital Audiovisual Notícias Áudio Locução Podcast Plataformas TTS Oralização Locução |
topic |
Jornalismo Multimédia Som Automatismo Digital Audiovisual Notícias Áudio Locução Podcast Plataformas TTS Oralização Locução |
description |
O aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-12-16T00:00:00Z 2022-12-16 2023-10-18T10:11:30Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10773/39549 |
url |
http://hdl.handle.net/10773/39549 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799137747739344896 |