Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias

Afonso, Marcelo Carvalho

Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias

Detalhes bibliográficos
Autor(a) principal:	Afonso, Marcelo Carvalho
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10773/39549
Resumo:	O aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano.

Metadados do item

id	RCAP_6a7841d50601b017f06bd27acb677511
oai_identifier_str	oai:ria.ua.pt:10773/39549
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notíciasJornalismoMultimédiaSomAutomatismoDigitalAudiovisualNotíciasÁudioLocuçãoPodcastPlataformasTTSOralizaçãoLocuçãoO aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano.The increase in digital consumption has, in many cases, penalized media companies, leading to reduced revenue and the need to reinvent business models. Companies seek to reinvent themselves with solutions that enable relevant digital presences without raising production costs. The digital revolution has introduced new consumer formats, some which, the information industry will be able to take advantage of during its digitization process. In this context, news podcasts are already a reality. Although its existence is relatively short as far as the chronology of journalism goes, the increase in consumption of this format makes it a desirable target to incorporate into journalism. Although the production costs of this format are low, sound editing tools and knowledge are needed, which can be limiting for some newsrooms. This research work essentially focuses on the premise of facilitating the creation of this format, keeping in mind the reduction of costs and the reduction of the knowledge necessary for its implementation. For this, we propose the use of text-to-speech technology, commonly recognized as TTS (from English Text-to-Speech) as a proposal for the oralization of journalistic texts. Firstly, we sought to assess which service and voices in Portuguese of Portugal are most suited for this purpose. The tests performed used TTS services from Amazon Polly and Google Cloud Speech Wavenet, with Google Cloud Speech Wavenet services achieving superior results compared to their Amazon peers. Next, we sought to understand how we can combine TTS voices with human voice for podcasts, by testing three different models using real and TTS voices intertwined. The human voice and hybrid voice model obtained better results compared to an exclusive podcast model with synthesized TTS voice. The results also show an acceptance of Text-to-Speech technology in the use of news podcasts, but also the need for technology evolution in the perspective of convergence with human speech.2023-10-18T10:11:30Z2022-12-16T00:00:00Z2022-12-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/39549porAfonso, Marcelo Carvalhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T12:17:16Zoai:ria.ua.pt:10773/39549Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:09:42.820774Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
spellingShingle	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias Afonso, Marcelo Carvalho Jornalismo Multimédia Som Automatismo Digital Audiovisual Notícias Áudio Locução Podcast Plataformas TTS Oralização Locução
title_short	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_full	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_fullStr	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_full_unstemmed	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
title_sort	Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias
author	Afonso, Marcelo Carvalho
author_facet	Afonso, Marcelo Carvalho
author_role	author
dc.contributor.author.fl_str_mv	Afonso, Marcelo Carvalho
dc.subject.por.fl_str_mv	Jornalismo Multimédia Som Automatismo Digital Audiovisual Notícias Áudio Locução Podcast Plataformas TTS Oralização Locução
topic	Jornalismo Multimédia Som Automatismo Digital Audiovisual Notícias Áudio Locução Podcast Plataformas TTS Oralização Locução
description	O aumento do consumo digital tem sido, em muitos casos, penalizador para as empresas de media, levando à redução de receita e à necessidade de reinvenção dos modelos de negócio. As empresas procuram reinventar-se com soluções que permitam presenças digitais relevantes sem elevar os custos de produção. A revolução digital veio introduzir novos formatos de consumo, alguns dos quais, a indústria de informação poderá tirar partido durante o seu processo de digitalização. Neste contexto, os podcasts noticiosos são já uma realidade. Embora a sua existência seja relativamente curta no que à cronologia do jornalismo diz respeito, o aumento no consumo deste formato tornam-no num alvo apetecível para incorporar no jornalismo. Embora os custos de produção deste formato sejam relativamente baixos, são necessárias ferramentas e conhecimentos de edição sonora que poderão ser limitantes para algumas redações. Esta dissertação centra-se, essencialmente, na premissa de facilitar a criação deste formato, tendo em mente a redução de custos e a redução dos conhecimentos necessários para a sua implementação. Para isso, propõe-se o recurso à tecnologia de texto-para-Voz, comumente reconhecida como TTS (do Inglês Text-to-Speech) como uma proposta para a oralização dos textos jornalísticos. Em primeiro lugar procurou-se aferir qual o serviço e vozes em português de Portugal mais ajustados para este fim. Os testes realizados utilizaram serviços TTS da Amazon Polly e Google Cloud Speech, com os serviços da Google Cloud Speech Wavenet a obterem resultados superiores aos seus pares da Amazon.Seguidamente, procurou-se compreender como e em que relação combinar vozes TTS com voz humana para podcasts. O modelo de voz humana e voz híbrida obteve melhores resultados face a um modelo de podcast exclusivo com voz sintetizada. Os resultados evidenciam também uma aceitação da tecnologia Text-to-Speech no uso de podcasts noticiosos, mas também a necessidade de evolução da tecnologia na ótica de convergência com o discurso humano.
publishDate	2022
dc.date.none.fl_str_mv	2022-12-16T00:00:00Z 2022-12-16 2023-10-18T10:11:30Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10773/39549
url	http://hdl.handle.net/10773/39549
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799137747739344896

Modelos de combinação de serviços Text-To-Speech com locução convencional para a oralização de notícias

Registros relacionados