Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras

Azevedo, Diego Marques de

Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras

Detalhes bibliográficos
Autor(a) principal:	Azevedo, Diego Marques de
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UnB
Texto Completo:	http://repositorio2.unb.br/jspui/handle/10482/47828
Resumo:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.

Metadados do item

id	UNB_6ac1e3d329fe3908f16cd0386ef83ab9
oai_identifier_str	oai:repositorio.unb.br:10482/47828
network_acronym_str	UNB
network_name_str	Repositório Institucional da UnB
repository_id_str
spelling	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileirasReconhecimento automático da vozRedes neurais (Computação)Reconhecimento automático da voz - sistemasTranscriçãoModelos lineares generalizadosSoftware proprietárioDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.Com o uso de tecnologias baseadas em redes neurais artificiais, os sistemas de Reconhecimento Automático de Fala (do inglês, Automatic Speech Recognition – ASR) para o Português Brasileiro (PB) têm apresentado importantes avanços nos últimos anos. Muitos dos trabalhos que alcançaram resultados no estado da arte utilizaram modelos de pontaa-ponta de código aberto, como o Wav2vec 2.0 e o Whisper. Dentre outras alternativas, estão as ferramentas comerciais, também avaliadas em nosso trabalho. Foram incluídas no estudo as APIs do Google e da Microsoft para a transcrição da fala em texto e também o sistema da VoiceInteraction, chamado Audimus. Nós analisamos o desempenho relativo dessas ferramentas – utilizando como métrica o Word Error Rate (WER) – sobre a transcrição de áudios gravados de rádios e canais de TV. Um modelo linear generalizado (do inglês, Generalized Linear Model – GLM) foi criado para descrever de forma estocástica, para cada método em questão, o relacionamento entre as propriedades dos áudios utilizados no experimento (exemplo, formato do arquivo e duração do áudio) e a acurácia da transcrição. Dentre outros usos, essa estratégia permite a análise local da performance de cada método, sendo possível estimar o desempenho esperado para cada áudio. Assim, é possível identificar não apenas a ferramenta com melhor performance global, mas também diagnosticar em quais tipos de áudio cada método teria o melhor desempenho. Essa abordagem possibilita a construção de sistemas ASR otimizados a partir do uso composto de diversos transcritores. Os dados gerados e o código utilizado para construção do modelo estocástico neste experimento estão publicamente disponíveis.With the use of neural network-based technologies, Automatic Speech Recognition (ASR) systems for Brazilian Portuguese (BP) have shown great progress in the last few years. Several state-of-art results were achieved by open-source end-to-end models, such as the Kaldi toolkit, the Wav2vec 2.0 and the Whisper. Alternative commercial tools are also available, including the Google and Microsoft speech to text APIs and the Audimus System of VoiceInteraction. We analyse the relative performance of such tools – in terms of the so-called Word Error Rate (WER) – when transcribing audio recordings from Brazilian radio and TV channels. A generalized linear model (GLM) is designed to stochastically describe the relationship between some of the audio’s properties (e.g. file format and audio duration) and the resulting WER, for each method under consideration. Among other uses, such strategy enables the analysis of local performances, indicating not only which tool shows the best overall performance, but when exactly it is expected to do so. This, in turn, could be used to design an optimized system composed of several transcribers. The data generated for conducting this experiment and the scripts used to produce the stochastic model are publicly available.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em Computação Aplicada, Mestrado ProfissionalRodrigues, Guilherme SouzaLadeira, MarceloAzevedo, Diego Marques de2024-02-21T21:36:22Z2024-02-21T21:36:22Z2024-02-212023-03-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfAZEVEDO, Diego Marques de. Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras. 2023. xii, 34 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023.http://repositorio2.unb.br/jspui/handle/10482/47828porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-02-21T21:36:22Zoai:repositorio.unb.br:10482/47828Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-02-21T21:36:22Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras
title	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras
spellingShingle	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras Azevedo, Diego Marques de Reconhecimento automático da voz Redes neurais (Computação) Reconhecimento automático da voz - sistemas Transcrição Modelos lineares generalizados Software proprietário
title_short	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras
title_full	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras
title_fullStr	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras
title_full_unstemmed	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras
title_sort	Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras
author	Azevedo, Diego Marques de
author_facet	Azevedo, Diego Marques de
author_role	author
dc.contributor.none.fl_str_mv	Rodrigues, Guilherme Souza Ladeira, Marcelo
dc.contributor.author.fl_str_mv	Azevedo, Diego Marques de
dc.subject.por.fl_str_mv	Reconhecimento automático da voz Redes neurais (Computação) Reconhecimento automático da voz - sistemas Transcrição Modelos lineares generalizados Software proprietário
topic	Reconhecimento automático da voz Redes neurais (Computação) Reconhecimento automático da voz - sistemas Transcrição Modelos lineares generalizados Software proprietário
description	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
publishDate	2023
dc.date.none.fl_str_mv	2023-03-03 2024-02-21T21:36:22Z 2024-02-21T21:36:22Z 2024-02-21
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	AZEVEDO, Diego Marques de. Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras. 2023. xii, 34 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023. http://repositorio2.unb.br/jspui/handle/10482/47828
identifier_str_mv	AZEVEDO, Diego Marques de. Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras. 2023. xii, 34 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023.
url	http://repositorio2.unb.br/jspui/handle/10482/47828
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Repositório Institucional da UnB
collection	Repositório Institucional da UnB
repository.name.fl_str_mv	Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv	repositorio@unb.br
_version_	1810580673673560064

Uma análise probabilística do desempenho de sistemas ASR para rádios e tvs brasileiras

Registros relacionados