Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco

Rabelo, Liomar Renner Araujo

Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco

Detalhes bibliográficos
Autor(a) principal:	Rabelo, Liomar Renner Araujo
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da Universidade Federal do Ceará (UFC)
Texto Completo:	http://www.repositorio.ufc.br/handle/riufc/73941
Resumo:	Machine learning models for speech recognition tasks are often trained with unsupervised learning because of the difficulty of collecting high-quality labeled data. The multitasking and multilingual speech recognition model called Whisper gave us the possibility to use a state-of-art model in the area of natural language processing for free. The great innovation of this model was to use weak learning, mixing a large amount of labeled data and unlabeled data, with a high degree of content diversity, demonstrating that weak learning can perform at the same level as other state-of-art models. The Whisper model’s voice recognition and transcription-to-text capabilities in Portuguese were studied by applying the Multilingual TEDx dataset, which contains more than 150 hours of high-quality audio in .flac format and entirely in Portuguese, in addition to their transcripts audios in .vtt format. We were able to observe an error rate below 1, using the Word Error Rate metric, fluctuating between 0.3 and 0.7. This rate demonstrates that the model can, when exposed to small inputs, have an error rate below that recorded in training when exposed to larger inputs.

Metadados do item

id	UFC-7_5549aaf9f57de1deca35d16a9d1b5c42
oai_identifier_str	oai:repositorio.ufc.br:riufc/73941
network_acronym_str	UFC-7
network_name_str	Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fracoInteligência artificialAprendizagem profundaReconhecimento automático da vozMachine learning models for speech recognition tasks are often trained with unsupervised learning because of the difficulty of collecting high-quality labeled data. The multitasking and multilingual speech recognition model called Whisper gave us the possibility to use a state-of-art model in the area of natural language processing for free. The great innovation of this model was to use weak learning, mixing a large amount of labeled data and unlabeled data, with a high degree of content diversity, demonstrating that weak learning can perform at the same level as other state-of-art models. The Whisper model’s voice recognition and transcription-to-text capabilities in Portuguese were studied by applying the Multilingual TEDx dataset, which contains more than 150 hours of high-quality audio in .flac format and entirely in Portuguese, in addition to their transcripts audios in .vtt format. We were able to observe an error rate below 1, using the Word Error Rate metric, fluctuating between 0.3 and 0.7. This rate demonstrates that the model can, when exposed to small inputs, have an error rate below that recorded in training when exposed to larger inputs.Modelos de aprendizado de máquina para tarefas de reconhecimento de voz são geralmente treinados com aprendizado não supervisionado, devido a dificuldade de coletar dados rotulados de alta qualidade. O modelo de reconhecimento de voz multitarefa e multilinguagem chamado Whisper nos fornece a possibilidade de utilizar gratuitamente um modelo estado-da-arte na área de processamento de linguagem natural. A grande inovação deste modelo foi utilizar Aprendizado supervisionado fraco, misturando uma grande quantidade de dados rotulados e não rotulados, com um alto grau de diversidade de conteúdo, demonstrando que Aprendizado supervisionado fraco pode performar no mesmo nível que outros modelos estado-da-arte. Foi estudado as capacidades de reconhecimento de voz e transcrição para texto na língua portuguesa, do modelo Whisper ao aplicarmos o dataset Multilingual TEDx que contém mais de 150 horas de áudio de alta qualidade no formato .flac e totalmente na língua portuguesa, além das transcrições dos mesmos áudios no formato .vtt. Conseguimos observar uma taxa de erro abaixo de 1, utilizando a métrica Word Error Rate, flutuando entre 0.3 e 0.7, essa taxa demonstra que o modelo consegue quando exposto a entradas pequenas ter uma taxa de erro abaixo do registrado no treinamento quando exposto a entradas maiores.Aragão, Francisco Erivelton Fernandes deRabelo, Liomar Renner Araujo2023-08-11T16:49:51Z2023-08-11T16:49:51Z2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfRABELO, Liomar Renner Araujo. Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco. 2022. 36 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Software)-Universidade Federal do Ceará, Campus de Quixadá, Quixadá, 2022.http://www.repositorio.ufc.br/handle/riufc/73941porreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccess2023-08-11T16:49:51Zoai:repositorio.ufc.br:riufc/73941Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br \|\| repositorio@ufc.bropendoar:2023-08-11T16:49:51Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.none.fl_str_mv	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco
title	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco
spellingShingle	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco Rabelo, Liomar Renner Araujo Inteligência artificial Aprendizagem profunda Reconhecimento automático da voz
title_short	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco
title_full	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco
title_fullStr	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco
title_full_unstemmed	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco
title_sort	Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco
author	Rabelo, Liomar Renner Araujo
author_facet	Rabelo, Liomar Renner Araujo
author_role	author
dc.contributor.none.fl_str_mv	Aragão, Francisco Erivelton Fernandes de
dc.contributor.author.fl_str_mv	Rabelo, Liomar Renner Araujo
dc.subject.por.fl_str_mv	Inteligência artificial Aprendizagem profunda Reconhecimento automático da voz
topic	Inteligência artificial Aprendizagem profunda Reconhecimento automático da voz
description	Machine learning models for speech recognition tasks are often trained with unsupervised learning because of the difficulty of collecting high-quality labeled data. The multitasking and multilingual speech recognition model called Whisper gave us the possibility to use a state-of-art model in the area of natural language processing for free. The great innovation of this model was to use weak learning, mixing a large amount of labeled data and unlabeled data, with a high degree of content diversity, demonstrating that weak learning can perform at the same level as other state-of-art models. The Whisper model’s voice recognition and transcription-to-text capabilities in Portuguese were studied by applying the Multilingual TEDx dataset, which contains more than 150 hours of high-quality audio in .flac format and entirely in Portuguese, in addition to their transcripts audios in .vtt format. We were able to observe an error rate below 1, using the Word Error Rate metric, fluctuating between 0.3 and 0.7. This rate demonstrates that the model can, when exposed to small inputs, have an error rate below that recorded in training when exposed to larger inputs.
publishDate	2022
dc.date.none.fl_str_mv	2022 2023-08-11T16:49:51Z 2023-08-11T16:49:51Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	RABELO, Liomar Renner Araujo. Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco. 2022. 36 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Software)-Universidade Federal do Ceará, Campus de Quixadá, Quixadá, 2022. http://www.repositorio.ufc.br/handle/riufc/73941
identifier_str_mv	RABELO, Liomar Renner Araujo. Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco. 2022. 36 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Software)-Universidade Federal do Ceará, Campus de Quixadá, Quixadá, 2022.
url	http://www.repositorio.ufc.br/handle/riufc/73941
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Universidade Federal do Ceará (UFC) instname:Universidade Federal do Ceará (UFC) instacron:UFC
instname_str	Universidade Federal do Ceará (UFC)
instacron_str	UFC
institution	UFC
reponame_str	Repositório Institucional da Universidade Federal do Ceará (UFC)
collection	Repositório Institucional da Universidade Federal do Ceará (UFC)
repository.name.fl_str_mv	Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv	bu@ufc.br \|\| repositorio@ufc.br
_version_	1825332031554322432

Um estudo de caso do modelo de reconhecimento de voz whisper para transcrição de conferências tedx via aprendizado fraco

Registros relacionados