Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro

Gris, Lucas Rafael Stefanel

Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro

Detalhes bibliográficos
Autor(a) principal:	Gris, Lucas Rafael Stefanel
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo:	http://repositorio.utfpr.edu.br/jspui/handle/1/29999
Resumo:	Técnicas de aprendizado profundo tem se mostrado muito eficientes nas mais diversas tarefas, em especial, no desenvolvimento de sistemas de reconhecimento de voz, isto é, sistemas que procuram transcrever sentenças em áudio em sequências de palavras ou textos. Apesar do avanço na área, seu desenvolvimento ainda pode ser considerado uma tarefa difícil, especialmente quando existem poucos dados abertos disponíveis, como no Português Brasileiro. Nesse cenário, este trabalho apresenta o objetivo de validar o desenvolvimento de um reconhecedor de voz utilizando somente bases abertas disponíveis, a partir do ajuste do modelo Wav2Vec 2.0 XLSR-53 pré-treinado em muitas línguas, para o Português Brasileiro. O modelo final obtido apresenta um WER de 11,95%, 13% a menos que o melhor modelo aberto para o Português Brasileiro disponível, o que é um resultado promissor na área. Em suma, este trabalho valida a utilização das técnicas de aprendizado auto-supervisionado, em especial, a utilização da arquitetura Wav2vec 2.0, no desenvolvimento de ASRs robustos, mesmo quando há poucos dados disponíveis, e também expõe possíveis melhorias que podem aprimorar ainda mais o resultado obtido.

Metadados do item

id	UTFPR-12_5eb59e94e06fa744f252907221f02fde
oai_identifier_str	oai:repositorio.utfpr.edu.br:1/29999
network_acronym_str	UTFPR-12
network_name_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling	2022-10-24T16:54:53Z2022-10-24T16:54:53Z2021-05-05GRIS, Lucas Rafael Stefanel. Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/29999Técnicas de aprendizado profundo tem se mostrado muito eficientes nas mais diversas tarefas, em especial, no desenvolvimento de sistemas de reconhecimento de voz, isto é, sistemas que procuram transcrever sentenças em áudio em sequências de palavras ou textos. Apesar do avanço na área, seu desenvolvimento ainda pode ser considerado uma tarefa difícil, especialmente quando existem poucos dados abertos disponíveis, como no Português Brasileiro. Nesse cenário, este trabalho apresenta o objetivo de validar o desenvolvimento de um reconhecedor de voz utilizando somente bases abertas disponíveis, a partir do ajuste do modelo Wav2Vec 2.0 XLSR-53 pré-treinado em muitas línguas, para o Português Brasileiro. O modelo final obtido apresenta um WER de 11,95%, 13% a menos que o melhor modelo aberto para o Português Brasileiro disponível, o que é um resultado promissor na área. Em suma, este trabalho valida a utilização das técnicas de aprendizado auto-supervisionado, em especial, a utilização da arquitetura Wav2vec 2.0, no desenvolvimento de ASRs robustos, mesmo quando há poucos dados disponíveis, e também expõe possíveis melhorias que podem aprimorar ainda mais o resultado obtido.Deep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, its development can still be considered a difficult task, especially when there is a lack of data available, as in Brazilian Portuguese. In this sense, this work aims to validate the development of an Automatic Speech Recognition using only open available audio data, from the fine-tuning of the Wav2Vec 2.0 XLSR-53 model pre-trained in many languages, for the Brazilian Portuguese. The final obtained model presents a WER of 11.95%, 13% less than the best open ASR model for Brazilian Portuguese available, which is a promising result in the area. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust ASRs, even when there is a few available data, and also exposes possible enhancements that can improve even more the obtained result.porUniversidade Tecnológica Federal do ParanáMedianeiraCiência da ComputaçãoUTFPRBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOSistemas de reconhecimento de padrõesRedes neurais (Computação)Reconhecimento automático da vozPattern recognition systemsNeural networks (Computer science)Automatic speech recognitionReconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiroSpeech recognition using WAV2VEC 2.0 for brazilian portugueseinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisMedianeiraCandido Junior, ArnaldoSoares, Anderson da SilvaAikes Junior, JorgePaula Filho, Pedro Luiz deCandido Junior, ArnaldoGris, Lucas Rafael Stefanelinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALreconhecimentovozportuguesbrasileiro.pdfreconhecimentovozportuguesbrasileiro.pdfapplication/pdf6348235http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/1/reconhecimentovozportuguesbrasileiro.pdf7a6e9a69c2546e7addd35cf8bf870e12MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTreconhecimentovozportuguesbrasileiro.pdf.txtreconhecimentovozportuguesbrasileiro.pdf.txtExtracted texttext/plain184635http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/3/reconhecimentovozportuguesbrasileiro.pdf.txt80e34c28b3c4fb24033e979418d1ff65MD53THUMBNAILreconhecimentovozportuguesbrasileiro.pdf.jpgreconhecimentovozportuguesbrasileiro.pdf.jpgGenerated Thumbnailimage/jpeg1239http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/4/reconhecimentovozportuguesbrasileiro.pdf.jpg545de27c0244f3152ef00f700717deceMD541/299992022-10-25 03:05:45.421oai:repositorio.utfpr.edu.br:1/29999TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-10-25T06:05:45Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
dc.title.alternative.pt_BR.fl_str_mv	Speech recognition using WAV2VEC 2.0 for brazilian portuguese
title	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
spellingShingle	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro Gris, Lucas Rafael Stefanel CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Sistemas de reconhecimento de padrões Redes neurais (Computação) Reconhecimento automático da voz Pattern recognition systems Neural networks (Computer science) Automatic speech recognition
title_short	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_full	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_fullStr	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_full_unstemmed	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_sort	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
author	Gris, Lucas Rafael Stefanel
author_facet	Gris, Lucas Rafael Stefanel
author_role	author
dc.contributor.advisor1.fl_str_mv	Candido Junior, Arnaldo
dc.contributor.advisor-co1.fl_str_mv	Soares, Anderson da Silva
dc.contributor.referee1.fl_str_mv	Aikes Junior, Jorge
dc.contributor.referee2.fl_str_mv	Paula Filho, Pedro Luiz de
dc.contributor.referee3.fl_str_mv	Candido Junior, Arnaldo
dc.contributor.author.fl_str_mv	Gris, Lucas Rafael Stefanel
contributor_str_mv	Candido Junior, Arnaldo Soares, Anderson da Silva Aikes Junior, Jorge Paula Filho, Pedro Luiz de Candido Junior, Arnaldo
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Sistemas de reconhecimento de padrões Redes neurais (Computação) Reconhecimento automático da voz Pattern recognition systems Neural networks (Computer science) Automatic speech recognition
dc.subject.por.fl_str_mv	Sistemas de reconhecimento de padrões Redes neurais (Computação) Reconhecimento automático da voz Pattern recognition systems Neural networks (Computer science) Automatic speech recognition
description	Técnicas de aprendizado profundo tem se mostrado muito eficientes nas mais diversas tarefas, em especial, no desenvolvimento de sistemas de reconhecimento de voz, isto é, sistemas que procuram transcrever sentenças em áudio em sequências de palavras ou textos. Apesar do avanço na área, seu desenvolvimento ainda pode ser considerado uma tarefa difícil, especialmente quando existem poucos dados abertos disponíveis, como no Português Brasileiro. Nesse cenário, este trabalho apresenta o objetivo de validar o desenvolvimento de um reconhecedor de voz utilizando somente bases abertas disponíveis, a partir do ajuste do modelo Wav2Vec 2.0 XLSR-53 pré-treinado em muitas línguas, para o Português Brasileiro. O modelo final obtido apresenta um WER de 11,95%, 13% a menos que o melhor modelo aberto para o Português Brasileiro disponível, o que é um resultado promissor na área. Em suma, este trabalho valida a utilização das técnicas de aprendizado auto-supervisionado, em especial, a utilização da arquitetura Wav2vec 2.0, no desenvolvimento de ASRs robustos, mesmo quando há poucos dados disponíveis, e também expõe possíveis melhorias que podem aprimorar ainda mais o resultado obtido.
publishDate	2021
dc.date.issued.fl_str_mv	2021-05-05
dc.date.accessioned.fl_str_mv	2022-10-24T16:54:53Z
dc.date.available.fl_str_mv	2022-10-24T16:54:53Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	GRIS, Lucas Rafael Stefanel. Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.
dc.identifier.uri.fl_str_mv	http://repositorio.utfpr.edu.br/jspui/handle/1/29999
identifier_str_mv	GRIS, Lucas Rafael Stefanel. Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.
url	http://repositorio.utfpr.edu.br/jspui/handle/1/29999
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Medianeira
dc.publisher.program.fl_str_mv	Ciência da Computação
dc.publisher.initials.fl_str_mv	UTFPR
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Medianeira
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR
instname_str	Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str	UTFPR
institution	UTFPR
reponame_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv	http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/1/reconhecimentovozportuguesbrasileiro.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/3/reconhecimentovozportuguesbrasileiro.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29999/4/reconhecimentovozportuguesbrasileiro.pdf.jpg
bitstream.checksum.fl_str_mv	7a6e9a69c2546e7addd35cf8bf870e12 b9d82215ab23456fa2d8b49c5df1b95b 80e34c28b3c4fb24033e979418d1ff65 545de27c0244f3152ef00f700717dece
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_	1797043954973147136

Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro

Registros relacionados