Classificação de Variações Linguísticas do Português do Brasil por meio da Fala

Detalhes bibliográficos
Autor(a) principal: Matos, Ariadne Nascimento
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
Resumo: As variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucesso tanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse.
id USP_4ca67b7e62233083649166d0927e6c27
oai_identifier_str oai:teses.usp.br:tde-10062024-161431
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Classificação de Variações Linguísticas do Português do Brasil por meio da FalaClassification of Linguistic Variations in Brazilian Portuguese using SpeechAutomatic recognitionClassificação de variações LinguísticasLinguistic variationsLinguistic variations classificationReconhecimento automáticoVariações linguísticasWav2vec 2.0 XLSRWav2vec 2.0 XLSRAs variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucesso tanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse.Linguistic variations are present in various locations and are part of everyday life. Through them, it is possible to identify a persons linguistic origin. Classifying these variations is important for applications focused on speech processing, particularly to enhance automatic recognition systems. In this work, aiming to assist in the classification of linguistic variations in Brazilian Portuguese, convolutional networks and techniques incorporating attention mechanisms, such as Wav2vec 2.0 XLSR and Audio Spectrogram Transformer, were explored.Experiments were conducted in two scenarios: one with few speakers and another with many speakers, using three different datasets: Spotify Podcasts, CORAA-ASR, and Braccent. As reported in the literature, closed-set scenarios, where validation is performed on the same training dataset, do not adequately reflect reality. Therefore, validation with a different dataset from the training set, known as cross-validation, was adopted. Results indicated that, even in the closed-set scenario, models faced difficulties in classifying linguistic variations with more than two classes. Additionally, it was observed that a greater diversity of speakers is necessary to encompass a particular accent and achieve satisfactory model performance. For binary classification with many speakers, the Wav2vec 2.0 XLSR model succeeded in both the closed-set scenario, with an overall F1-score of 83%, and the cross-validation scenario, with 75%. Contributions of this work include the development of a regionalism classifier for Pernambuco and São Paulo capital, as well as the creation of subsets derived from the Spotify Podcasts dataset, covering nine linguistic variations. Despite significant advances, classifying Brazilian accents remains a challenge and requires exploration of new approaches for multiclass scenarios.Biblioteca Digitais de Teses e Dissertações da USPPonti, Moacir AntonelliMatos, Ariadne Nascimento2024-04-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-06-11T12:32:02Zoai:teses.usp.br:tde-10062024-161431Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-06-11T12:32:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
Classification of Linguistic Variations in Brazilian Portuguese using Speech
title Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
spellingShingle Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
Matos, Ariadne Nascimento
Automatic recognition
Classificação de variações Linguísticas
Linguistic variations
Linguistic variations classification
Reconhecimento automático
Variações linguísticas
Wav2vec 2.0 XLSR
Wav2vec 2.0 XLSR
title_short Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
title_full Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
title_fullStr Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
title_full_unstemmed Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
title_sort Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
author Matos, Ariadne Nascimento
author_facet Matos, Ariadne Nascimento
author_role author
dc.contributor.none.fl_str_mv Ponti, Moacir Antonelli
dc.contributor.author.fl_str_mv Matos, Ariadne Nascimento
dc.subject.por.fl_str_mv Automatic recognition
Classificação de variações Linguísticas
Linguistic variations
Linguistic variations classification
Reconhecimento automático
Variações linguísticas
Wav2vec 2.0 XLSR
Wav2vec 2.0 XLSR
topic Automatic recognition
Classificação de variações Linguísticas
Linguistic variations
Linguistic variations classification
Reconhecimento automático
Variações linguísticas
Wav2vec 2.0 XLSR
Wav2vec 2.0 XLSR
description As variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucesso tanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse.
publishDate 2024
dc.date.none.fl_str_mv 2024-04-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256913915412480