Classificação de Variações Linguísticas do Português do Brasil por meio da Fala
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/ |
Resumo: | As variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucesso tanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse. |
id |
USP_4ca67b7e62233083649166d0927e6c27 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-10062024-161431 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Classificação de Variações Linguísticas do Português do Brasil por meio da FalaClassification of Linguistic Variations in Brazilian Portuguese using SpeechAutomatic recognitionClassificação de variações LinguísticasLinguistic variationsLinguistic variations classificationReconhecimento automáticoVariações linguísticasWav2vec 2.0 XLSRWav2vec 2.0 XLSRAs variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucesso tanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse.Linguistic variations are present in various locations and are part of everyday life. Through them, it is possible to identify a persons linguistic origin. Classifying these variations is important for applications focused on speech processing, particularly to enhance automatic recognition systems. In this work, aiming to assist in the classification of linguistic variations in Brazilian Portuguese, convolutional networks and techniques incorporating attention mechanisms, such as Wav2vec 2.0 XLSR and Audio Spectrogram Transformer, were explored.Experiments were conducted in two scenarios: one with few speakers and another with many speakers, using three different datasets: Spotify Podcasts, CORAA-ASR, and Braccent. As reported in the literature, closed-set scenarios, where validation is performed on the same training dataset, do not adequately reflect reality. Therefore, validation with a different dataset from the training set, known as cross-validation, was adopted. Results indicated that, even in the closed-set scenario, models faced difficulties in classifying linguistic variations with more than two classes. Additionally, it was observed that a greater diversity of speakers is necessary to encompass a particular accent and achieve satisfactory model performance. For binary classification with many speakers, the Wav2vec 2.0 XLSR model succeeded in both the closed-set scenario, with an overall F1-score of 83%, and the cross-validation scenario, with 75%. Contributions of this work include the development of a regionalism classifier for Pernambuco and São Paulo capital, as well as the creation of subsets derived from the Spotify Podcasts dataset, covering nine linguistic variations. Despite significant advances, classifying Brazilian accents remains a challenge and requires exploration of new approaches for multiclass scenarios.Biblioteca Digitais de Teses e Dissertações da USPPonti, Moacir AntonelliMatos, Ariadne Nascimento2024-04-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-06-11T12:32:02Zoai:teses.usp.br:tde-10062024-161431Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-06-11T12:32:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala Classification of Linguistic Variations in Brazilian Portuguese using Speech |
title |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala |
spellingShingle |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala Matos, Ariadne Nascimento Automatic recognition Classificação de variações Linguísticas Linguistic variations Linguistic variations classification Reconhecimento automático Variações linguísticas Wav2vec 2.0 XLSR Wav2vec 2.0 XLSR |
title_short |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala |
title_full |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala |
title_fullStr |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala |
title_full_unstemmed |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala |
title_sort |
Classificação de Variações Linguísticas do Português do Brasil por meio da Fala |
author |
Matos, Ariadne Nascimento |
author_facet |
Matos, Ariadne Nascimento |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ponti, Moacir Antonelli |
dc.contributor.author.fl_str_mv |
Matos, Ariadne Nascimento |
dc.subject.por.fl_str_mv |
Automatic recognition Classificação de variações Linguísticas Linguistic variations Linguistic variations classification Reconhecimento automático Variações linguísticas Wav2vec 2.0 XLSR Wav2vec 2.0 XLSR |
topic |
Automatic recognition Classificação de variações Linguísticas Linguistic variations Linguistic variations classification Reconhecimento automático Variações linguísticas Wav2vec 2.0 XLSR Wav2vec 2.0 XLSR |
description |
As variações linguísticas estão presentes em diversas localidades e fazem parte do cotidiano. Por meio delas, é possível identificar a origem linguística de uma pessoa. Classificar essas variações é importante para aplicações voltadas ao processamento de fala, sobretudo para melhorar sistemas de reconhecimento automático. Neste trabalho, com o objetivo de auxiliar na classificação das variações linguísticas do Português Brasileiro, foram exploradas redes convolucionais e técnicas que incorporam o mecanismo de atenção, como o Wav2vec 2.0 XLSR e o Audio Spectrogram Transformer. Os experimentos foram conduzidos em dois cenários: um com poucos locutores e outro com muitos locutores, utilizando três conjuntos de dados distintos: Spotify Podcasts, CORAA-ASR e Braccent. Conforme relatado na literatura, os cenários closed-set, nos quais a validação é realizada no mesmo conjunto de dados de treinamento, não refletem adequadamente a realidade. Portanto, foi adotada a validação com um conjunto de dados diferente do conjunto de treinamento, conhecida como validação cruzada. Os resultados indicaram que, mesmo no cenário closed-set, os modelos enfrentaram dificuldades para classificar as variações linguísticas com mais de duas classes. Além disso, foi observado que é necessária uma maior diversidade de locutores para abranger determinado sotaque e alcançar um desempenho satisfatório dos modelos. Para a classificação binária com muitos locutores, o modelo Wav2vec 2.0 XLSR obteve sucesso tanto no cenário closed-set, com um F1-score geral de 83%, quanto no cenário de validação cruzada, com 75%. As contribuições deste trabalho incluem o desenvolvimento de um classificador de regionalismos para Pernambuco e São Paulo capital, além da criação de subconjuntos derivados do dataset do Spotify Podcasts, abrangendo nove variações linguísticas. Apesar dos avanços significativos, a classificação dos sotaques brasileiros ainda é um desafio e exige a exploração de novas abordagens para cenários multiclasse. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-04-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10062024-161431/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256913915412480 |