Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA

Detalhes bibliográficos
Autor(a) principal: Silva, Keren Ribeiro Falcão da
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/29447
Resumo: A comunicação por meio da voz é amplamente reconhecida como uma forma inerente e poderosa de interação humana. Por ser algo tão particular e individual para cada indivı́duo, a voz tem sido utilizada em diversas aplicações, em particular para a autenticação de usuários por máquinas. Neste trabalho foram comparadas as respostas de reconhecimento de locutor em ambientes ruidosos, utilizando dois métodos de extração de caracterı́sticas da voz, Mel Frequency Cepstral Coefficients (MFCC) e Zero Crossing with Peak Amplitude (ZCPA), em sistemas baseados em redes neurais recorrentes, em especial com células Long Short-Term Memory (LSTM). Os resultados obtidos indicaram que a abordagem baseada em ZCPA demonstrou robustez diante de ruı́dos, permitindo distinção entre o locutor e os impostores mesmo com nı́veis moderados de ruı́do, em oposição à técnica baseada em MFCC, que não conseguiu distinguir o locutor com ruı́dos moderados
id UFF-2_408893ea9543e9f404ff1c2977b85e83
oai_identifier_str oai:app.uff.br:1/29447
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPAMFCCZCPALSTMReconhecimento de locutorRedes neuraisAmbientes ruidososRede neuralRuídoVozSpeaker recognitionNeural networksNoisy environmentsA comunicação por meio da voz é amplamente reconhecida como uma forma inerente e poderosa de interação humana. Por ser algo tão particular e individual para cada indivı́duo, a voz tem sido utilizada em diversas aplicações, em particular para a autenticação de usuários por máquinas. Neste trabalho foram comparadas as respostas de reconhecimento de locutor em ambientes ruidosos, utilizando dois métodos de extração de caracterı́sticas da voz, Mel Frequency Cepstral Coefficients (MFCC) e Zero Crossing with Peak Amplitude (ZCPA), em sistemas baseados em redes neurais recorrentes, em especial com células Long Short-Term Memory (LSTM). Os resultados obtidos indicaram que a abordagem baseada em ZCPA demonstrou robustez diante de ruı́dos, permitindo distinção entre o locutor e os impostores mesmo com nı́veis moderados de ruı́do, em oposição à técnica baseada em MFCC, que não conseguiu distinguir o locutor com ruı́dos moderadosCommunication through voice is widely recognized as an inherent and powerful form of human interaction. Due to its unique and individual nature for each individual, voice has been applied in various domains, particularly for user authentication by machines. In this study, we compared speaker recognition responses in noisy environments using two voice feature extraction methods: Mel Frequency Cepstral Coefficients (MFCC) and Zero Crossing with Peak Amplitude (ZCPA), implemented in systems based on recurrent neural networks, specifically with Long Short-Term Memory (LSTM) cells. The results indicated that the ZCPA-based approach demonstrated robustness in noisy conditions, enabling distinction between the speaker and impostors even with moderate noise levels, in contrast to the MFCC-based technique, which failed to differentiate the speaker in the presence of moderate noise.98 p.Ferreira, Edson Luiz Cataldo http://lattes.cnpq.br/5170756020561542Carvalho, Murilo Bresciani dehttp://lattes.cnpq.br/9879634744752250Ferreira, Tadeu Nagashimahttp://lattes.cnpq.br/3756829511114463http://lattes.cnpq.br/6254976376717969Silva, Keren Ribeiro Falcão da2023-07-21T14:34:11Z2023-07-21T14:34:11Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSILVA, Keren Ribeiro Falcão da. Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA. 2023. 99 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2023.http://app.uff.br/riuff/handle/1/29447CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-07-21T14:34:15Zoai:app.uff.br:1/29447Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:05:55.894389Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
title Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
spellingShingle Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
Silva, Keren Ribeiro Falcão da
MFCC
ZCPA
LSTM
Reconhecimento de locutor
Redes neurais
Ambientes ruidosos
Rede neural
Ruído
Voz
Speaker recognition
Neural networks
Noisy environments
title_short Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
title_full Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
title_fullStr Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
title_full_unstemmed Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
title_sort Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA
author Silva, Keren Ribeiro Falcão da
author_facet Silva, Keren Ribeiro Falcão da
author_role author
dc.contributor.none.fl_str_mv Ferreira, Edson Luiz Cataldo
 http://lattes.cnpq.br/5170756020561542
Carvalho, Murilo Bresciani de
http://lattes.cnpq.br/9879634744752250
Ferreira, Tadeu Nagashima
http://lattes.cnpq.br/3756829511114463
http://lattes.cnpq.br/6254976376717969
dc.contributor.author.fl_str_mv Silva, Keren Ribeiro Falcão da
dc.subject.por.fl_str_mv MFCC
ZCPA
LSTM
Reconhecimento de locutor
Redes neurais
Ambientes ruidosos
Rede neural
Ruído
Voz
Speaker recognition
Neural networks
Noisy environments
topic MFCC
ZCPA
LSTM
Reconhecimento de locutor
Redes neurais
Ambientes ruidosos
Rede neural
Ruído
Voz
Speaker recognition
Neural networks
Noisy environments
description A comunicação por meio da voz é amplamente reconhecida como uma forma inerente e poderosa de interação humana. Por ser algo tão particular e individual para cada indivı́duo, a voz tem sido utilizada em diversas aplicações, em particular para a autenticação de usuários por máquinas. Neste trabalho foram comparadas as respostas de reconhecimento de locutor em ambientes ruidosos, utilizando dois métodos de extração de caracterı́sticas da voz, Mel Frequency Cepstral Coefficients (MFCC) e Zero Crossing with Peak Amplitude (ZCPA), em sistemas baseados em redes neurais recorrentes, em especial com células Long Short-Term Memory (LSTM). Os resultados obtidos indicaram que a abordagem baseada em ZCPA demonstrou robustez diante de ruı́dos, permitindo distinção entre o locutor e os impostores mesmo com nı́veis moderados de ruı́do, em oposição à técnica baseada em MFCC, que não conseguiu distinguir o locutor com ruı́dos moderados
publishDate 2023
dc.date.none.fl_str_mv 2023-07-21T14:34:11Z
2023-07-21T14:34:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, Keren Ribeiro Falcão da. Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA. 2023. 99 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2023.
http://app.uff.br/riuff/handle/1/29447
identifier_str_mv SILVA, Keren Ribeiro Falcão da. Reconhecimento de locutor em ambientes ruidosos: uma comparação entre os métodos de extração de características MFCC e ZCPA. 2023. 99 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Escola de Engenharia, Universidade Federal Fluminense, Niterói, 2023.
url http://app.uff.br/riuff/handle/1/29447
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823659510136832