Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA

Detalhes bibliográficos
Autor(a) principal: Cuadros, Carlos Daniel Riquelme
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: https://app.uff.br/riuff/handle/1/17866
Resumo: This work discusses the comparison between two features extraction techniques for speech signals: the Mel-Frequency Cepstral Coefficients (MFCC) and the Zero-Crossings with Peak Amplitudes (ZCPA). Hidden Markov Models (HMM) and different corpora are employed for this comparison. The application of the ZCPA technique is highlighted and its speaker recognition performance is particularly evaluated in noisy environments. It is figured out that the ZCPA technique is more robust to additive noise than the MFCC; also, the types of sentences that help the task of speaker recognition are thoroughly discussed. Special attention is given to the application of ZCPA to the widely known YOHO corpus. The signals from this corpus were segmented in isolated digits and noise was added to each digit. Many scenarios are addressed, including: isolated digits, concatenated digits, and complete sentence, with and without noise.
id UFF-2_62d62829d43162b8a45234541f2aa830
oai_identifier_str oai:app.uff.br:1/17866
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPAProcessamento de sinaisVozReconhecimento de vozReconhecimento de locutorMFCCZCPASpeech recognitionSpeaker recognitionCNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOESThis work discusses the comparison between two features extraction techniques for speech signals: the Mel-Frequency Cepstral Coefficients (MFCC) and the Zero-Crossings with Peak Amplitudes (ZCPA). Hidden Markov Models (HMM) and different corpora are employed for this comparison. The application of the ZCPA technique is highlighted and its speaker recognition performance is particularly evaluated in noisy environments. It is figured out that the ZCPA technique is more robust to additive noise than the MFCC; also, the types of sentences that help the task of speaker recognition are thoroughly discussed. Special attention is given to the application of ZCPA to the widely known YOHO corpus. The signals from this corpus were segmented in isolated digits and noise was added to each digit. Many scenarios are addressed, including: isolated digits, concatenated digits, and complete sentence, with and without noise.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorEsta dissertação discute a comparação entre duas técnicas de extração de características da voz: a técnica MFCC, que utiliza coeficientes cepstrais de freqüência mel e a técnica ZCPA, que utiliza cruzamento por zero com amplitude de pico. Para tal comparação são utilizados modelos ocultos de Markov (HMM) e diferentes bases de vozes. O maior destaque é dado à utilização da técnica ZCPA e o seu desempenho no caso de reconhecimento de locutor que é particularmente avaliado em ambientes ruidosos. Verifica-se que a técnica ZCPA é mais robusta que o MFCC quando é aplicado ruído aditivo; também os tipos de frases que ajudam no reconhecimento robusto de locutor são amplamente discutidos. Destaca-se, ainda, a aplicação da técnica ZCPA à base YOHO, amplamente conhecida. Os sinais desta base foram segmentados em dígitos isolados e ruído foi adicionado a cada dígito. Vários cenários são abordados e implementados, tais como: dígitos isolados, dígitos concatenados e frases completas, com e sem ruído.Programa de Pós-graduação em Engenharia de TelecomunicaçõesEngenharia de TelecomunicaçõesFerreira, Edson Luiz CataldoCPF:01020065422http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4707512Z1Apolinário Junior, José AntonioCPF:37021345722http://lattes.cnpq.br/4578693731159389Cuadros, Carlos Daniel Riquelme2021-03-10T20:42:57Z2008-05-072021-03-10T20:42:57Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://app.uff.br/riuff/handle/1/17866porCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-03-10T20:42:57Zoai:app.uff.br:1/17866Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:20:57.718299Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
title Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
spellingShingle Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
Cuadros, Carlos Daniel Riquelme
Processamento de sinais
Voz
Reconhecimento de voz
Reconhecimento de locutor
MFCC
ZCPA
Speech recognition
Speaker recognition
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
title_short Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
title_full Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
title_fullStr Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
title_full_unstemmed Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
title_sort Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
author Cuadros, Carlos Daniel Riquelme
author_facet Cuadros, Carlos Daniel Riquelme
author_role author
dc.contributor.none.fl_str_mv Ferreira, Edson Luiz Cataldo
CPF:01020065422
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4707512Z1
Apolinário Junior, José Antonio
CPF:37021345722
http://lattes.cnpq.br/4578693731159389
dc.contributor.author.fl_str_mv Cuadros, Carlos Daniel Riquelme
dc.subject.por.fl_str_mv Processamento de sinais
Voz
Reconhecimento de voz
Reconhecimento de locutor
MFCC
ZCPA
Speech recognition
Speaker recognition
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
topic Processamento de sinais
Voz
Reconhecimento de voz
Reconhecimento de locutor
MFCC
ZCPA
Speech recognition
Speaker recognition
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
description This work discusses the comparison between two features extraction techniques for speech signals: the Mel-Frequency Cepstral Coefficients (MFCC) and the Zero-Crossings with Peak Amplitudes (ZCPA). Hidden Markov Models (HMM) and different corpora are employed for this comparison. The application of the ZCPA technique is highlighted and its speaker recognition performance is particularly evaluated in noisy environments. It is figured out that the ZCPA technique is more robust to additive noise than the MFCC; also, the types of sentences that help the task of speaker recognition are thoroughly discussed. Special attention is given to the application of ZCPA to the widely known YOHO corpus. The signals from this corpus were segmented in isolated digits and noise was added to each digit. Many scenarios are addressed, including: isolated digits, concatenated digits, and complete sentence, with and without noise.
publishDate 2008
dc.date.none.fl_str_mv 2008-05-07
2021-03-10T20:42:57Z
2021-03-10T20:42:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://app.uff.br/riuff/handle/1/17866
url https://app.uff.br/riuff/handle/1/17866
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Programa de Pós-graduação em Engenharia de Telecomunicações
Engenharia de Telecomunicações
publisher.none.fl_str_mv Programa de Pós-graduação em Engenharia de Telecomunicações
Engenharia de Telecomunicações
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823729743757312