Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA
Autor(a) principal: | |
---|---|
Data de Publicação: | 2008 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | https://app.uff.br/riuff/handle/1/17866 |
Resumo: | This work discusses the comparison between two features extraction techniques for speech signals: the Mel-Frequency Cepstral Coefficients (MFCC) and the Zero-Crossings with Peak Amplitudes (ZCPA). Hidden Markov Models (HMM) and different corpora are employed for this comparison. The application of the ZCPA technique is highlighted and its speaker recognition performance is particularly evaluated in noisy environments. It is figured out that the ZCPA technique is more robust to additive noise than the MFCC; also, the types of sentences that help the task of speaker recognition are thoroughly discussed. Special attention is given to the application of ZCPA to the widely known YOHO corpus. The signals from this corpus were segmented in isolated digits and noise was added to each digit. Many scenarios are addressed, including: isolated digits, concatenated digits, and complete sentence, with and without noise. |
id |
UFF-2_62d62829d43162b8a45234541f2aa830 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/17866 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPAProcessamento de sinaisVozReconhecimento de vozReconhecimento de locutorMFCCZCPASpeech recognitionSpeaker recognitionCNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOESThis work discusses the comparison between two features extraction techniques for speech signals: the Mel-Frequency Cepstral Coefficients (MFCC) and the Zero-Crossings with Peak Amplitudes (ZCPA). Hidden Markov Models (HMM) and different corpora are employed for this comparison. The application of the ZCPA technique is highlighted and its speaker recognition performance is particularly evaluated in noisy environments. It is figured out that the ZCPA technique is more robust to additive noise than the MFCC; also, the types of sentences that help the task of speaker recognition are thoroughly discussed. Special attention is given to the application of ZCPA to the widely known YOHO corpus. The signals from this corpus were segmented in isolated digits and noise was added to each digit. Many scenarios are addressed, including: isolated digits, concatenated digits, and complete sentence, with and without noise.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorEsta dissertação discute a comparação entre duas técnicas de extração de características da voz: a técnica MFCC, que utiliza coeficientes cepstrais de freqüência mel e a técnica ZCPA, que utiliza cruzamento por zero com amplitude de pico. Para tal comparação são utilizados modelos ocultos de Markov (HMM) e diferentes bases de vozes. O maior destaque é dado à utilização da técnica ZCPA e o seu desempenho no caso de reconhecimento de locutor que é particularmente avaliado em ambientes ruidosos. Verifica-se que a técnica ZCPA é mais robusta que o MFCC quando é aplicado ruído aditivo; também os tipos de frases que ajudam no reconhecimento robusto de locutor são amplamente discutidos. Destaca-se, ainda, a aplicação da técnica ZCPA à base YOHO, amplamente conhecida. Os sinais desta base foram segmentados em dígitos isolados e ruído foi adicionado a cada dígito. Vários cenários são abordados e implementados, tais como: dígitos isolados, dígitos concatenados e frases completas, com e sem ruído.Programa de Pós-graduação em Engenharia de TelecomunicaçõesEngenharia de TelecomunicaçõesFerreira, Edson Luiz CataldoCPF:01020065422http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4707512Z1Apolinário Junior, José AntonioCPF:37021345722http://lattes.cnpq.br/4578693731159389Cuadros, Carlos Daniel Riquelme2021-03-10T20:42:57Z2008-05-072021-03-10T20:42:57Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://app.uff.br/riuff/handle/1/17866porCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-03-10T20:42:57Zoai:app.uff.br:1/17866Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-03-10T20:42:57Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA |
title |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA |
spellingShingle |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA Cuadros, Carlos Daniel Riquelme Processamento de sinais Voz Reconhecimento de voz Reconhecimento de locutor MFCC ZCPA Speech recognition Speaker recognition CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES |
title_short |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA |
title_full |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA |
title_fullStr |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA |
title_full_unstemmed |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA |
title_sort |
Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA |
author |
Cuadros, Carlos Daniel Riquelme |
author_facet |
Cuadros, Carlos Daniel Riquelme |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ferreira, Edson Luiz Cataldo CPF:01020065422 http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4707512Z1 Apolinário Junior, José Antonio CPF:37021345722 http://lattes.cnpq.br/4578693731159389 |
dc.contributor.author.fl_str_mv |
Cuadros, Carlos Daniel Riquelme |
dc.subject.por.fl_str_mv |
Processamento de sinais Voz Reconhecimento de voz Reconhecimento de locutor MFCC ZCPA Speech recognition Speaker recognition CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES |
topic |
Processamento de sinais Voz Reconhecimento de voz Reconhecimento de locutor MFCC ZCPA Speech recognition Speaker recognition CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES |
description |
This work discusses the comparison between two features extraction techniques for speech signals: the Mel-Frequency Cepstral Coefficients (MFCC) and the Zero-Crossings with Peak Amplitudes (ZCPA). Hidden Markov Models (HMM) and different corpora are employed for this comparison. The application of the ZCPA technique is highlighted and its speaker recognition performance is particularly evaluated in noisy environments. It is figured out that the ZCPA technique is more robust to additive noise than the MFCC; also, the types of sentences that help the task of speaker recognition are thoroughly discussed. Special attention is given to the application of ZCPA to the widely known YOHO corpus. The signals from this corpus were segmented in isolated digits and noise was added to each digit. Many scenarios are addressed, including: isolated digits, concatenated digits, and complete sentence, with and without noise. |
publishDate |
2008 |
dc.date.none.fl_str_mv |
2008-05-07 2021-03-10T20:42:57Z 2021-03-10T20:42:57Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://app.uff.br/riuff/handle/1/17866 |
url |
https://app.uff.br/riuff/handle/1/17866 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Programa de Pós-graduação em Engenharia de Telecomunicações Engenharia de Telecomunicações |
publisher.none.fl_str_mv |
Programa de Pós-graduação em Engenharia de Telecomunicações Engenharia de Telecomunicações |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1819053793845706752 |