Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2000 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFCG |
Texto Completo: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/9016 |
Resumo: | Este trabalho trata da aplicação de uma técnica híbrida (paramétrica e estatística), que utiliza Analise por Predição Linear, Quantização Vetorial, Redes Neurais e Modelos de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento (identificação) automático da identidade vocal, visando obter alternativas para os algoritmos tradicionais. Com o objetivo de se obter um sistema mais rápido e robusto, e realizada uma etapa de pre-identificação, seguida da identificação. A primeira etapa utiliza a frequência fundamental (F0) como parâmetro de separação previa dos locutores em grupos gerais, de acordo com o sexo. O método proposto para estimação da FQ se mostra eficiente (99% de classificação correta), fornecendo estimativas representativas de cada locutor, reduzindo assim o numero de locutores a participar da etapa posterior. A etapa de identificação utiliza Modelos de Markov Escondidos (HMMs) de Densidades Discretas e Quantização Vetorial Paramétrica, com parâmetros acústicos obtidos a partir da Analise por Predição Linear (coeficientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coeficientes Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identificação. Em se tratando do projeto do dicionário do quantizador vetorial, são avaliados três algoritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modificado com Vizinhanga Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espaço Sináptico). O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicionarios, levando a maiores taxas de identificação. A modelagem por HMMs se constitui em uma etapa de "refinamento" do processo de identificação, sendo utilizada quando as medidas de distorção obtidas pela comparação do padrão de teste do locutor a ser identificado (vetor de características acústicas) com os padrões de referenda (dicionários do quantizador vetorial) indicarem "similaridade" entre os padrões vocais. A técnica aplicada neste trabalho proporciona a obtenção de um sistema de reconhecimento automático da identidade vocal que apresenta taxa media de identificação elevada (97,8%) e significativa, baixas taxas medias de falsa aceitação (0,8%) e de falsa rejeição (1,5%), bem como alta confiabilidade (99,2%). O sistema de identificação de locutor desenvolvido e, portanto, capaz de discriminar, de forma eficiente, os locutores a partir das suas características vocais apresentando, independentemente do sexo do locutor, pequenas variações intralocutor e grandes variações interlocutor. |
id |
UFCG_183de3b71c5f117c85878c0162380311 |
---|---|
oai_identifier_str |
oai:localhost:riufcg/9016 |
network_acronym_str |
UFCG |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
repository_id_str |
4851 |
spelling |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística.Automatic recognition of vocal identity using hybrid modeling: parametric and statistical.Modelagem HíbridaReconhecimento Automático de Identidade VocalQuantização VetorialInteração Homem-MáquinaResposta VocalReconhecimento de FalaReconhecimento de LocutorParamétrica e EstatísticaHybrid ModelingAutomatic Vocal Identity RecognitionVector QuantizationHuman-Machine InteractionVocal ResponseSpeech RecognitionSpeaker RecognitionParametric and StatisticsEngenharia ElétricaEste trabalho trata da aplicação de uma técnica híbrida (paramétrica e estatística), que utiliza Analise por Predição Linear, Quantização Vetorial, Redes Neurais e Modelos de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento (identificação) automático da identidade vocal, visando obter alternativas para os algoritmos tradicionais. Com o objetivo de se obter um sistema mais rápido e robusto, e realizada uma etapa de pre-identificação, seguida da identificação. A primeira etapa utiliza a frequência fundamental (F0) como parâmetro de separação previa dos locutores em grupos gerais, de acordo com o sexo. O método proposto para estimação da FQ se mostra eficiente (99% de classificação correta), fornecendo estimativas representativas de cada locutor, reduzindo assim o numero de locutores a participar da etapa posterior. A etapa de identificação utiliza Modelos de Markov Escondidos (HMMs) de Densidades Discretas e Quantização Vetorial Paramétrica, com parâmetros acústicos obtidos a partir da Analise por Predição Linear (coeficientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coeficientes Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identificação. Em se tratando do projeto do dicionário do quantizador vetorial, são avaliados três algoritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modificado com Vizinhanga Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espaço Sináptico). O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicionarios, levando a maiores taxas de identificação. A modelagem por HMMs se constitui em uma etapa de "refinamento" do processo de identificação, sendo utilizada quando as medidas de distorção obtidas pela comparação do padrão de teste do locutor a ser identificado (vetor de características acústicas) com os padrões de referenda (dicionários do quantizador vetorial) indicarem "similaridade" entre os padrões vocais. A técnica aplicada neste trabalho proporciona a obtenção de um sistema de reconhecimento automático da identidade vocal que apresenta taxa media de identificação elevada (97,8%) e significativa, baixas taxas medias de falsa aceitação (0,8%) e de falsa rejeição (1,5%), bem como alta confiabilidade (99,2%). O sistema de identificação de locutor desenvolvido e, portanto, capaz de discriminar, de forma eficiente, os locutores a partir das suas características vocais apresentando, independentemente do sexo do locutor, pequenas variações intralocutor e grandes variações interlocutor.This work deals with the application of a hybrid technique (parametric and statistical), which uses Linear Prediction Analysis, Vector Quantization, Neural Networks and Hidden Markov Models, to develop an automatic vocal identity recognition (identification) system, aiming at get alternatives to traditional algorithms. In order to achieve a faster and more robust system, and a pre-identification step is performed, followed by identification. The first step uses the fundamental frequency (F0) as the previous speaker separation parameter in general groups according to gender. The proposed method for estimating CF is efficient (99% correct classification), providing representative estimates of each speaker, thus reducing the number of speakers to participate in the later stage. The identification step uses Hidden Markov Models (HMMs) of Discrete Densities and Parametric Vector Quantization, with acoustic parameters obtained from Linear Prediction Analysis (LPC, Cepestral Weighted, Cepestral Delta and Weighted Cepestral Delta coefficients). Cepestral coefficients, followed by Cepestral Delta, provide higher identification rates. In terms of the vector quantizer dictionary design, three algorithms are evaluated: LBG (Linde-Buzo-Gray), KMVVT (Modified Kohonen with Neighborhood Centered Around Training Vector) and SSC (Competitive in Synaptic Space). The SSC algorithm is the most suitable for the dictionary design, leading to higher identification rates. Modeling by HMMs constitutes a "refinement" step of the identification process, being used when the distortion measurements obtained by comparing the speaker test pattern to be identified (acoustic characteristics vector) with the reference standards (dictionaries quantifier) indicate "similarity" between vocal patterns. The technique applied in this work provides an automatic voice identity recognition system that has a high (97.8%) and significant average identification rate, low average rates of false acceptance (0.8%) and false rejection ( 1.5%) as well as high reliability (99.2%). The speaker identification system developed and, therefore, capable of efficiently discriminating the speakers from their vocal characteristics presenting, regardless of the speaker's gender, small intralocutor variations and large interlocutor variations.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICAUFCGAGUIAR NETO, Benedito Guimarães.AGUIAR NETO, B. G.http://lattes.cnpq.br/3405447548131544BRASILEIRO, Marcos Antônio Gonçalves.ALENCAR, Marcelo Sampaio de.ALCAIM, Abraham.DORIA NETO, Adrião Duarte.FECHINE, Joseana Macêdo.2000-12-222019-11-08T21:14:17Z2019-11-082019-11-08T21:14:17Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/9016FECHINE, Joseana Macêdo. Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. 2000. 235f. (Tese) Doutorado em Engenharia Elétrica, Curso de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal da Paraíba – Campus II - Campina Grande - Paraíba - Brasil, 2000.porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2021-04-19T14:30:17Zoai:localhost:riufcg/9016Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512021-04-19T14:30:17Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false |
dc.title.none.fl_str_mv |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. Automatic recognition of vocal identity using hybrid modeling: parametric and statistical. |
title |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. |
spellingShingle |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. FECHINE, Joseana Macêdo. Modelagem Híbrida Reconhecimento Automático de Identidade Vocal Quantização Vetorial Interação Homem-Máquina Resposta Vocal Reconhecimento de Fala Reconhecimento de Locutor Paramétrica e Estatística Hybrid Modeling Automatic Vocal Identity Recognition Vector Quantization Human-Machine Interaction Vocal Response Speech Recognition Speaker Recognition Parametric and Statistics Engenharia Elétrica |
title_short |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. |
title_full |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. |
title_fullStr |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. |
title_full_unstemmed |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. |
title_sort |
Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. |
author |
FECHINE, Joseana Macêdo. |
author_facet |
FECHINE, Joseana Macêdo. |
author_role |
author |
dc.contributor.none.fl_str_mv |
AGUIAR NETO, Benedito Guimarães. AGUIAR NETO, B. G. http://lattes.cnpq.br/3405447548131544 BRASILEIRO, Marcos Antônio Gonçalves. ALENCAR, Marcelo Sampaio de. ALCAIM, Abraham. DORIA NETO, Adrião Duarte. |
dc.contributor.author.fl_str_mv |
FECHINE, Joseana Macêdo. |
dc.subject.por.fl_str_mv |
Modelagem Híbrida Reconhecimento Automático de Identidade Vocal Quantização Vetorial Interação Homem-Máquina Resposta Vocal Reconhecimento de Fala Reconhecimento de Locutor Paramétrica e Estatística Hybrid Modeling Automatic Vocal Identity Recognition Vector Quantization Human-Machine Interaction Vocal Response Speech Recognition Speaker Recognition Parametric and Statistics Engenharia Elétrica |
topic |
Modelagem Híbrida Reconhecimento Automático de Identidade Vocal Quantização Vetorial Interação Homem-Máquina Resposta Vocal Reconhecimento de Fala Reconhecimento de Locutor Paramétrica e Estatística Hybrid Modeling Automatic Vocal Identity Recognition Vector Quantization Human-Machine Interaction Vocal Response Speech Recognition Speaker Recognition Parametric and Statistics Engenharia Elétrica |
description |
Este trabalho trata da aplicação de uma técnica híbrida (paramétrica e estatística), que utiliza Analise por Predição Linear, Quantização Vetorial, Redes Neurais e Modelos de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento (identificação) automático da identidade vocal, visando obter alternativas para os algoritmos tradicionais. Com o objetivo de se obter um sistema mais rápido e robusto, e realizada uma etapa de pre-identificação, seguida da identificação. A primeira etapa utiliza a frequência fundamental (F0) como parâmetro de separação previa dos locutores em grupos gerais, de acordo com o sexo. O método proposto para estimação da FQ se mostra eficiente (99% de classificação correta), fornecendo estimativas representativas de cada locutor, reduzindo assim o numero de locutores a participar da etapa posterior. A etapa de identificação utiliza Modelos de Markov Escondidos (HMMs) de Densidades Discretas e Quantização Vetorial Paramétrica, com parâmetros acústicos obtidos a partir da Analise por Predição Linear (coeficientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coeficientes Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identificação. Em se tratando do projeto do dicionário do quantizador vetorial, são avaliados três algoritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modificado com Vizinhanga Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espaço Sináptico). O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicionarios, levando a maiores taxas de identificação. A modelagem por HMMs se constitui em uma etapa de "refinamento" do processo de identificação, sendo utilizada quando as medidas de distorção obtidas pela comparação do padrão de teste do locutor a ser identificado (vetor de características acústicas) com os padrões de referenda (dicionários do quantizador vetorial) indicarem "similaridade" entre os padrões vocais. A técnica aplicada neste trabalho proporciona a obtenção de um sistema de reconhecimento automático da identidade vocal que apresenta taxa media de identificação elevada (97,8%) e significativa, baixas taxas medias de falsa aceitação (0,8%) e de falsa rejeição (1,5%), bem como alta confiabilidade (99,2%). O sistema de identificação de locutor desenvolvido e, portanto, capaz de discriminar, de forma eficiente, os locutores a partir das suas características vocais apresentando, independentemente do sexo do locutor, pequenas variações intralocutor e grandes variações interlocutor. |
publishDate |
2000 |
dc.date.none.fl_str_mv |
2000-12-22 2019-11-08T21:14:17Z 2019-11-08 2019-11-08T21:14:17Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/9016 FECHINE, Joseana Macêdo. Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. 2000. 235f. (Tese) Doutorado em Engenharia Elétrica, Curso de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal da Paraíba – Campus II - Campina Grande - Paraíba - Brasil, 2000. |
url |
http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/9016 |
identifier_str_mv |
FECHINE, Joseana Macêdo. Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística. 2000. 235f. (Tese) Doutorado em Engenharia Elétrica, Curso de Pós-Graduação em Engenharia Elétrica, Centro de Engenharia Elétrica e Informática, Universidade Federal da Paraíba – Campus II - Campina Grande - Paraíba - Brasil, 2000. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UFCG |
publisher.none.fl_str_mv |
Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UFCG |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG |
instname_str |
Universidade Federal de Campina Grande (UFCG) |
instacron_str |
UFCG |
institution |
UFCG |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFCG |
collection |
Biblioteca Digital de Teses e Dissertações da UFCG |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG) |
repository.mail.fl_str_mv |
bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br |
_version_ |
1809744411482914816 |