Uso de parâmetros multifractais no reconhecimento de locutor

Detalhes bibliográficos
Autor(a) principal: González, Diana Cristina, 1984-
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1616566
Resumo: Orientadores: Lee Luan Ling, Fábio Violaro
id UNICAMP-30_2993bf24481c129df20b2e896ad2ed38
oai_identifier_str oai::837068
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Uso de parâmetros multifractais no reconhecimento de locutorUse of multifractal parameters for speaker recognitionMultifractaisReconhecimento automático da vozGaussian distributionSistemas de processamento da falaMultifractalAutomatic speech recognitionGaussian distributionSpeech processing systemOrientadores: Lee Luan Ling, Fábio ViolaroDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de ComputaçãoResumo: Esta dissertação apresenta a implementação de um sistema de Reconhecimento Automático de Locutor (ASR). Este sistema emprega um novo parâmetro de características de locutor baseado no modelo multifractal "VVGM" (Variable Variance Gaussian Multiplier). A metodologia adotada para o desenvolvimento deste sistema foi formulada em duas etapas. Inicialmente foi implementado um sistema ASR tradicional, usando como vetor de características os MFCCs (Mel-Frequency Cepstral Coefficients) e modelo de mistura gaussiana (GMM) como classificador, uma vez que é uma configuração clássica, adotada como referência na literatura. Este procedimento permite ter um conhecimento amplo sobre a produção de sinais de voz, além de um sistema de referência para comparar o desempenho do novo parâmetro VVGM. A segunda etapa foi dedicada ao estudo de processos multifractais em sinais de fala, já que eles enfatizam-se na análise das informações contidas nas partes não estacionárias do sinal avaliado. Aproveitando essa característica, sinais de fala são modelados usando o modelo VVGM. Este modelo é baseado no processo de cascata multiplicativa binomial, e usa as variâncias dos multiplicadores de cada estágio como um novo vetor de característica. As informações obtidas pelos dois métodos são diferentes e complementares. Portanto, é interessante combinar os parâmetros clássicos com os parâmetros multifractais, a fim de melhorar o desempenho dos sistemas de reconhecimento de locutor. Os sistemas propostos foram avaliados por meio de três bases de dados de fala com diferentes configurações, tais como taxas de amostragem, número de falantes e frases e duração do treinamento e teste. Estas diferentes configurações permitem determinar as características do sinal de fala requeridas pelo sistema. Do resultado dos experimentos foi observado que o sistema de identificação de locutor usando os parâmetros VVGM alcançou taxas de acerto significativas, o que mostra que este modelo multifractal contém informações relevantes sobre a identidade de cada locutor. Por exemplo, a segunda base de dados é composta de sinais de fala de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 frases para cada locutor, com uma duração total de cerca de 70 s. Avaliando o sistema ASR baseado em VVGM, com locuções de teste de 3 s de comprimento, foi obtida uma taxa de reconhecimento de 91,30%. Usando estas mesmas condições, o sistema ASR baseado em MFCCs atingiu uma taxa de reconhecimento de 98,76%. No entanto, quando os dois parâmetros foram combinados, a taxa de reconhecimento aumentou para 99,43%, mostrando que a nova característica acrescenta informações importantes para o sistema de reconhecimento de locutorAbstract: This dissertation presents an Automatic Speaker Recognition (ASR) system, which employs a new parameter based on the ¿VVGM? (Variable Variance Gaussian Multiplier) multifractal model. The methodology adopted for the development of this system is formulated in two stages. Initially, a traditional ASR system was implemented, based on the use of Mel-Frequency Cepstral Coefficients (MFCCs) and the Gaussian mixture models (GMMs) as the classifier, since it is the method with the best results in the literature. This procedure allows having a broad knowledge about the production of speech signals and a reference system to compare the performance of the new VVGM parameter. The second stage was dedicated to the study of the multifractal processes for speech signals, given that with them, it is possible to analyze information contained in non-stationary parts of the evaluated signal. Taking advantage of this characteristic, speech signals are modeled using the VVGM model, which is based on the binomial multiplicative cascade process, and uses the variances of multipliers for each state as a new speech feature. The information obtained by the two methods is different and complementary. Therefore, it is interesting to combine the classic parameters with the multifractal parameters in order to improve the performance of speaker recognition systems. The proposed systems were evaluated using three databases with different settings, such as sampling rates, number of speakers and phrases, duration of training and testing. These different configurations allow the determination of characteristics of the speech signal required by the system. With the experiments, the speaker identification system based on the VVGM parameters achieved significant success rates, which shows that this multifractal model contains relevant information of the identity of each speaker. For example, the second database is composed of speech signals of 71 speakers (50 men and 21 women) digitized at 22.05 kHz with 16 bits/sample. The training was done with 20 phrases for each speaker, with an approximately total duration of 70 s. Evaluating the ASR system based on VVGM, with this database and using test locutions with 3s of duration, it was obtained a recognition rate of 91.3%. Using these same conditions, the ASR system based on MFCCs reached a recognition rate of 98.76%. However, when the two parameters are combined, the recognition rate increased to 99.43%, showing that the new feature adds substantial information to the speaker recognition systemMestradoTelecomunicações e TelemáticaMestre em Engenharia Elétrica[s.n.]Lee, Luan Ling, 1956-Violaro, Fábio, 1950-Lee, Luan Ling, 1956-Klautau, AldebaroAttux, Romis Ribeiro de FaissolUniversidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de ComputaçãoPrograma de Pós-Graduação em Engenharia ElétricaUNIVERSIDADE ESTADUAL DE CAMPINASGonzález, Diana Cristina, 1984-2011info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf116 p. : il.https://hdl.handle.net/20.500.12733/1616566GONZÁLEZ, Diana Cristina. Uso de parâmetros multifractais no reconhecimento de locutor. 2011. 116 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616566. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/837068porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T06:26:38Zoai::837068Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T06:26:38Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Uso de parâmetros multifractais no reconhecimento de locutor
Use of multifractal parameters for speaker recognition
title Uso de parâmetros multifractais no reconhecimento de locutor
spellingShingle Uso de parâmetros multifractais no reconhecimento de locutor
González, Diana Cristina, 1984-
Multifractais
Reconhecimento automático da voz
Gaussian distribution
Sistemas de processamento da fala
Multifractal
Automatic speech recognition
Gaussian distribution
Speech processing system
title_short Uso de parâmetros multifractais no reconhecimento de locutor
title_full Uso de parâmetros multifractais no reconhecimento de locutor
title_fullStr Uso de parâmetros multifractais no reconhecimento de locutor
title_full_unstemmed Uso de parâmetros multifractais no reconhecimento de locutor
title_sort Uso de parâmetros multifractais no reconhecimento de locutor
author González, Diana Cristina, 1984-
author_facet González, Diana Cristina, 1984-
author_role author
dc.contributor.none.fl_str_mv Lee, Luan Ling, 1956-
Violaro, Fábio, 1950-
Lee, Luan Ling, 1956-
Klautau, Aldebaro
Attux, Romis Ribeiro de Faissol
Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação
Programa de Pós-Graduação em Engenharia Elétrica
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv González, Diana Cristina, 1984-
dc.subject.por.fl_str_mv Multifractais
Reconhecimento automático da voz
Gaussian distribution
Sistemas de processamento da fala
Multifractal
Automatic speech recognition
Gaussian distribution
Speech processing system
topic Multifractais
Reconhecimento automático da voz
Gaussian distribution
Sistemas de processamento da fala
Multifractal
Automatic speech recognition
Gaussian distribution
Speech processing system
description Orientadores: Lee Luan Ling, Fábio Violaro
publishDate 2011
dc.date.none.fl_str_mv 2011
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1616566
GONZÁLEZ, Diana Cristina. Uso de parâmetros multifractais no reconhecimento de locutor. 2011. 116 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616566. Acesso em: 3 set. 2024.
url https://hdl.handle.net/20.500.12733/1616566
identifier_str_mv GONZÁLEZ, Diana Cristina. Uso de parâmetros multifractais no reconhecimento de locutor. 2011. 116 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616566. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/837068
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
116 p. : il.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809189065589784576