Uso de parâmetros multifractais no reconhecimento de locutor

González, Diana Cristina, 1984-

Uso de parâmetros multifractais no reconhecimento de locutor

Detalhes bibliográficos
Autor(a) principal:	González, Diana Cristina, 1984-
Data de Publicação:	2011
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo:	https://hdl.handle.net/20.500.12733/1616566
Resumo:	Orientadores: Lee Luan Ling, Fábio Violaro

Metadados do item

id	UNICAMP-30_2993bf24481c129df20b2e896ad2ed38
oai_identifier_str	oai::837068
network_acronym_str	UNICAMP-30
network_name_str	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling	Uso de parâmetros multifractais no reconhecimento de locutorUse of multifractal parameters for speaker recognitionMultifractaisReconhecimento automático da vozGaussian distributionSistemas de processamento da falaMultifractalAutomatic speech recognitionGaussian distributionSpeech processing systemOrientadores: Lee Luan Ling, Fábio ViolaroDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de ComputaçãoResumo: Esta dissertação apresenta a implementação de um sistema de Reconhecimento Automático de Locutor (ASR). Este sistema emprega um novo parâmetro de características de locutor baseado no modelo multifractal "VVGM" (Variable Variance Gaussian Multiplier). A metodologia adotada para o desenvolvimento deste sistema foi formulada em duas etapas. Inicialmente foi implementado um sistema ASR tradicional, usando como vetor de características os MFCCs (Mel-Frequency Cepstral Coefficients) e modelo de mistura gaussiana (GMM) como classificador, uma vez que é uma configuração clássica, adotada como referência na literatura. Este procedimento permite ter um conhecimento amplo sobre a produção de sinais de voz, além de um sistema de referência para comparar o desempenho do novo parâmetro VVGM. A segunda etapa foi dedicada ao estudo de processos multifractais em sinais de fala, já que eles enfatizam-se na análise das informações contidas nas partes não estacionárias do sinal avaliado. Aproveitando essa característica, sinais de fala são modelados usando o modelo VVGM. Este modelo é baseado no processo de cascata multiplicativa binomial, e usa as variâncias dos multiplicadores de cada estágio como um novo vetor de característica. As informações obtidas pelos dois métodos são diferentes e complementares. Portanto, é interessante combinar os parâmetros clássicos com os parâmetros multifractais, a fim de melhorar o desempenho dos sistemas de reconhecimento de locutor. Os sistemas propostos foram avaliados por meio de três bases de dados de fala com diferentes configurações, tais como taxas de amostragem, número de falantes e frases e duração do treinamento e teste. Estas diferentes configurações permitem determinar as características do sinal de fala requeridas pelo sistema. Do resultado dos experimentos foi observado que o sistema de identificação de locutor usando os parâmetros VVGM alcançou taxas de acerto significativas, o que mostra que este modelo multifractal contém informações relevantes sobre a identidade de cada locutor. Por exemplo, a segunda base de dados é composta de sinais de fala de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 frases para cada locutor, com uma duração total de cerca de 70 s. Avaliando o sistema ASR baseado em VVGM, com locuções de teste de 3 s de comprimento, foi obtida uma taxa de reconhecimento de 91,30%. Usando estas mesmas condições, o sistema ASR baseado em MFCCs atingiu uma taxa de reconhecimento de 98,76%. No entanto, quando os dois parâmetros foram combinados, a taxa de reconhecimento aumentou para 99,43%, mostrando que a nova característica acrescenta informações importantes para o sistema de reconhecimento de locutorAbstract: This dissertation presents an Automatic Speaker Recognition (ASR) system, which employs a new parameter based on the ¿VVGM? (Variable Variance Gaussian Multiplier) multifractal model. The methodology adopted for the development of this system is formulated in two stages. Initially, a traditional ASR system was implemented, based on the use of Mel-Frequency Cepstral Coefficients (MFCCs) and the Gaussian mixture models (GMMs) as the classifier, since it is the method with the best results in the literature. This procedure allows having a broad knowledge about the production of speech signals and a reference system to compare the performance of the new VVGM parameter. The second stage was dedicated to the study of the multifractal processes for speech signals, given that with them, it is possible to analyze information contained in non-stationary parts of the evaluated signal. Taking advantage of this characteristic, speech signals are modeled using the VVGM model, which is based on the binomial multiplicative cascade process, and uses the variances of multipliers for each state as a new speech feature. The information obtained by the two methods is different and complementary. Therefore, it is interesting to combine the classic parameters with the multifractal parameters in order to improve the performance of speaker recognition systems. The proposed systems were evaluated using three databases with different settings, such as sampling rates, number of speakers and phrases, duration of training and testing. These different configurations allow the determination of characteristics of the speech signal required by the system. With the experiments, the speaker identification system based on the VVGM parameters achieved significant success rates, which shows that this multifractal model contains relevant information of the identity of each speaker. For example, the second database is composed of speech signals of 71 speakers (50 men and 21 women) digitized at 22.05 kHz with 16 bits/sample. The training was done with 20 phrases for each speaker, with an approximately total duration of 70 s. Evaluating the ASR system based on VVGM, with this database and using test locutions with 3s of duration, it was obtained a recognition rate of 91.3%. Using these same conditions, the ASR system based on MFCCs reached a recognition rate of 98.76%. However, when the two parameters are combined, the recognition rate increased to 99.43%, showing that the new feature adds substantial information to the speaker recognition systemMestradoTelecomunicações e TelemáticaMestre em Engenharia Elétrica[s.n.]Lee, Luan Ling, 1956-Violaro, Fábio, 1950-Lee, Luan Ling, 1956-Klautau, AldebaroAttux, Romis Ribeiro de FaissolUniversidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de ComputaçãoPrograma de Pós-Graduação em Engenharia ElétricaUNIVERSIDADE ESTADUAL DE CAMPINASGonzález, Diana Cristina, 1984-2011info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf116 p. : il.https://hdl.handle.net/20.500.12733/1616566GONZÁLEZ, Diana Cristina. Uso de parâmetros multifractais no reconhecimento de locutor. 2011. 116 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616566. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/837068porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T06:26:38Zoai::837068Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T06:26:38Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv	Uso de parâmetros multifractais no reconhecimento de locutor Use of multifractal parameters for speaker recognition
title	Uso de parâmetros multifractais no reconhecimento de locutor
spellingShingle	Uso de parâmetros multifractais no reconhecimento de locutor González, Diana Cristina, 1984- Multifractais Reconhecimento automático da voz Gaussian distribution Sistemas de processamento da fala Multifractal Automatic speech recognition Gaussian distribution Speech processing system
title_short	Uso de parâmetros multifractais no reconhecimento de locutor
title_full	Uso de parâmetros multifractais no reconhecimento de locutor
title_fullStr	Uso de parâmetros multifractais no reconhecimento de locutor
title_full_unstemmed	Uso de parâmetros multifractais no reconhecimento de locutor
title_sort	Uso de parâmetros multifractais no reconhecimento de locutor
author	González, Diana Cristina, 1984-
author_facet	González, Diana Cristina, 1984-
author_role	author
dc.contributor.none.fl_str_mv	Lee, Luan Ling, 1956- Violaro, Fábio, 1950- Lee, Luan Ling, 1956- Klautau, Aldebaro Attux, Romis Ribeiro de Faissol Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação Programa de Pós-Graduação em Engenharia Elétrica UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv	González, Diana Cristina, 1984-
dc.subject.por.fl_str_mv	Multifractais Reconhecimento automático da voz Gaussian distribution Sistemas de processamento da fala Multifractal Automatic speech recognition Gaussian distribution Speech processing system
topic	Multifractais Reconhecimento automático da voz Gaussian distribution Sistemas de processamento da fala Multifractal Automatic speech recognition Gaussian distribution Speech processing system
description	Orientadores: Lee Luan Ling, Fábio Violaro
publishDate	2011
dc.date.none.fl_str_mv	2011
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/20.500.12733/1616566 GONZÁLEZ, Diana Cristina. Uso de parâmetros multifractais no reconhecimento de locutor. 2011. 116 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616566. Acesso em: 3 set. 2024.
url	https://hdl.handle.net/20.500.12733/1616566
identifier_str_mv	GONZÁLEZ, Diana Cristina. Uso de parâmetros multifractais no reconhecimento de locutor. 2011. 116 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616566. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://repositorio.unicamp.br/acervo/detalhe/837068
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 116 p. : il.
dc.publisher.none.fl_str_mv	[s.n.]
publisher.none.fl_str_mv	[s.n.]
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP
instname_str	Universidade Estadual de Campinas (UNICAMP)
instacron_str	UNICAMP
institution	UNICAMP
reponame_str	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv	sbubd@unicamp.br
_version_	1809189065589784576

Uso de parâmetros multifractais no reconhecimento de locutor

Registros relacionados