Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado

Campos, Victor de Abreu [UNESP]

Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado

Detalhes bibliográficos
Autor(a) principal:	Campos, Victor de Abreu [UNESP]
Data de Publicação:	2017
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	http://hdl.handle.net/11449/151725
Resumo:	A quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de recuperação de locutor e ganhos de acurácia relativos de até +7,05% na tarefa de identificação entre gravações de domínios diferentes.

Metadados do item

id	UNSP_240c5eedc5d02e801653896ffd537067
oai_identifier_str	oai:repositorio.unesp.br:11449/151725
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionadoSpeaker recognition framework based on unsupervised learningMFCCPLPVQGMMi-vectorRL-SimReckNNReconhecimento de locutorAprendizado não supervisionadoSpeaker recognitionUnsupervised learningA quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de recuperação de locutor e ganhos de acurácia relativos de até +7,05% na tarefa de identificação entre gravações de domínios diferentes.The huge amount of multimedia content accumulated daily has demanded the development of effective retrieval approaches. In this context, speaker recognition tools capable of automatically identifying a person through their voice are of great relevance. This work presents a novel speaker recognition approach modelled as a retrieval scenario and using recent unsupervised learning methods. The proposed approach considers Mel-Frequency Cepstral Coefficients (MFCCs) and Perceptual Linear Prediction Coefficients (PLPs) as features along with multiple modelling approaches, namely Vector Quantization, Gaussian Mixture Models and i-vector to compute distances among audio objects. Next, rank-based unsupervised learning methods are used for improving the effectiveness of retrieval results and, based on a K-Nearest Neighbors classifier, an identity decision is taken. Several experiments were conducted considering three public datasets from different scenarios, carrying noise from various sources. Experimental results demonstrate that the proposed approach can achieve very high effectiveness results. In addition, effectiveness gains up to +318% were obtained by the unsupervised learning procedure in a speaker retrieval task. Also, accuracy gains up to +7,05% were obtained by the unsupervised learning procedure in a speaker identification task considering recordings from different domains.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 2015/07934-4Universidade Estadual Paulista (Unesp)Pedronette, Daniel Carlos Guimarães [UNESP]Universidade Estadual Paulista (Unesp)Campos, Victor de Abreu [UNESP]2017-09-28T13:43:21Z2017-09-28T13:43:21Z2017-08-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/15172500089250333004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-12-11T06:18:56Zoai:repositorio.unesp.br:11449/151725Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T20:04:21.619765Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado Speaker recognition framework based on unsupervised learning
title	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
spellingShingle	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado Campos, Victor de Abreu [UNESP] MFCC PLP VQ GMM i-vector RL-Sim ReckNN Reconhecimento de locutor Aprendizado não supervisionado Speaker recognition Unsupervised learning
title_short	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_full	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_fullStr	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_full_unstemmed	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_sort	Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
author	Campos, Victor de Abreu [UNESP]
author_facet	Campos, Victor de Abreu [UNESP]
author_role	author
dc.contributor.none.fl_str_mv	Pedronette, Daniel Carlos Guimarães [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Campos, Victor de Abreu [UNESP]
dc.subject.por.fl_str_mv	MFCC PLP VQ GMM i-vector RL-Sim ReckNN Reconhecimento de locutor Aprendizado não supervisionado Speaker recognition Unsupervised learning
topic	MFCC PLP VQ GMM i-vector RL-Sim ReckNN Reconhecimento de locutor Aprendizado não supervisionado Speaker recognition Unsupervised learning
description	A quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de recuperação de locutor e ganhos de acurácia relativos de até +7,05% na tarefa de identificação entre gravações de domínios diferentes.
publishDate	2017
dc.date.none.fl_str_mv	2017-09-28T13:43:21Z 2017-09-28T13:43:21Z 2017-08-31
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/151725 000892503 33004153073P2
url	http://hdl.handle.net/11449/151725
identifier_str_mv	000892503 33004153073P2
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1808129157328011264

Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado

Registros relacionados