Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial

Soares, Aminadabe dos Santos Pires

Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial

Detalhes bibliográficos
Autor(a) principal:	Soares, Aminadabe dos Santos Pires
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações do UCpel
Texto Completo:	http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758
Resumo:	A distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).

Metadados do item

id	UCPe_ff0f6235539cccac06836d8ea9dcfcbf
oai_identifier_str	oai:tede.ucpel.edu.br:jspui/758
network_acronym_str	UCPe
network_name_str	Biblioteca Digital de Teses e Dissertações do UCpel
repository_id_str
spelling	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radialdetecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomialvoice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential KernelENGENHARIASA distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).The distinction between speech and non-speech in a discourse is fundamental in systems that use digital voice signal processing. On the developing research whose results are described in this dissertation, we have aimed to improve the voice activity detection (VAD), with the use of mathematical functions to verify similarities between excerpts of discourse. The technique developed in this work, therefore, uses kernel functions as a metric of similarity, especially in noisy environments. In these cases, the dynamics in the relationship between the analyzed signal power and the background noise brings great challenges to any algorithm VAD, for the additive noise makes it difficult to characterize the voice signal, resulting in false identifications. In the course of the research, kernel-based algorithms were implemented, KVAD (Kernel-based Voice Activity Detection), and worked with routines capable of extracting certain characteristics of the signal and using them in the classification of the excerpts of a speech, separating them between between speech and non-speech (noise or silence). Among these characteristics of the audio signal, we used the average energy, E, for a set of samples, the absolute value of Short- Time Discrete Fourier Transform, (jX(!)j), the power density spectral ( ), the spectral flatness (SF), as well as elements of the complex representation of the signal, phase and magnitude. This process of calculating and extracting the characteristics of the signal takes place both in the time domain and in the frequency domain. We used the Hilbert Vector Space defined by Reproductive Kernel, or Reproducing Kernel Hilbert Space, to treat linearly the nonlinear data classification problems in the vector space of origin. That is, non-separable data (or difficult to separate) linearly become (more easily) separable in this new space, where the proximity of two functions, denoted by the small value of the norm between their differences, implies in close proximity to their values, only by the internal product of its functions (GUEVARA; HIRATA; CANU, 2014). Three paths were followed to test the robustness of algorithms in scenarios with additive noise: two methods in the time domain (continuous evaluation of the whole audio signal and partitioned evaluation) and one method considering both time domain and frequency. The latter presented better results, since it covered all those methods developed. Among the characteristics studied, signal energy was the highest quality in the voice activity detection using KVAD algorithms, presenting lower error rates compared to other energy-based VAD algorithms. Tests were performed with the Cauchy kernel function, whose routines achieved results similar to the Gaussian kernel. Finally, a radial-based VAD algorithm was developed using a generalized exponential kernel function, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).Universidade Catolica de PelotasCentro de Ciencias Sociais e TecnologicasBrasilUCPelMestrado em Engenharia Eletronica e ComputacaoSouza, Everton Granemannhttp://lattes.cnpq.br/2699479842607845Yamin, Adenauer Correahttp://lattes.cnpq.br/8861113953470000Molter, Alexandrehttp://lattes.cnpq.br/7898168715320830Soares, Aminadabe dos Santos Pires2019-04-04T11:57:06Z2018-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSoares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas.http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do UCpelinstname:Universidade Católica de Pelotas (UCPEL)instacron:UCPEL2020-09-29T21:40:08Zoai:tede.ucpel.edu.br:jspui/758Biblioteca Digital de Teses e Dissertaçõeshttp://www2.ufpel.edu.br/tede/http://tede.ucpel.edu.br:8080/oai/requestbiblioteca@ucpel.edu.br\|\|cristiane.chim@ucpel.tche.bropendoar:2020-09-29T21:40:08Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)false
dc.title.none.fl_str_mv	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
spellingShingle	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial Soares, Aminadabe dos Santos Pires detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel ENGENHARIAS
title_short	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_full	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_fullStr	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_full_unstemmed	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_sort	Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
author	Soares, Aminadabe dos Santos Pires
author_facet	Soares, Aminadabe dos Santos Pires
author_role	author
dc.contributor.none.fl_str_mv	Souza, Everton Granemann http://lattes.cnpq.br/2699479842607845 Yamin, Adenauer Correa http://lattes.cnpq.br/8861113953470000 Molter, Alexandre http://lattes.cnpq.br/7898168715320830
dc.contributor.author.fl_str_mv	Soares, Aminadabe dos Santos Pires
dc.subject.por.fl_str_mv	detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel ENGENHARIAS
topic	detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel ENGENHARIAS
description	A distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).
publishDate	2018
dc.date.none.fl_str_mv	2018-08-30 2019-04-04T11:57:06Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	Soares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas. http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758
identifier_str_mv	Soares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas.
url	http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Catolica de Pelotas Centro de Ciencias Sociais e Tecnologicas Brasil UCPel Mestrado em Engenharia Eletronica e Computacao
publisher.none.fl_str_mv	Universidade Catolica de Pelotas Centro de Ciencias Sociais e Tecnologicas Brasil UCPel Mestrado em Engenharia Eletronica e Computacao
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações do UCpel instname:Universidade Católica de Pelotas (UCPEL) instacron:UCPEL
instname_str	Universidade Católica de Pelotas (UCPEL)
instacron_str	UCPEL
institution	UCPEL
reponame_str	Biblioteca Digital de Teses e Dissertações do UCpel
collection	Biblioteca Digital de Teses e Dissertações do UCpel
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)
repository.mail.fl_str_mv	biblioteca@ucpel.edu.br\|\|cristiane.chim@ucpel.tche.br
_version_	1811734994901532672

Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial

Registros relacionados