Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do UCpel |
Texto Completo: | http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758 |
Resumo: | A distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection). |
id |
UCPe_ff0f6235539cccac06836d8ea9dcfcbf |
---|---|
oai_identifier_str |
oai:tede.ucpel.edu.br:jspui/758 |
network_acronym_str |
UCPe |
network_name_str |
Biblioteca Digital de Teses e Dissertações do UCpel |
repository_id_str |
|
spelling |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radialdetecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomialvoice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential KernelENGENHARIASA distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).The distinction between speech and non-speech in a discourse is fundamental in systems that use digital voice signal processing. On the developing research whose results are described in this dissertation, we have aimed to improve the voice activity detection (VAD), with the use of mathematical functions to verify similarities between excerpts of discourse. The technique developed in this work, therefore, uses kernel functions as a metric of similarity, especially in noisy environments. In these cases, the dynamics in the relationship between the analyzed signal power and the background noise brings great challenges to any algorithm VAD, for the additive noise makes it difficult to characterize the voice signal, resulting in false identifications. In the course of the research, kernel-based algorithms were implemented, KVAD (Kernel-based Voice Activity Detection), and worked with routines capable of extracting certain characteristics of the signal and using them in the classification of the excerpts of a speech, separating them between between speech and non-speech (noise or silence). Among these characteristics of the audio signal, we used the average energy, E, for a set of samples, the absolute value of Short- Time Discrete Fourier Transform, (jX(!)j), the power density spectral ( ), the spectral flatness (SF), as well as elements of the complex representation of the signal, phase and magnitude. This process of calculating and extracting the characteristics of the signal takes place both in the time domain and in the frequency domain. We used the Hilbert Vector Space defined by Reproductive Kernel, or Reproducing Kernel Hilbert Space, to treat linearly the nonlinear data classification problems in the vector space of origin. That is, non-separable data (or difficult to separate) linearly become (more easily) separable in this new space, where the proximity of two functions, denoted by the small value of the norm between their differences, implies in close proximity to their values, only by the internal product of its functions (GUEVARA; HIRATA; CANU, 2014). Three paths were followed to test the robustness of algorithms in scenarios with additive noise: two methods in the time domain (continuous evaluation of the whole audio signal and partitioned evaluation) and one method considering both time domain and frequency. The latter presented better results, since it covered all those methods developed. Among the characteristics studied, signal energy was the highest quality in the voice activity detection using KVAD algorithms, presenting lower error rates compared to other energy-based VAD algorithms. Tests were performed with the Cauchy kernel function, whose routines achieved results similar to the Gaussian kernel. Finally, a radial-based VAD algorithm was developed using a generalized exponential kernel function, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).Universidade Catolica de PelotasCentro de Ciencias Sociais e TecnologicasBrasilUCPelMestrado em Engenharia Eletronica e ComputacaoSouza, Everton Granemannhttp://lattes.cnpq.br/2699479842607845Yamin, Adenauer Correahttp://lattes.cnpq.br/8861113953470000Molter, Alexandrehttp://lattes.cnpq.br/7898168715320830Soares, Aminadabe dos Santos Pires2019-04-04T11:57:06Z2018-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSoares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas.http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do UCpelinstname:Universidade Católica de Pelotas (UCPEL)instacron:UCPEL2020-09-29T21:40:08Zoai:tede.ucpel.edu.br:jspui/758Biblioteca Digital de Teses e Dissertaçõeshttp://www2.ufpel.edu.br/tede/http://tede.ucpel.edu.br:8080/oai/requestbiblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.bropendoar:2020-09-29T21:40:08Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)false |
dc.title.none.fl_str_mv |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial |
title |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial |
spellingShingle |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial Soares, Aminadabe dos Santos Pires detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel ENGENHARIAS |
title_short |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial |
title_full |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial |
title_fullStr |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial |
title_full_unstemmed |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial |
title_sort |
Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial |
author |
Soares, Aminadabe dos Santos Pires |
author_facet |
Soares, Aminadabe dos Santos Pires |
author_role |
author |
dc.contributor.none.fl_str_mv |
Souza, Everton Granemann http://lattes.cnpq.br/2699479842607845 Yamin, Adenauer Correa http://lattes.cnpq.br/8861113953470000 Molter, Alexandre http://lattes.cnpq.br/7898168715320830 |
dc.contributor.author.fl_str_mv |
Soares, Aminadabe dos Santos Pires |
dc.subject.por.fl_str_mv |
detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel ENGENHARIAS |
topic |
detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel ENGENHARIAS |
description |
A distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection). |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-08-30 2019-04-04T11:57:06Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
Soares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas. http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758 |
identifier_str_mv |
Soares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas. |
url |
http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Catolica de Pelotas Centro de Ciencias Sociais e Tecnologicas Brasil UCPel Mestrado em Engenharia Eletronica e Computacao |
publisher.none.fl_str_mv |
Universidade Catolica de Pelotas Centro de Ciencias Sociais e Tecnologicas Brasil UCPel Mestrado em Engenharia Eletronica e Computacao |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do UCpel instname:Universidade Católica de Pelotas (UCPEL) instacron:UCPEL |
instname_str |
Universidade Católica de Pelotas (UCPEL) |
instacron_str |
UCPEL |
institution |
UCPEL |
reponame_str |
Biblioteca Digital de Teses e Dissertações do UCpel |
collection |
Biblioteca Digital de Teses e Dissertações do UCpel |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL) |
repository.mail.fl_str_mv |
biblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.br |
_version_ |
1811734994901532672 |