Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial

Detalhes bibliográficos
Autor(a) principal: Soares, Aminadabe dos Santos Pires
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do UCpel
Texto Completo: http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758
Resumo: A distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).
id UCPe_ff0f6235539cccac06836d8ea9dcfcbf
oai_identifier_str oai:tede.ucpel.edu.br:jspui/758
network_acronym_str UCPe
network_name_str Biblioteca Digital de Teses e Dissertações do UCpel
repository_id_str
spelling Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radialdetecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomialvoice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential KernelENGENHARIASA distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).The distinction between speech and non-speech in a discourse is fundamental in systems that use digital voice signal processing. On the developing research whose results are described in this dissertation, we have aimed to improve the voice activity detection (VAD), with the use of mathematical functions to verify similarities between excerpts of discourse. The technique developed in this work, therefore, uses kernel functions as a metric of similarity, especially in noisy environments. In these cases, the dynamics in the relationship between the analyzed signal power and the background noise brings great challenges to any algorithm VAD, for the additive noise makes it difficult to characterize the voice signal, resulting in false identifications. In the course of the research, kernel-based algorithms were implemented, KVAD (Kernel-based Voice Activity Detection), and worked with routines capable of extracting certain characteristics of the signal and using them in the classification of the excerpts of a speech, separating them between between speech and non-speech (noise or silence). Among these characteristics of the audio signal, we used the average energy, E, for a set of samples, the absolute value of Short- Time Discrete Fourier Transform, (jX(!)j), the power density spectral ( ), the spectral flatness (SF), as well as elements of the complex representation of the signal, phase and magnitude. This process of calculating and extracting the characteristics of the signal takes place both in the time domain and in the frequency domain. We used the Hilbert Vector Space defined by Reproductive Kernel, or Reproducing Kernel Hilbert Space, to treat linearly the nonlinear data classification problems in the vector space of origin. That is, non-separable data (or difficult to separate) linearly become (more easily) separable in this new space, where the proximity of two functions, denoted by the small value of the norm between their differences, implies in close proximity to their values, only by the internal product of its functions (GUEVARA; HIRATA; CANU, 2014). Three paths were followed to test the robustness of algorithms in scenarios with additive noise: two methods in the time domain (continuous evaluation of the whole audio signal and partitioned evaluation) and one method considering both time domain and frequency. The latter presented better results, since it covered all those methods developed. Among the characteristics studied, signal energy was the highest quality in the voice activity detection using KVAD algorithms, presenting lower error rates compared to other energy-based VAD algorithms. Tests were performed with the Cauchy kernel function, whose routines achieved results similar to the Gaussian kernel. Finally, a radial-based VAD algorithm was developed using a generalized exponential kernel function, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).Universidade Catolica de PelotasCentro de Ciencias Sociais e TecnologicasBrasilUCPelMestrado em Engenharia Eletronica e ComputacaoSouza, Everton Granemannhttp://lattes.cnpq.br/2699479842607845Yamin, Adenauer Correahttp://lattes.cnpq.br/8861113953470000Molter, Alexandrehttp://lattes.cnpq.br/7898168715320830Soares, Aminadabe dos Santos Pires2019-04-04T11:57:06Z2018-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSoares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas.http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do UCpelinstname:Universidade Católica de Pelotas (UCPEL)instacron:UCPEL2020-09-29T21:40:08Zoai:tede.ucpel.edu.br:jspui/758Biblioteca Digital de Teses e Dissertaçõeshttp://www2.ufpel.edu.br/tede/http://tede.ucpel.edu.br:8080/oai/requestbiblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.bropendoar:2020-09-29T21:40:08Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)false
dc.title.none.fl_str_mv Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
spellingShingle Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
Soares, Aminadabe dos Santos Pires
detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial
voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel
ENGENHARIAS
title_short Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_full Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_fullStr Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_full_unstemmed Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
title_sort Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial
author Soares, Aminadabe dos Santos Pires
author_facet Soares, Aminadabe dos Santos Pires
author_role author
dc.contributor.none.fl_str_mv Souza, Everton Granemann
http://lattes.cnpq.br/2699479842607845
Yamin, Adenauer Correa
http://lattes.cnpq.br/8861113953470000
Molter, Alexandre
http://lattes.cnpq.br/7898168715320830
dc.contributor.author.fl_str_mv Soares, Aminadabe dos Santos Pires
dc.subject.por.fl_str_mv detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial
voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel
ENGENHARIAS
topic detecção de atividade de voz; ambiente ruidoso; funções de base radial; Kernels de Cauchy e Gaussiano; Kernel laplaciano; Kernel exponencial; Kernel polinomial
voice activity detection; noisy environment, radial basis functions; Cauchy and Gaussian Kernel;s, Laplacian Kernel; exponential Kernel
ENGENHARIAS
description A distinção entre voz e ausência de voz num discurso mostra-se fundamental em sistemas que utilizam o processamento digital de áudio. Ao desenvolver a pesquisa cujos resultados são descritos nesta dissertação, buscou-se aprimorar o processo de detecção de atividade de voz com o uso de funções matemáticas a fim de verificar semelhanças entre trechos do discurso. A técnica desenvolvida neste trabalho utiliza, portanto, funções kernel como métrica de similaridade, sobretudo em ambientes ruidosos. Nesses casos, a dinâmica na relação entre a potência do sinal analisado e o ruído de fundo traz grandes desafios a qualquer algoritmo para detecção de atividade de voz VAD (Voice Activity Detection), pois o ruído aditivo dificulta a caracterização do sinal de áudio, resultando em falsas identificações para a atividade de voz. Foram implementados algoritmos baseados em funções kernel, KVAD (Kernel-based Voice Activity Detection), e trabalhou-se com rotinas capazes de extrair certas características do sinal e usá-las na classificação dos trechos de um discurso, separando-os entre voz e ausência de voz (ruído ou silêncio). Dentre essas características do sinal de áudio, utilizou-se a energia média, E, para um conjunto de amostras, ou frame, o valor absoluto da Transformada Discreta de Fourier de Tempo Curto, do inglês STDFT (Short-Time Discrete Fourier Transform), (jX(!)j), a densidade espectral da energia ( ), a planicidade espectral (SF), bem como elementos da representação complexa do sinal, fase e magnitude. Esse processo de calcular e extrair as características do sinal transcorre tanto no domínio do tempo quanto no domínio da frequência. Utilizou-se o Espaço Vetorial de Hilbert definido por Kernel Reprodutivo, do inglês Reproducing Kernel Hilbert Space (RKHS), para tratar de forma linear problemas não-lineares de classificação de dados no espaço vetorial de origem. Ou seja, dados não-separáveis (ou dificilmente separáveis) linearmente tornam-se (mais facilmente) separáveis nesse novo espaço, onde a proximidade de duas funções, denotada pelo valor pequeno da norma entre suas diferenças, implica em proximidade de seus valores, avaliando-se somente o produto interno de suas funções (GUEVARA; HIRATA; CANU, 2014). Foram seguidos três vieses para testar a robustez dos algoritmos em cenários com ruído aditivo: dois métodos no domínio do tempo (avaliação contínua de todo o sinal de áudio e avaliação particionada) e um método considerando tanto o domínio do tempo quanto da frequência. Este último apresentou melhores resultados, por abranger todos os métodos desenvolvidos. Dentre as características estudadas, a energia do sinal revelou-se a de maior qualidade na detecção de atividade de voz utilizando algoritmos KVAD, apresentando menores taxas de erro em comparação com outros algoritmos VAD baseados em energia. Foram realizados testes com a função kernel de Cauchy, cujas rotinas alcançaram resultados semelhantes ao kernel gaussiano. Por fim, foi desenvolvido um algoritmo VAD, de base radial, utilizando uma função kernel exponencial generalizada, GEVAD (Generalized Exponential Kernel for Voice Activity Detection).
publishDate 2018
dc.date.none.fl_str_mv 2018-08-30
2019-04-04T11:57:06Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv Soares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas.
http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758
identifier_str_mv Soares, Aminadabe dos Santos Pires. Detecção de atividade de voz em ambientes ruidosos utilizando funções Kernel de base radial. 2018. 62 f. Dissertação( Mestrado em Engenharia Eletronica e Computacao) - Universidade Catolica de Pelotas, Pelotas.
url http://tede.ucpel.edu.br:8080/jspui/handle/jspui/758
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Catolica de Pelotas
Centro de Ciencias Sociais e Tecnologicas
Brasil
UCPel
Mestrado em Engenharia Eletronica e Computacao
publisher.none.fl_str_mv Universidade Catolica de Pelotas
Centro de Ciencias Sociais e Tecnologicas
Brasil
UCPel
Mestrado em Engenharia Eletronica e Computacao
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do UCpel
instname:Universidade Católica de Pelotas (UCPEL)
instacron:UCPEL
instname_str Universidade Católica de Pelotas (UCPEL)
instacron_str UCPEL
institution UCPEL
reponame_str Biblioteca Digital de Teses e Dissertações do UCpel
collection Biblioteca Digital de Teses e Dissertações do UCpel
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do UCpel - Universidade Católica de Pelotas (UCPEL)
repository.mail.fl_str_mv biblioteca@ucpel.edu.br||cristiane.chim@ucpel.tche.br
_version_ 1809095180665487360