Detecção de atividade vocal empregando máquinas de Boltzmann restritas.

Detalhes bibliográficos
Autor(a) principal: Borin, Rogério Guerra
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/3/3142/tde-23012017-141914/
Resumo: Neste trabalho, uma versão de RBM (Restricted Boltzmann Machine) tendo uma camada de classificação é adaptada a fim de permitir o seu uso com dados definidos num domínio contínuo. Essa adaptação dá origem a uma variante do modelo para o qual são desenvolvidas as regras de atualização de parâmetros dos treinamentos discriminativo, generativo e híbrido. A aplicação da variante como classificador no problema de VAD (Voice Activity Detection) é então investigada. Por meio de simulações envolvendo o corpus NOIZEUS e empregando como entradas do classificador tanto MFCCs (Mel-Frequency Cepstral Coefficients) quanto FBEs (Filter-Bank Energies), são obtidos resultados comparáveis aos de detectores considerados como estado da arte, com um menor custo computacional. A variante de RBM é comparada também com as SVMs (Support Vector Machines) lineares e com núcleo gaussiano. Com treinamento discriminativo, a RBM fornece desempenhos intermediários entre as duas versões de SVM, porém um custo computacional que é consideravelmente inferior aos de ambas. Adicionalmente, um conjunto de medidas do áudio que tiveram seu uso em VAD proposto recentemente são avaliadas com o emprego da RBM com treinamento discriminativo. Embora os resultados não sejam conclusivos, os desempenhos conseguidos indicam que essas medidas não são vantajosas quando comparadas com os tradicionais MFCCs.
id USP_bfddbec86a6ee9d040c10ba2582eb3da
oai_identifier_str oai:teses.usp.br:tde-23012017-141914
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Detecção de atividade vocal empregando máquinas de Boltzmann restritas.Voice activity detection employing restricted Boltzmann machines.Artificial intelligenceInteligência artificialProcessamento de sinaisProcessamento de somSignal processingSound processingTelefoniaTelephonyNeste trabalho, uma versão de RBM (Restricted Boltzmann Machine) tendo uma camada de classificação é adaptada a fim de permitir o seu uso com dados definidos num domínio contínuo. Essa adaptação dá origem a uma variante do modelo para o qual são desenvolvidas as regras de atualização de parâmetros dos treinamentos discriminativo, generativo e híbrido. A aplicação da variante como classificador no problema de VAD (Voice Activity Detection) é então investigada. Por meio de simulações envolvendo o corpus NOIZEUS e empregando como entradas do classificador tanto MFCCs (Mel-Frequency Cepstral Coefficients) quanto FBEs (Filter-Bank Energies), são obtidos resultados comparáveis aos de detectores considerados como estado da arte, com um menor custo computacional. A variante de RBM é comparada também com as SVMs (Support Vector Machines) lineares e com núcleo gaussiano. Com treinamento discriminativo, a RBM fornece desempenhos intermediários entre as duas versões de SVM, porém um custo computacional que é consideravelmente inferior aos de ambas. Adicionalmente, um conjunto de medidas do áudio que tiveram seu uso em VAD proposto recentemente são avaliadas com o emprego da RBM com treinamento discriminativo. Embora os resultados não sejam conclusivos, os desempenhos conseguidos indicam que essas medidas não são vantajosas quando comparadas com os tradicionais MFCCs.In this work, a type of Restricted Boltzmann Machine (RBM) having a classification layer is adapted to allow its use with data defined in a continuous domain. Such adaptation gives rise to a variant of the model for which the parameter update rules are developed for the discriminative, generative and hybrid types of training. The application of the variant as a classifier to the Voice Activity Detection (VAD) problem is then investigated. By means of simulations involving the corpus NOIZEUS and employing Mel-Frequency Cepstral Coefficients (MFCCs) or Filter-Bank Energies (FBEs) as classifier inputs, results comparable to those of state-of-the-art detectors are achieved with a lower computational cost. The RBM variant is also compared to the linear and Gaussian kernel Support Vector Machines (SVMs). With the discriminative training, the RBM provides intermediate performances between the two SVM types, but a computational cost that is considerably lower than theirs. Additionally, a set of measures from the audio whose application in VAD has been recently proposed are evaluated by employing the RBM with discriminative training. Although the results are not conclusive, the performances obtained indicate that the measures are not advantageous when compared to the traditional MFCCs.Biblioteca Digitais de Teses e Dissertações da USPSilva, Magno Teófilo Madeira daBorin, Rogério Guerra2016-12-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/3/3142/tde-23012017-141914/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2018-07-17T16:34:08Zoai:teses.usp.br:tde-23012017-141914Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212018-07-17T16:34:08Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
Voice activity detection employing restricted Boltzmann machines.
title Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
spellingShingle Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
Borin, Rogério Guerra
Artificial intelligence
Inteligência artificial
Processamento de sinais
Processamento de som
Signal processing
Sound processing
Telefonia
Telephony
title_short Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
title_full Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
title_fullStr Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
title_full_unstemmed Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
title_sort Detecção de atividade vocal empregando máquinas de Boltzmann restritas.
author Borin, Rogério Guerra
author_facet Borin, Rogério Guerra
author_role author
dc.contributor.none.fl_str_mv Silva, Magno Teófilo Madeira da
dc.contributor.author.fl_str_mv Borin, Rogério Guerra
dc.subject.por.fl_str_mv Artificial intelligence
Inteligência artificial
Processamento de sinais
Processamento de som
Signal processing
Sound processing
Telefonia
Telephony
topic Artificial intelligence
Inteligência artificial
Processamento de sinais
Processamento de som
Signal processing
Sound processing
Telefonia
Telephony
description Neste trabalho, uma versão de RBM (Restricted Boltzmann Machine) tendo uma camada de classificação é adaptada a fim de permitir o seu uso com dados definidos num domínio contínuo. Essa adaptação dá origem a uma variante do modelo para o qual são desenvolvidas as regras de atualização de parâmetros dos treinamentos discriminativo, generativo e híbrido. A aplicação da variante como classificador no problema de VAD (Voice Activity Detection) é então investigada. Por meio de simulações envolvendo o corpus NOIZEUS e empregando como entradas do classificador tanto MFCCs (Mel-Frequency Cepstral Coefficients) quanto FBEs (Filter-Bank Energies), são obtidos resultados comparáveis aos de detectores considerados como estado da arte, com um menor custo computacional. A variante de RBM é comparada também com as SVMs (Support Vector Machines) lineares e com núcleo gaussiano. Com treinamento discriminativo, a RBM fornece desempenhos intermediários entre as duas versões de SVM, porém um custo computacional que é consideravelmente inferior aos de ambas. Adicionalmente, um conjunto de medidas do áudio que tiveram seu uso em VAD proposto recentemente são avaliadas com o emprego da RBM com treinamento discriminativo. Embora os resultados não sejam conclusivos, os desempenhos conseguidos indicam que essas medidas não são vantajosas quando comparadas com os tradicionais MFCCs.
publishDate 2016
dc.date.none.fl_str_mv 2016-12-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/3/3142/tde-23012017-141914/
url http://www.teses.usp.br/teses/disponiveis/3/3142/tde-23012017-141914/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809091004597272576