Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.

Detalhes bibliográficos
Autor(a) principal: Casagrande, Rogério
Data de Publicação: 1997
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/
Resumo: A rede neural do tipo TDNN (Time-Delay Neural Network), vem sendo aplicada na tarefa de identificação de locutores devido a sua capacidade de lidar com eventos temporais. Neste trabalho foram utilizadas, além do algoritmo de treinamento originalproposto por Waibel, o Backpropagation, algumas estratégias de treinamento das redes TDNN a partir de modificações neste algoritmo. São apresentadas os resultados de diferentes formas de propagação do erro através das ponderações das sinapses, eainda, a influência dos atrasos na tarefa de identificação. Para efeito de comparação, aplicou-se à mesma tarefa a rede MLP (Multi Layer Perceptron). Os resultados mostraram que o desempenho da rede TDNN na aplicação à identificação de locutores é superior. Outro estudo foi realizado utilizando-se duas técnicas para o pré-processamento dos dados de entrada dos sistemas neurais: o banco de filtros (filter banks) e a transformada Wavelet. Os testes mostram grande potencial da transformada Wavelet em termos de rapidez de cálculo e boa compactação dos dados. Entretanto, verificou-se melhor desempenho das redes com pré-processamento de banco de filtros.
id USP_9fc7102404c3c828e52e3f806488205c
oai_identifier_str oai:teses.usp.br:tde-06112024-143045
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.Untitled in englishDigital signal processingNeural networksProcessamento digital de sinaisReconhecimento de locutoresRedes neuraisSpeaker recognitionA rede neural do tipo TDNN (Time-Delay Neural Network), vem sendo aplicada na tarefa de identificação de locutores devido a sua capacidade de lidar com eventos temporais. Neste trabalho foram utilizadas, além do algoritmo de treinamento originalproposto por Waibel, o Backpropagation, algumas estratégias de treinamento das redes TDNN a partir de modificações neste algoritmo. São apresentadas os resultados de diferentes formas de propagação do erro através das ponderações das sinapses, eainda, a influência dos atrasos na tarefa de identificação. Para efeito de comparação, aplicou-se à mesma tarefa a rede MLP (Multi Layer Perceptron). Os resultados mostraram que o desempenho da rede TDNN na aplicação à identificação de locutores é superior. Outro estudo foi realizado utilizando-se duas técnicas para o pré-processamento dos dados de entrada dos sistemas neurais: o banco de filtros (filter banks) e a transformada Wavelet. Os testes mostram grande potencial da transformada Wavelet em termos de rapidez de cálculo e boa compactação dos dados. Entretanto, verificou-se melhor desempenho das redes com pré-processamento de banco de filtros.A Time-Delay Neural Network (TDNN) has been applied to speaker recognition due to its ability of dealing with temporal events. In this work, the original Backpropagation algorithm, as suggested by Waibel, was applied to the TDNN training and also some modifying strategies. Results of different ways of backpropagating the error through the synapses, and also the influence of the delays in the identification task will be presented. As a performance comparison the same task was presented for a Multi-Layer Perceptron (MLP). The results show that the TDNN performance was better than the MLP. Another comparison has been made using two different techniques in pre-processing data to be input to the neural systems: filter banks and the Wavelet Transform. Tests show that the Wavelet Transform has great potential in terms of transformation speed and compactness of data. Nevertheless, the results show that the filter banks pre-processing worked better than the Wavelet Transform for all tests.Biblioteca Digitais de Teses e Dissertações da USPCabral Junior, Euvaldo FerreiraCasagrande, Rogério1997-12-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-11-06T16:48:02Zoai:teses.usp.br:tde-06112024-143045Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-11-06T16:48:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
Untitled in english
title Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
spellingShingle Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
Casagrande, Rogério
Digital signal processing
Neural networks
Processamento digital de sinais
Reconhecimento de locutores
Redes neurais
Speaker recognition
title_short Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
title_full Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
title_fullStr Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
title_full_unstemmed Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
title_sort Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
author Casagrande, Rogério
author_facet Casagrande, Rogério
author_role author
dc.contributor.none.fl_str_mv Cabral Junior, Euvaldo Ferreira
dc.contributor.author.fl_str_mv Casagrande, Rogério
dc.subject.por.fl_str_mv Digital signal processing
Neural networks
Processamento digital de sinais
Reconhecimento de locutores
Redes neurais
Speaker recognition
topic Digital signal processing
Neural networks
Processamento digital de sinais
Reconhecimento de locutores
Redes neurais
Speaker recognition
description A rede neural do tipo TDNN (Time-Delay Neural Network), vem sendo aplicada na tarefa de identificação de locutores devido a sua capacidade de lidar com eventos temporais. Neste trabalho foram utilizadas, além do algoritmo de treinamento originalproposto por Waibel, o Backpropagation, algumas estratégias de treinamento das redes TDNN a partir de modificações neste algoritmo. São apresentadas os resultados de diferentes formas de propagação do erro através das ponderações das sinapses, eainda, a influência dos atrasos na tarefa de identificação. Para efeito de comparação, aplicou-se à mesma tarefa a rede MLP (Multi Layer Perceptron). Os resultados mostraram que o desempenho da rede TDNN na aplicação à identificação de locutores é superior. Outro estudo foi realizado utilizando-se duas técnicas para o pré-processamento dos dados de entrada dos sistemas neurais: o banco de filtros (filter banks) e a transformada Wavelet. Os testes mostram grande potencial da transformada Wavelet em termos de rapidez de cálculo e boa compactação dos dados. Entretanto, verificou-se melhor desempenho das redes com pré-processamento de banco de filtros.
publishDate 1997
dc.date.none.fl_str_mv 1997-12-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/
url https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256492571361280