Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.
Autor(a) principal: | |
---|---|
Data de Publicação: | 1997 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/ |
Resumo: | A rede neural do tipo TDNN (Time-Delay Neural Network), vem sendo aplicada na tarefa de identificação de locutores devido a sua capacidade de lidar com eventos temporais. Neste trabalho foram utilizadas, além do algoritmo de treinamento originalproposto por Waibel, o Backpropagation, algumas estratégias de treinamento das redes TDNN a partir de modificações neste algoritmo. São apresentadas os resultados de diferentes formas de propagação do erro através das ponderações das sinapses, eainda, a influência dos atrasos na tarefa de identificação. Para efeito de comparação, aplicou-se à mesma tarefa a rede MLP (Multi Layer Perceptron). Os resultados mostraram que o desempenho da rede TDNN na aplicação à identificação de locutores é superior. Outro estudo foi realizado utilizando-se duas técnicas para o pré-processamento dos dados de entrada dos sistemas neurais: o banco de filtros (filter banks) e a transformada Wavelet. Os testes mostram grande potencial da transformada Wavelet em termos de rapidez de cálculo e boa compactação dos dados. Entretanto, verificou-se melhor desempenho das redes com pré-processamento de banco de filtros. |
id |
USP_9fc7102404c3c828e52e3f806488205c |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-06112024-143045 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor.Untitled in englishDigital signal processingNeural networksProcessamento digital de sinaisReconhecimento de locutoresRedes neuraisSpeaker recognitionA rede neural do tipo TDNN (Time-Delay Neural Network), vem sendo aplicada na tarefa de identificação de locutores devido a sua capacidade de lidar com eventos temporais. Neste trabalho foram utilizadas, além do algoritmo de treinamento originalproposto por Waibel, o Backpropagation, algumas estratégias de treinamento das redes TDNN a partir de modificações neste algoritmo. São apresentadas os resultados de diferentes formas de propagação do erro através das ponderações das sinapses, eainda, a influência dos atrasos na tarefa de identificação. Para efeito de comparação, aplicou-se à mesma tarefa a rede MLP (Multi Layer Perceptron). Os resultados mostraram que o desempenho da rede TDNN na aplicação à identificação de locutores é superior. Outro estudo foi realizado utilizando-se duas técnicas para o pré-processamento dos dados de entrada dos sistemas neurais: o banco de filtros (filter banks) e a transformada Wavelet. Os testes mostram grande potencial da transformada Wavelet em termos de rapidez de cálculo e boa compactação dos dados. Entretanto, verificou-se melhor desempenho das redes com pré-processamento de banco de filtros.A Time-Delay Neural Network (TDNN) has been applied to speaker recognition due to its ability of dealing with temporal events. In this work, the original Backpropagation algorithm, as suggested by Waibel, was applied to the TDNN training and also some modifying strategies. Results of different ways of backpropagating the error through the synapses, and also the influence of the delays in the identification task will be presented. As a performance comparison the same task was presented for a Multi-Layer Perceptron (MLP). The results show that the TDNN performance was better than the MLP. Another comparison has been made using two different techniques in pre-processing data to be input to the neural systems: filter banks and the Wavelet Transform. Tests show that the Wavelet Transform has great potential in terms of transformation speed and compactness of data. Nevertheless, the results show that the filter banks pre-processing worked better than the Wavelet Transform for all tests.Biblioteca Digitais de Teses e Dissertações da USPCabral Junior, Euvaldo FerreiraCasagrande, Rogério1997-12-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-11-06T16:48:02Zoai:teses.usp.br:tde-06112024-143045Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-11-06T16:48:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. Untitled in english |
title |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. |
spellingShingle |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. Casagrande, Rogério Digital signal processing Neural networks Processamento digital de sinais Reconhecimento de locutores Redes neurais Speaker recognition |
title_short |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. |
title_full |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. |
title_fullStr |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. |
title_full_unstemmed |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. |
title_sort |
Redes neurais artificiais com retardos temporais aplicadas ao reconhecimento automático do locutor. |
author |
Casagrande, Rogério |
author_facet |
Casagrande, Rogério |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cabral Junior, Euvaldo Ferreira |
dc.contributor.author.fl_str_mv |
Casagrande, Rogério |
dc.subject.por.fl_str_mv |
Digital signal processing Neural networks Processamento digital de sinais Reconhecimento de locutores Redes neurais Speaker recognition |
topic |
Digital signal processing Neural networks Processamento digital de sinais Reconhecimento de locutores Redes neurais Speaker recognition |
description |
A rede neural do tipo TDNN (Time-Delay Neural Network), vem sendo aplicada na tarefa de identificação de locutores devido a sua capacidade de lidar com eventos temporais. Neste trabalho foram utilizadas, além do algoritmo de treinamento originalproposto por Waibel, o Backpropagation, algumas estratégias de treinamento das redes TDNN a partir de modificações neste algoritmo. São apresentadas os resultados de diferentes formas de propagação do erro através das ponderações das sinapses, eainda, a influência dos atrasos na tarefa de identificação. Para efeito de comparação, aplicou-se à mesma tarefa a rede MLP (Multi Layer Perceptron). Os resultados mostraram que o desempenho da rede TDNN na aplicação à identificação de locutores é superior. Outro estudo foi realizado utilizando-se duas técnicas para o pré-processamento dos dados de entrada dos sistemas neurais: o banco de filtros (filter banks) e a transformada Wavelet. Os testes mostram grande potencial da transformada Wavelet em termos de rapidez de cálculo e boa compactação dos dados. Entretanto, verificou-se melhor desempenho das redes com pré-processamento de banco de filtros. |
publishDate |
1997 |
dc.date.none.fl_str_mv |
1997-12-02 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/ |
url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-06112024-143045/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256492571361280 |