Additive margin softmax e funções sinc para reconhecimento de locutor

Detalhes bibliográficos
Autor(a) principal: NUNES, João Antônio Chagas
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
dARK ID: ark:/64986/001300000qmhb
Texto Completo: https://repositorio.ufpe.br/handle/123456789/38295
Resumo: Reconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo.
id UFPE_64f759f16e9ca2327e94c72df7b68f79
oai_identifier_str oai:repositorio.ufpe.br:123456789/38295
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling NUNES, João Antônio Chagashttp://lattes.cnpq.br/5134397331258110http://lattes.cnpq.br/1244195230407619ZANCHETTIN, Cleber2020-10-07T22:19:51Z2020-10-07T22:19:51Z2020-03-02NUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.https://repositorio.ufpe.br/handle/123456789/38295ark:/64986/001300000qmhbReconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo.CNPqSpeaker Recognition is a challenging task with essential applications such as authentication, automation, and security. SincNet is a new deep learning based model which has produced promising results to tackle the mentioned task. To train deep learning systems, the activation function on the final layer is essential to the network performance. The Softmax activation function is a widely used function in deep learning methods, but it is not the best choice for all kind of problems. For distance-based problems, one new Softmax based activation function called Additive Margin Softmax (AM-Softmax) is proving to be a better choice than the traditional Softmax. The AM-Softmax introduces a margin of separation between the classes that forces the samples from the same class to be closer to each other and also maximizes the distance between classes. In this paper, we proposed several deep learning models to tackle the speaker recognition problem. In addition, it was made several experiments to analyse the influence of the AM-Softmax function and the Sinc layer on the speaker recognition problem. Among the proposed models, the AM-SincNet and the AM-MobileNet1D had promissing results. The proposed AMSincNet model is based on the SincNet but uses an improved AM-Softmax layer, it had shown a classification error about 55% smaller than the tradicional SincNet model on the datasets TIMIT and MIT. On the other hand, the AM-MobileNet1D is an adapted version of MobileNet V2 built to deal with audio signals, it had shown results up to 7 times faster than the SincNet, while keeping low error rates.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalReconhecimento de locutorAdditive margin softmax e funções sinc para reconhecimento de locutorinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPELICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/38295/3/license.txtbd573a5ca8288eb7272482765f819534MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/38295/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALDISSERTAÇÃO João Antônio Chagas Nunes.pdfDISSERTAÇÃO João Antônio Chagas Nunes.pdfapplication/pdf3598723https://repositorio.ufpe.br/bitstream/123456789/38295/1/DISSERTA%c3%87%c3%83O%20Jo%c3%a3o%20Ant%c3%b4nio%20Chagas%20Nunes.pdf17485eb6ead1e22c8a12b84cff33bb99MD51TEXTDISSERTAÇÃO João Antônio Chagas Nunes.pdf.txtDISSERTAÇÃO João Antônio Chagas Nunes.pdf.txtExtracted texttext/plain170877https://repositorio.ufpe.br/bitstream/123456789/38295/4/DISSERTA%c3%87%c3%83O%20Jo%c3%a3o%20Ant%c3%b4nio%20Chagas%20Nunes.pdf.txt3fbcfbff3aac3380548742c8fbfa693fMD54THUMBNAILDISSERTAÇÃO João Antônio Chagas Nunes.pdf.jpgDISSERTAÇÃO João Antônio Chagas Nunes.pdf.jpgGenerated Thumbnailimage/jpeg1267https://repositorio.ufpe.br/bitstream/123456789/38295/5/DISSERTA%c3%87%c3%83O%20Jo%c3%a3o%20Ant%c3%b4nio%20Chagas%20Nunes.pdf.jpg909967bf17c6aae6ce10aad49f6c5247MD55123456789/382952020-10-08 02:11:02.11oai:repositorio.ufpe.br:123456789/38295TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212020-10-08T05:11:02Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Additive margin softmax e funções sinc para reconhecimento de locutor
title Additive margin softmax e funções sinc para reconhecimento de locutor
spellingShingle Additive margin softmax e funções sinc para reconhecimento de locutor
NUNES, João Antônio Chagas
Inteligência computacional
Reconhecimento de locutor
title_short Additive margin softmax e funções sinc para reconhecimento de locutor
title_full Additive margin softmax e funções sinc para reconhecimento de locutor
title_fullStr Additive margin softmax e funções sinc para reconhecimento de locutor
title_full_unstemmed Additive margin softmax e funções sinc para reconhecimento de locutor
title_sort Additive margin softmax e funções sinc para reconhecimento de locutor
author NUNES, João Antônio Chagas
author_facet NUNES, João Antônio Chagas
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5134397331258110
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1244195230407619
dc.contributor.author.fl_str_mv NUNES, João Antônio Chagas
dc.contributor.advisor1.fl_str_mv ZANCHETTIN, Cleber
contributor_str_mv ZANCHETTIN, Cleber
dc.subject.por.fl_str_mv Inteligência computacional
Reconhecimento de locutor
topic Inteligência computacional
Reconhecimento de locutor
description Reconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-10-07T22:19:51Z
dc.date.available.fl_str_mv 2020-10-07T22:19:51Z
dc.date.issued.fl_str_mv 2020-03-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv NUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/38295
dc.identifier.dark.fl_str_mv ark:/64986/001300000qmhb
identifier_str_mv NUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020.
ark:/64986/001300000qmhb
url https://repositorio.ufpe.br/handle/123456789/38295
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/38295/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/38295/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/38295/1/DISSERTA%c3%87%c3%83O%20Jo%c3%a3o%20Ant%c3%b4nio%20Chagas%20Nunes.pdf
https://repositorio.ufpe.br/bitstream/123456789/38295/4/DISSERTA%c3%87%c3%83O%20Jo%c3%a3o%20Ant%c3%b4nio%20Chagas%20Nunes.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/38295/5/DISSERTA%c3%87%c3%83O%20Jo%c3%a3o%20Ant%c3%b4nio%20Chagas%20Nunes.pdf.jpg
bitstream.checksum.fl_str_mv bd573a5ca8288eb7272482765f819534
e39d27027a6cc9cb039ad269a5db8e34
17485eb6ead1e22c8a12b84cff33bb99
3fbcfbff3aac3380548742c8fbfa693f
909967bf17c6aae6ce10aad49f6c5247
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1815172887137484800