Indentificação de locutores baseada em aprendizagem não-supervisionada de características

Detalhes bibliográficos
Autor(a) principal: PORPINO, Thyago Neves
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/28365
Resumo: A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema..
id UFPE_e2a1a47eb97cf8bc249f1c11b62748a0
oai_identifier_str oai:repositorio.ufpe.br:123456789/28365
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling PORPINO, Thyago Neveshttp://lattes.cnpq.br/5083524910368466http://lattes.cnpq.br/3084134533707587REN, Tsang IngCAVALCANTI, George Darmiton da Cunha2019-01-02T14:02:26Z2019-01-02T14:02:26Z2015-08-26https://repositorio.ufpe.br/handle/123456789/28365A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema..Machine learning has been used in many areas of artificial intelligence, but its application would usually depend greatly on good hand-engineered feature extractors, since a poor representation limits the results obtained by a classifier. In recent years, research on unsupervised models, and more specifically, on those that have a deep architecture (i.e. deep learning), are creating a revolution in many areas. This revolution is, essentially, a paradigm shift from the classical machine learning, to a paradigm where feature extractors are also amenable to automatic learning. This dissertation has the objective of analyzing the performance of a hierarchical unsupervised model, called Convolutional Deep Belief Network (CDBN), on the problem of speaker identification in noisy datasets. The performance of this technique in extracting relevant features in a unsupervised way was evaluated on the TIMIT (no noise) and on the MIT (with noise) datasets. Experiments with transfer learning were done, where the unsupervised model is trained with the data from one dataset, and the feature extractor is evaluated with the data from the other dataset. The experiments show that the CDBN can learn features with good discriminatory power in simple datasets such as TIMIT, but the learning in a noisy dataset did not show good results, and more experiments are needed to investigate this problem.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialRedes neuraisIndentificação de locutores baseada em aprendizagem não-supervisionada de característicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO Thyago Neves Porpino.pdf.jpgDISSERTAÇÃO Thyago Neves Porpino.pdf.jpgGenerated Thumbnailimage/jpeg1429https://repositorio.ufpe.br/bitstream/123456789/28365/5/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.jpgf36a2af8650d79fcd44fcdacd6e21743MD55ORIGINALDISSERTAÇÃO Thyago Neves Porpino.pdfDISSERTAÇÃO Thyago Neves Porpino.pdfapplication/pdf3798767https://repositorio.ufpe.br/bitstream/123456789/28365/1/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf4a117ad834a8c6a31503b4bbdd94025eMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/28365/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/28365/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO Thyago Neves Porpino.pdf.txtDISSERTAÇÃO Thyago Neves Porpino.pdf.txtExtracted texttext/plain111556https://repositorio.ufpe.br/bitstream/123456789/28365/4/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.txt61655e14734f0a4f3c5c80b505365edfMD54123456789/283652019-10-25 23:22:16.198oai:repositorio.ufpe.br:123456789/28365TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-26T02:22:16Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title Indentificação de locutores baseada em aprendizagem não-supervisionada de características
spellingShingle Indentificação de locutores baseada em aprendizagem não-supervisionada de características
PORPINO, Thyago Neves
Inteligência artificial
Redes neurais
title_short Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_full Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_fullStr Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_full_unstemmed Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_sort Indentificação de locutores baseada em aprendizagem não-supervisionada de características
author PORPINO, Thyago Neves
author_facet PORPINO, Thyago Neves
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5083524910368466
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3084134533707587
dc.contributor.author.fl_str_mv PORPINO, Thyago Neves
dc.contributor.advisor1.fl_str_mv REN, Tsang Ing
dc.contributor.advisor-co1.fl_str_mv CAVALCANTI, George Darmiton da Cunha
contributor_str_mv REN, Tsang Ing
CAVALCANTI, George Darmiton da Cunha
dc.subject.por.fl_str_mv Inteligência artificial
Redes neurais
topic Inteligência artificial
Redes neurais
description A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema..
publishDate 2015
dc.date.issued.fl_str_mv 2015-08-26
dc.date.accessioned.fl_str_mv 2019-01-02T14:02:26Z
dc.date.available.fl_str_mv 2019-01-02T14:02:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/28365
url https://repositorio.ufpe.br/handle/123456789/28365
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/28365/5/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/28365/1/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf
https://repositorio.ufpe.br/bitstream/123456789/28365/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/28365/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/28365/4/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.txt
bitstream.checksum.fl_str_mv f36a2af8650d79fcd44fcdacd6e21743
4a117ad834a8c6a31503b4bbdd94025e
e39d27027a6cc9cb039ad269a5db8e34
4b8a02c7f2818eaf00dcf2260dd5eb08
61655e14734f0a4f3c5c80b505365edf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310790267535360