Indentificação de locutores baseada em aprendizagem não-supervisionada de características
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/28365 |
Resumo: | A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema.. |
id |
UFPE_e2a1a47eb97cf8bc249f1c11b62748a0 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/28365 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
PORPINO, Thyago Neveshttp://lattes.cnpq.br/5083524910368466http://lattes.cnpq.br/3084134533707587REN, Tsang IngCAVALCANTI, George Darmiton da Cunha2019-01-02T14:02:26Z2019-01-02T14:02:26Z2015-08-26https://repositorio.ufpe.br/handle/123456789/28365A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema..Machine learning has been used in many areas of artificial intelligence, but its application would usually depend greatly on good hand-engineered feature extractors, since a poor representation limits the results obtained by a classifier. In recent years, research on unsupervised models, and more specifically, on those that have a deep architecture (i.e. deep learning), are creating a revolution in many areas. This revolution is, essentially, a paradigm shift from the classical machine learning, to a paradigm where feature extractors are also amenable to automatic learning. This dissertation has the objective of analyzing the performance of a hierarchical unsupervised model, called Convolutional Deep Belief Network (CDBN), on the problem of speaker identification in noisy datasets. The performance of this technique in extracting relevant features in a unsupervised way was evaluated on the TIMIT (no noise) and on the MIT (with noise) datasets. Experiments with transfer learning were done, where the unsupervised model is trained with the data from one dataset, and the feature extractor is evaluated with the data from the other dataset. The experiments show that the CDBN can learn features with good discriminatory power in simple datasets such as TIMIT, but the learning in a noisy dataset did not show good results, and more experiments are needed to investigate this problem.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialRedes neuraisIndentificação de locutores baseada em aprendizagem não-supervisionada de característicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO Thyago Neves Porpino.pdf.jpgDISSERTAÇÃO Thyago Neves Porpino.pdf.jpgGenerated Thumbnailimage/jpeg1429https://repositorio.ufpe.br/bitstream/123456789/28365/5/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.jpgf36a2af8650d79fcd44fcdacd6e21743MD55ORIGINALDISSERTAÇÃO Thyago Neves Porpino.pdfDISSERTAÇÃO Thyago Neves Porpino.pdfapplication/pdf3798767https://repositorio.ufpe.br/bitstream/123456789/28365/1/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf4a117ad834a8c6a31503b4bbdd94025eMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/28365/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/28365/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO Thyago Neves Porpino.pdf.txtDISSERTAÇÃO Thyago Neves Porpino.pdf.txtExtracted texttext/plain111556https://repositorio.ufpe.br/bitstream/123456789/28365/4/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.txt61655e14734f0a4f3c5c80b505365edfMD54123456789/283652019-10-25 23:22:16.198oai:repositorio.ufpe.br:123456789/28365TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-26T02:22:16Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características |
title |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características |
spellingShingle |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características PORPINO, Thyago Neves Inteligência artificial Redes neurais |
title_short |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características |
title_full |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características |
title_fullStr |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características |
title_full_unstemmed |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características |
title_sort |
Indentificação de locutores baseada em aprendizagem não-supervisionada de características |
author |
PORPINO, Thyago Neves |
author_facet |
PORPINO, Thyago Neves |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/5083524910368466 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3084134533707587 |
dc.contributor.author.fl_str_mv |
PORPINO, Thyago Neves |
dc.contributor.advisor1.fl_str_mv |
REN, Tsang Ing |
dc.contributor.advisor-co1.fl_str_mv |
CAVALCANTI, George Darmiton da Cunha |
contributor_str_mv |
REN, Tsang Ing CAVALCANTI, George Darmiton da Cunha |
dc.subject.por.fl_str_mv |
Inteligência artificial Redes neurais |
topic |
Inteligência artificial Redes neurais |
description |
A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema.. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-08-26 |
dc.date.accessioned.fl_str_mv |
2019-01-02T14:02:26Z |
dc.date.available.fl_str_mv |
2019-01-02T14:02:26Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/28365 |
url |
https://repositorio.ufpe.br/handle/123456789/28365 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/28365/5/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/28365/1/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf https://repositorio.ufpe.br/bitstream/123456789/28365/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/28365/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/28365/4/DISSERTA%c3%87%c3%83O%20Thyago%20Neves%20Porpino.pdf.txt |
bitstream.checksum.fl_str_mv |
f36a2af8650d79fcd44fcdacd6e21743 4a117ad834a8c6a31503b4bbdd94025e e39d27027a6cc9cb039ad269a5db8e34 4b8a02c7f2818eaf00dcf2260dd5eb08 61655e14734f0a4f3c5c80b505365edf |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310790267535360 |