Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders

Detalhes bibliográficos
Autor(a) principal: Siqueira, Rafael Fernandes
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/4472
Resumo: A predição de proteínas em dados de bioinformática é um exemplo de problema de Classificação Hierárquica Multirrótulo no qual cada instância pode estar associada a múltiplas classes, e estas por sua vez, estão organizadas em uma hierarquia. A alta dimensionalidade dos atributos e das classes influencia no desempenho dos classificadores, tanto no custo computacional quanto na capacidade preditiva, pois prejudica a busca por padrões e descoberta de conhecimento útil. A extração de atributos é uma das técnicas utilizadas para alcançar a redução de dimensionalidade em base de dados, e assim eliminar atributos irrelevantes e/ou redundantes que tendem a confundir um algoritmo de aprendizagem. Nessa técnica, por meio de combinações e/ou transformações dos atributos originais, geram-se novos atributos, mais significativos e que melhor representam a base de dados, em um espaço de menor dimensão. Desse modo, neste trabalho propõe-se um novo método de extração de atributos, FEAE-HMC, para classificação hierárquica multirrótulo, baseado em conceitos e técnicas de Deep Learning, por meio de adaptações em uma rede Autoencoder clássica. O método FEAE-HMC é dividido em duas etapas principais: a extração de atributos e a avaliação do conjunto de dados reduzido por meio de um classificador hierárquico multirrótulo (Clus-HMC e MHC-CNN) e sua medida de desempenho (AUPRC). Para a realização dos experimentos são utilizados dados biológicos de 10 bases de dados da Ontologia Gênica, sendo que as classes das mesmas estão estruturadas em uma hierarquia no formato de um Grafo Acíclico Dirigido (DAG). Conforme os resultados experimentais, o método FEAE-HMC se mostrou capaz de extrair representações de menor dimensão, que podem agregar correlações entre os atributos e rótulos. Essas representações, quando submetidas a um Classificador Hierárquico Multirrótulo, geram modelos nos quais se obtêm o desempenho preditivo equivalente e até mesmo superior ao desempenho da base original. A diferença obtida entre a medida AUPRC da base completa e uma base reduzida, com uma redução de até 90% da dimensionalidade original, é inferior a 0,047 em ambos classificadores. Testes estatísticos demonstram que as bases reduzidas extraídas pelo FEAE-HMC, são no mínimo estatisticamente equivalentes as bases originais.
id UTFPR-12_b86e03a4eaf06312f3f52b8b41f7457f
oai_identifier_str oai:repositorio.utfpr.edu.br:1/4472
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2019-09-30T11:35:27Z2019-09-30T11:35:27Z2019-07-02SIQUEIRA, Rafael Fernandes. Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders. 2019. 118 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.http://repositorio.utfpr.edu.br/jspui/handle/1/4472A predição de proteínas em dados de bioinformática é um exemplo de problema de Classificação Hierárquica Multirrótulo no qual cada instância pode estar associada a múltiplas classes, e estas por sua vez, estão organizadas em uma hierarquia. A alta dimensionalidade dos atributos e das classes influencia no desempenho dos classificadores, tanto no custo computacional quanto na capacidade preditiva, pois prejudica a busca por padrões e descoberta de conhecimento útil. A extração de atributos é uma das técnicas utilizadas para alcançar a redução de dimensionalidade em base de dados, e assim eliminar atributos irrelevantes e/ou redundantes que tendem a confundir um algoritmo de aprendizagem. Nessa técnica, por meio de combinações e/ou transformações dos atributos originais, geram-se novos atributos, mais significativos e que melhor representam a base de dados, em um espaço de menor dimensão. Desse modo, neste trabalho propõe-se um novo método de extração de atributos, FEAE-HMC, para classificação hierárquica multirrótulo, baseado em conceitos e técnicas de Deep Learning, por meio de adaptações em uma rede Autoencoder clássica. O método FEAE-HMC é dividido em duas etapas principais: a extração de atributos e a avaliação do conjunto de dados reduzido por meio de um classificador hierárquico multirrótulo (Clus-HMC e MHC-CNN) e sua medida de desempenho (AUPRC). Para a realização dos experimentos são utilizados dados biológicos de 10 bases de dados da Ontologia Gênica, sendo que as classes das mesmas estão estruturadas em uma hierarquia no formato de um Grafo Acíclico Dirigido (DAG). Conforme os resultados experimentais, o método FEAE-HMC se mostrou capaz de extrair representações de menor dimensão, que podem agregar correlações entre os atributos e rótulos. Essas representações, quando submetidas a um Classificador Hierárquico Multirrótulo, geram modelos nos quais se obtêm o desempenho preditivo equivalente e até mesmo superior ao desempenho da base original. A diferença obtida entre a medida AUPRC da base completa e uma base reduzida, com uma redução de até 90% da dimensionalidade original, é inferior a 0,047 em ambos classificadores. Testes estatísticos demonstram que as bases reduzidas extraídas pelo FEAE-HMC, são no mínimo estatisticamente equivalentes as bases originais.Protein prediction in bioinformatics data is an example of a Hierarchical Multilabel Classification problem in which each instance can be associated with multiple classes, which in turn are organized in a hierarchy. The high dimensionality of attributes and classes influences the performance of the classifiers, both in computational cost and in predictive capacity, as it impairs the search for patterns and the discovery of useful knowledge. Feature Extraction is one of the techniques used to achieve dimensionality reduction in databases, and thus eliminate irrelevant and/or redundant attributes that tend to confuse a learning algorithm. In this technique, by means of combinations and/or transformations of the original attributes, new attributes, which are more significant and represent the database, are generated in a smaller space. Thus, this work proposes a new method of feature extraction, FEAE-HMC, for the hierarchical multi-label classification, based on concepts and techniques of Deep Learning, through adaptations in a classic Autoencoder network. The FEAE-HMC method is divided into two main steps: the feature extraction and the evaluation of the reduced data set using a hierarchical multi-label classifier (Clus-HMC and MHC-CNN) and its performance measure (AUPRC). To perform the experiments, biological data from 10 Genetic Ontology databases are used, and their classes are structured in a hierarchy in the form of a Directed Acyclic Graph (DAG). According to the experimental results, the FEAE-HMC method was able to extract representations of smaller dimension that can add correlations between the attributes and labels. These representations, when submitted to a Hierarchical Multi-label Classifier, generate models with predictive performance equivalent or even superior to the performance of the original base. The difference between the full-base AUPRC measurement and a reduced base with a reduction of up to 90% of the original dimensionality is less than 0.047 in both classifiers. Statistical tests show that the reduced bases extracted by the FEAE-HMC are at least statistically equivalent to the original bases.porUniversidade Tecnológica Federal do ParanáPonta GrossaPrograma de Pós-Graduação em Ciência da ComputaçãoBrasilBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOCiência da ComputaçãoBioinformáticaAnálise dimensionalControle preditivoBanco de dadosBioinformaticsDimensional analysisPredictive controlData basesRedução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencodersDimensionality reduction in hierarchical multi-label databases using autoencodersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPonta GrossaPonta GrossaBorges, Helyane Bronoskihttp://lattes.cnpq.br/8340106221427112Nievola, Julio Cesarhttps://orcid.org/0000-0002-2212-4499http://lattes.cnpq.br/9242867616608986Matos, Simone Nasserhttps://orcid.org/0000-0002-5362-2343http://lattes.cnpq.br/2608583610949216Borges, Helyane Bronoskihttp://lattes.cnpq.br/8340106221427112https://orcid.org/0000-0002-6095-9331http://lattes.cnpq.br/6630128370380670Siqueira, Rafael Fernandesinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALreducaodimensionalidadebasesdados.pdfreducaodimensionalidadebasesdados.pdfapplication/pdf2666370http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/1/reducaodimensionalidadebasesdados.pdfde73e9c88aef0b0469c970458f469328MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTreducaodimensionalidadebasesdados.pdf.txtreducaodimensionalidadebasesdados.pdf.txtExtracted texttext/plain252136http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/3/reducaodimensionalidadebasesdados.pdf.txt31a514ec6c4152e24ac237b1bceaf6aeMD53THUMBNAILreducaodimensionalidadebasesdados.pdf.jpgreducaodimensionalidadebasesdados.pdf.jpgGenerated Thumbnailimage/jpeg1403http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/4/reducaodimensionalidadebasesdados.pdf.jpgd57381a871fcc68eec77fef0e25102e0MD541/44722019-10-01 03:00:45.976oai:repositorio.utfpr.edu.br:1/4472TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2019-10-01T06:00:45Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
dc.title.alternative.pt_BR.fl_str_mv Dimensionality reduction in hierarchical multi-label databases using autoencoders
title Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
spellingShingle Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
Siqueira, Rafael Fernandes
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Bioinformática
Análise dimensional
Controle preditivo
Banco de dados
Bioinformatics
Dimensional analysis
Predictive control
Data bases
Ciência da Computação
title_short Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
title_full Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
title_fullStr Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
title_full_unstemmed Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
title_sort Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders
author Siqueira, Rafael Fernandes
author_facet Siqueira, Rafael Fernandes
author_role author
dc.contributor.advisor1.fl_str_mv Borges, Helyane Bronoski
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8340106221427112
dc.contributor.referee1.fl_str_mv Nievola, Julio Cesar
dc.contributor.referee1ID.fl_str_mv https://orcid.org/0000-0002-2212-4499
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/9242867616608986
dc.contributor.referee2.fl_str_mv Matos, Simone Nasser
dc.contributor.referee2ID.fl_str_mv https://orcid.org/0000-0002-5362-2343
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/2608583610949216
dc.contributor.referee3.fl_str_mv Borges, Helyane Bronoski
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/8340106221427112
dc.contributor.authorID.fl_str_mv https://orcid.org/0000-0002-6095-9331
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6630128370380670
dc.contributor.author.fl_str_mv Siqueira, Rafael Fernandes
contributor_str_mv Borges, Helyane Bronoski
Nievola, Julio Cesar
Matos, Simone Nasser
Borges, Helyane Bronoski
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Bioinformática
Análise dimensional
Controle preditivo
Banco de dados
Bioinformatics
Dimensional analysis
Predictive control
Data bases
Ciência da Computação
dc.subject.por.fl_str_mv Bioinformática
Análise dimensional
Controle preditivo
Banco de dados
Bioinformatics
Dimensional analysis
Predictive control
Data bases
dc.subject.capes.pt_BR.fl_str_mv Ciência da Computação
description A predição de proteínas em dados de bioinformática é um exemplo de problema de Classificação Hierárquica Multirrótulo no qual cada instância pode estar associada a múltiplas classes, e estas por sua vez, estão organizadas em uma hierarquia. A alta dimensionalidade dos atributos e das classes influencia no desempenho dos classificadores, tanto no custo computacional quanto na capacidade preditiva, pois prejudica a busca por padrões e descoberta de conhecimento útil. A extração de atributos é uma das técnicas utilizadas para alcançar a redução de dimensionalidade em base de dados, e assim eliminar atributos irrelevantes e/ou redundantes que tendem a confundir um algoritmo de aprendizagem. Nessa técnica, por meio de combinações e/ou transformações dos atributos originais, geram-se novos atributos, mais significativos e que melhor representam a base de dados, em um espaço de menor dimensão. Desse modo, neste trabalho propõe-se um novo método de extração de atributos, FEAE-HMC, para classificação hierárquica multirrótulo, baseado em conceitos e técnicas de Deep Learning, por meio de adaptações em uma rede Autoencoder clássica. O método FEAE-HMC é dividido em duas etapas principais: a extração de atributos e a avaliação do conjunto de dados reduzido por meio de um classificador hierárquico multirrótulo (Clus-HMC e MHC-CNN) e sua medida de desempenho (AUPRC). Para a realização dos experimentos são utilizados dados biológicos de 10 bases de dados da Ontologia Gênica, sendo que as classes das mesmas estão estruturadas em uma hierarquia no formato de um Grafo Acíclico Dirigido (DAG). Conforme os resultados experimentais, o método FEAE-HMC se mostrou capaz de extrair representações de menor dimensão, que podem agregar correlações entre os atributos e rótulos. Essas representações, quando submetidas a um Classificador Hierárquico Multirrótulo, geram modelos nos quais se obtêm o desempenho preditivo equivalente e até mesmo superior ao desempenho da base original. A diferença obtida entre a medida AUPRC da base completa e uma base reduzida, com uma redução de até 90% da dimensionalidade original, é inferior a 0,047 em ambos classificadores. Testes estatísticos demonstram que as bases reduzidas extraídas pelo FEAE-HMC, são no mínimo estatisticamente equivalentes as bases originais.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-09-30T11:35:27Z
dc.date.available.fl_str_mv 2019-09-30T11:35:27Z
dc.date.issued.fl_str_mv 2019-07-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SIQUEIRA, Rafael Fernandes. Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders. 2019. 118 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/4472
identifier_str_mv SIQUEIRA, Rafael Fernandes. Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders. 2019. 118 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.
url http://repositorio.utfpr.edu.br/jspui/handle/1/4472
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv Brasil
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/1/reducaodimensionalidadebasesdados.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/3/reducaodimensionalidadebasesdados.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/4472/4/reducaodimensionalidadebasesdados.pdf.jpg
bitstream.checksum.fl_str_mv de73e9c88aef0b0469c970458f469328
b9d82215ab23456fa2d8b49c5df1b95b
31a514ec6c4152e24ac237b1bceaf6ae
d57381a871fcc68eec77fef0e25102e0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1797044024683528192