Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos

Detalhes bibliográficos
Autor(a) principal: De Julio, João Pedro Evaristo
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/15988
Resumo: O diagnóstico de doenças genéticas como câncer tem avançado com a evolução de técnicas de obtenção de dados genéticos, e a quantidade de genes mapeados tem aumentado significativamente e consequentemente a complexidade na análise destes dados devido ao pouco número de amostras. Por meio de técnicas como a Seleção (com as abordagens Filtro, Wrapper e Embedded), e a Extração de atributos é possível realizar a redução da dimensionalidade, que além de remover atributos irrelevantes ou redundantes, torna mais fácil a compreensão dos resultados. A Seleção de atributos tem como objetivo encontrar atributos relevantes para aumentar a capacidade preditiva dos classificadores enquanto a Extração de atributos realiza operações de transformação sem a perda das características dos dados. Este trabalho apresenta uma aplicação de técnicas de Extração de atributos sobre subconjuntos selecionados por meio da Seleção de atributos, realizando assim uma combinação das técnicas. A combinação proposta utiliza a busca sequencial para selecionar os atributos com dois algoritmos da abordagem Filtro e sete formas de redução da abordagem Wrapper. Em cada subconjunto foi-se aplicado a Análise de Componentes Principais (PCA) com os 90, 95 e 99% dos atributos. Para os experimentos, foram utilizadas 5 bases de dados genéticas com milhares de atributos por amostra. Ao realizar a análise da taxa de classificação com sete diferentes classificadores, pode-se notar um aumento significativo na taxa de classificação dos dados após a aplicação da combinação de técnicas, obtendo-se um aumento de até 12% no pior caso.
id UTFPR-12_15e81e27043c3fe551216d30be754c49
oai_identifier_str oai:repositorio.utfpr.edu.br:1/15988
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-19T18:24:55Z2020-11-19T18:24:55Z2019-11-19DE JULIO, João Pedro Evaristo. Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.http://repositorio.utfpr.edu.br/jspui/handle/1/15988O diagnóstico de doenças genéticas como câncer tem avançado com a evolução de técnicas de obtenção de dados genéticos, e a quantidade de genes mapeados tem aumentado significativamente e consequentemente a complexidade na análise destes dados devido ao pouco número de amostras. Por meio de técnicas como a Seleção (com as abordagens Filtro, Wrapper e Embedded), e a Extração de atributos é possível realizar a redução da dimensionalidade, que além de remover atributos irrelevantes ou redundantes, torna mais fácil a compreensão dos resultados. A Seleção de atributos tem como objetivo encontrar atributos relevantes para aumentar a capacidade preditiva dos classificadores enquanto a Extração de atributos realiza operações de transformação sem a perda das características dos dados. Este trabalho apresenta uma aplicação de técnicas de Extração de atributos sobre subconjuntos selecionados por meio da Seleção de atributos, realizando assim uma combinação das técnicas. A combinação proposta utiliza a busca sequencial para selecionar os atributos com dois algoritmos da abordagem Filtro e sete formas de redução da abordagem Wrapper. Em cada subconjunto foi-se aplicado a Análise de Componentes Principais (PCA) com os 90, 95 e 99% dos atributos. Para os experimentos, foram utilizadas 5 bases de dados genéticas com milhares de atributos por amostra. Ao realizar a análise da taxa de classificação com sete diferentes classificadores, pode-se notar um aumento significativo na taxa de classificação dos dados após a aplicação da combinação de técnicas, obtendo-se um aumento de até 12% no pior caso.The diagnosis of genetic diseases such as cancer has advanced with the evolution of techniques for obtaining genetic data, and the number of mapped genes has increased significantly and consequently the complexity in the analysis of these data due to the small number of samples. Techniques such as Selection (with the Filter, Wrapper, and Embedded approaches) and Attribute Extraction make it possible to reduce dimensionality, which in addition to removing irrelevant or redundant attributes, makes it easier to understand the results. Attribute Selection aims to find relevant attributes to increase the predictive capacity of classifiers while Attribute Extraction performs transformation operations without losing data’s properties. Thus, this paper presents an application of Attribute Extraction techniques on selected subsets through Attribute Selection. The proposed combination uses sequential search to select attributes with two algorithms of the Filter approach and seven ways to reduce the Wrapper approach. In each subset, PCA was applied with 90, 95 and 99% of the attributes. For the experiments, five genetic databases with thousands of attributes per sample were used. When analyzing the classification rate with seven different classifiers, can be noted a significant increase in the data classification rate after applying the combination of techniques, resulting in an increase of up to 12% in the worst case.porUniversidade Tecnológica Federal do ParanáPonta GrossaCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de InformáticaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAnálise de componentes principaisAnálise dimensionalAlgorítmos computacionaisPrincipal components analysisDimensional analysisComputer algorithmsRedução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributosDimensionality reduction: application of attribute selection and attribute extraction algorithmsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPonta GrossaBorges, Helyane BronoskiBorges, Helyane BronoskiMatos, Simone NasserRanthum, GeraldoDe Julio, João Pedro Evaristoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALPG_COCIC_2019_2_15.pdfapplication/pdf1591115http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/1/PG_COCIC_2019_2_15.pdf9dce5aea0f995ef20a5491d7c9c142d7MD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTPG_COCIC_2019_2_15.pdf.txtExtracted texttext/plain129640http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/3/PG_COCIC_2019_2_15.pdf.txt419bc72b32f4c604c74fc655a1ec2246MD53THUMBNAILPG_COCIC_2019_2_15.pdf.jpgGenerated Thumbnailimage/jpeg1303http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/4/PG_COCIC_2019_2_15.pdf.jpgd7514e2704e58d6a645e2955c47f6829MD541/159882020-11-19 16:24:56.147oai:repositorio.utfpr.edu.br:1/15988TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-19T18:24:56Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
dc.title.alternative.pt_BR.fl_str_mv Dimensionality reduction: application of attribute selection and attribute extraction algorithms
title Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
spellingShingle Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
De Julio, João Pedro Evaristo
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Análise de componentes principais
Análise dimensional
Algorítmos computacionais
Principal components analysis
Dimensional analysis
Computer algorithms
title_short Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
title_full Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
title_fullStr Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
title_full_unstemmed Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
title_sort Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
author De Julio, João Pedro Evaristo
author_facet De Julio, João Pedro Evaristo
author_role author
dc.contributor.advisor1.fl_str_mv Borges, Helyane Bronoski
dc.contributor.referee1.fl_str_mv Borges, Helyane Bronoski
dc.contributor.referee2.fl_str_mv Matos, Simone Nasser
dc.contributor.referee3.fl_str_mv Ranthum, Geraldo
dc.contributor.author.fl_str_mv De Julio, João Pedro Evaristo
contributor_str_mv Borges, Helyane Bronoski
Borges, Helyane Bronoski
Matos, Simone Nasser
Ranthum, Geraldo
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Análise de componentes principais
Análise dimensional
Algorítmos computacionais
Principal components analysis
Dimensional analysis
Computer algorithms
dc.subject.por.fl_str_mv Análise de componentes principais
Análise dimensional
Algorítmos computacionais
Principal components analysis
Dimensional analysis
Computer algorithms
description O diagnóstico de doenças genéticas como câncer tem avançado com a evolução de técnicas de obtenção de dados genéticos, e a quantidade de genes mapeados tem aumentado significativamente e consequentemente a complexidade na análise destes dados devido ao pouco número de amostras. Por meio de técnicas como a Seleção (com as abordagens Filtro, Wrapper e Embedded), e a Extração de atributos é possível realizar a redução da dimensionalidade, que além de remover atributos irrelevantes ou redundantes, torna mais fácil a compreensão dos resultados. A Seleção de atributos tem como objetivo encontrar atributos relevantes para aumentar a capacidade preditiva dos classificadores enquanto a Extração de atributos realiza operações de transformação sem a perda das características dos dados. Este trabalho apresenta uma aplicação de técnicas de Extração de atributos sobre subconjuntos selecionados por meio da Seleção de atributos, realizando assim uma combinação das técnicas. A combinação proposta utiliza a busca sequencial para selecionar os atributos com dois algoritmos da abordagem Filtro e sete formas de redução da abordagem Wrapper. Em cada subconjunto foi-se aplicado a Análise de Componentes Principais (PCA) com os 90, 95 e 99% dos atributos. Para os experimentos, foram utilizadas 5 bases de dados genéticas com milhares de atributos por amostra. Ao realizar a análise da taxa de classificação com sete diferentes classificadores, pode-se notar um aumento significativo na taxa de classificação dos dados após a aplicação da combinação de técnicas, obtendo-se um aumento de até 12% no pior caso.
publishDate 2019
dc.date.issued.fl_str_mv 2019-11-19
dc.date.accessioned.fl_str_mv 2020-11-19T18:24:55Z
dc.date.available.fl_str_mv 2020-11-19T18:24:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DE JULIO, João Pedro Evaristo. Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/15988
identifier_str_mv DE JULIO, João Pedro Evaristo. Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.
url http://repositorio.utfpr.edu.br/jspui/handle/1/15988
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.publisher.program.fl_str_mv Ciência da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento Acadêmico de Informática
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/1/PG_COCIC_2019_2_15.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/3/PG_COCIC_2019_2_15.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/4/PG_COCIC_2019_2_15.pdf.jpg
bitstream.checksum.fl_str_mv 9dce5aea0f995ef20a5491d7c9c142d7
b9d82215ab23456fa2d8b49c5df1b95b
419bc72b32f4c604c74fc655a1ec2246
d7514e2704e58d6a645e2955c47f6829
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923130303053824