Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/15988 |
Resumo: | O diagnóstico de doenças genéticas como câncer tem avançado com a evolução de técnicas de obtenção de dados genéticos, e a quantidade de genes mapeados tem aumentado significativamente e consequentemente a complexidade na análise destes dados devido ao pouco número de amostras. Por meio de técnicas como a Seleção (com as abordagens Filtro, Wrapper e Embedded), e a Extração de atributos é possível realizar a redução da dimensionalidade, que além de remover atributos irrelevantes ou redundantes, torna mais fácil a compreensão dos resultados. A Seleção de atributos tem como objetivo encontrar atributos relevantes para aumentar a capacidade preditiva dos classificadores enquanto a Extração de atributos realiza operações de transformação sem a perda das características dos dados. Este trabalho apresenta uma aplicação de técnicas de Extração de atributos sobre subconjuntos selecionados por meio da Seleção de atributos, realizando assim uma combinação das técnicas. A combinação proposta utiliza a busca sequencial para selecionar os atributos com dois algoritmos da abordagem Filtro e sete formas de redução da abordagem Wrapper. Em cada subconjunto foi-se aplicado a Análise de Componentes Principais (PCA) com os 90, 95 e 99% dos atributos. Para os experimentos, foram utilizadas 5 bases de dados genéticas com milhares de atributos por amostra. Ao realizar a análise da taxa de classificação com sete diferentes classificadores, pode-se notar um aumento significativo na taxa de classificação dos dados após a aplicação da combinação de técnicas, obtendo-se um aumento de até 12% no pior caso. |
id |
UTFPR-12_15e81e27043c3fe551216d30be754c49 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/15988 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2020-11-19T18:24:55Z2020-11-19T18:24:55Z2019-11-19DE JULIO, João Pedro Evaristo. Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.http://repositorio.utfpr.edu.br/jspui/handle/1/15988O diagnóstico de doenças genéticas como câncer tem avançado com a evolução de técnicas de obtenção de dados genéticos, e a quantidade de genes mapeados tem aumentado significativamente e consequentemente a complexidade na análise destes dados devido ao pouco número de amostras. Por meio de técnicas como a Seleção (com as abordagens Filtro, Wrapper e Embedded), e a Extração de atributos é possível realizar a redução da dimensionalidade, que além de remover atributos irrelevantes ou redundantes, torna mais fácil a compreensão dos resultados. A Seleção de atributos tem como objetivo encontrar atributos relevantes para aumentar a capacidade preditiva dos classificadores enquanto a Extração de atributos realiza operações de transformação sem a perda das características dos dados. Este trabalho apresenta uma aplicação de técnicas de Extração de atributos sobre subconjuntos selecionados por meio da Seleção de atributos, realizando assim uma combinação das técnicas. A combinação proposta utiliza a busca sequencial para selecionar os atributos com dois algoritmos da abordagem Filtro e sete formas de redução da abordagem Wrapper. Em cada subconjunto foi-se aplicado a Análise de Componentes Principais (PCA) com os 90, 95 e 99% dos atributos. Para os experimentos, foram utilizadas 5 bases de dados genéticas com milhares de atributos por amostra. Ao realizar a análise da taxa de classificação com sete diferentes classificadores, pode-se notar um aumento significativo na taxa de classificação dos dados após a aplicação da combinação de técnicas, obtendo-se um aumento de até 12% no pior caso.The diagnosis of genetic diseases such as cancer has advanced with the evolution of techniques for obtaining genetic data, and the number of mapped genes has increased significantly and consequently the complexity in the analysis of these data due to the small number of samples. Techniques such as Selection (with the Filter, Wrapper, and Embedded approaches) and Attribute Extraction make it possible to reduce dimensionality, which in addition to removing irrelevant or redundant attributes, makes it easier to understand the results. Attribute Selection aims to find relevant attributes to increase the predictive capacity of classifiers while Attribute Extraction performs transformation operations without losing data’s properties. Thus, this paper presents an application of Attribute Extraction techniques on selected subsets through Attribute Selection. The proposed combination uses sequential search to select attributes with two algorithms of the Filter approach and seven ways to reduce the Wrapper approach. In each subset, PCA was applied with 90, 95 and 99% of the attributes. For the experiments, five genetic databases with thousands of attributes per sample were used. When analyzing the classification rate with seven different classifiers, can be noted a significant increase in the data classification rate after applying the combination of techniques, resulting in an increase of up to 12% in the worst case.porUniversidade Tecnológica Federal do ParanáPonta GrossaCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de InformáticaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAnálise de componentes principaisAnálise dimensionalAlgorítmos computacionaisPrincipal components analysisDimensional analysisComputer algorithmsRedução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributosDimensionality reduction: application of attribute selection and attribute extraction algorithmsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPonta GrossaBorges, Helyane BronoskiBorges, Helyane BronoskiMatos, Simone NasserRanthum, GeraldoDe Julio, João Pedro Evaristoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALPG_COCIC_2019_2_15.pdfapplication/pdf1591115http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/1/PG_COCIC_2019_2_15.pdf9dce5aea0f995ef20a5491d7c9c142d7MD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTPG_COCIC_2019_2_15.pdf.txtExtracted texttext/plain129640http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/3/PG_COCIC_2019_2_15.pdf.txt419bc72b32f4c604c74fc655a1ec2246MD53THUMBNAILPG_COCIC_2019_2_15.pdf.jpgGenerated Thumbnailimage/jpeg1303http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/4/PG_COCIC_2019_2_15.pdf.jpgd7514e2704e58d6a645e2955c47f6829MD541/159882020-11-19 16:24:56.147oai:repositorio.utfpr.edu.br:1/15988TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-19T18:24:56Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos |
dc.title.alternative.pt_BR.fl_str_mv |
Dimensionality reduction: application of attribute selection and attribute extraction algorithms |
title |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos |
spellingShingle |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos De Julio, João Pedro Evaristo CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Análise de componentes principais Análise dimensional Algorítmos computacionais Principal components analysis Dimensional analysis Computer algorithms |
title_short |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos |
title_full |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos |
title_fullStr |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos |
title_full_unstemmed |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos |
title_sort |
Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos |
author |
De Julio, João Pedro Evaristo |
author_facet |
De Julio, João Pedro Evaristo |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Borges, Helyane Bronoski |
dc.contributor.referee1.fl_str_mv |
Borges, Helyane Bronoski |
dc.contributor.referee2.fl_str_mv |
Matos, Simone Nasser |
dc.contributor.referee3.fl_str_mv |
Ranthum, Geraldo |
dc.contributor.author.fl_str_mv |
De Julio, João Pedro Evaristo |
contributor_str_mv |
Borges, Helyane Bronoski Borges, Helyane Bronoski Matos, Simone Nasser Ranthum, Geraldo |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Análise de componentes principais Análise dimensional Algorítmos computacionais Principal components analysis Dimensional analysis Computer algorithms |
dc.subject.por.fl_str_mv |
Análise de componentes principais Análise dimensional Algorítmos computacionais Principal components analysis Dimensional analysis Computer algorithms |
description |
O diagnóstico de doenças genéticas como câncer tem avançado com a evolução de técnicas de obtenção de dados genéticos, e a quantidade de genes mapeados tem aumentado significativamente e consequentemente a complexidade na análise destes dados devido ao pouco número de amostras. Por meio de técnicas como a Seleção (com as abordagens Filtro, Wrapper e Embedded), e a Extração de atributos é possível realizar a redução da dimensionalidade, que além de remover atributos irrelevantes ou redundantes, torna mais fácil a compreensão dos resultados. A Seleção de atributos tem como objetivo encontrar atributos relevantes para aumentar a capacidade preditiva dos classificadores enquanto a Extração de atributos realiza operações de transformação sem a perda das características dos dados. Este trabalho apresenta uma aplicação de técnicas de Extração de atributos sobre subconjuntos selecionados por meio da Seleção de atributos, realizando assim uma combinação das técnicas. A combinação proposta utiliza a busca sequencial para selecionar os atributos com dois algoritmos da abordagem Filtro e sete formas de redução da abordagem Wrapper. Em cada subconjunto foi-se aplicado a Análise de Componentes Principais (PCA) com os 90, 95 e 99% dos atributos. Para os experimentos, foram utilizadas 5 bases de dados genéticas com milhares de atributos por amostra. Ao realizar a análise da taxa de classificação com sete diferentes classificadores, pode-se notar um aumento significativo na taxa de classificação dos dados após a aplicação da combinação de técnicas, obtendo-se um aumento de até 12% no pior caso. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-11-19 |
dc.date.accessioned.fl_str_mv |
2020-11-19T18:24:55Z |
dc.date.available.fl_str_mv |
2020-11-19T18:24:55Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
DE JULIO, João Pedro Evaristo. Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/15988 |
identifier_str_mv |
DE JULIO, João Pedro Evaristo. Redução de dimensionalidade: aplicação de algoritmos de seleção e extração de atributos. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/15988 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa |
dc.publisher.program.fl_str_mv |
Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Departamento Acadêmico de Informática |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/1/PG_COCIC_2019_2_15.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/3/PG_COCIC_2019_2_15.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/15988/4/PG_COCIC_2019_2_15.pdf.jpg |
bitstream.checksum.fl_str_mv |
9dce5aea0f995ef20a5491d7c9c142d7 b9d82215ab23456fa2d8b49c5df1b95b 419bc72b32f4c604c74fc655a1ec2246 d7514e2704e58d6a645e2955c47f6829 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805923130303053824 |