Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo

Detalhes bibliográficos
Autor(a) principal: Souza, Jovani Taveira de
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/2387
Resumo: A neoplasia é um grande desafio para os pesquisadores devido a sua alta complexidade. Apesar dos avanços em diagnósticos, os estudos apontam que, além da análise de dados, são necessários métodos que otimizem e auxiliem o processo de tomada de decisão. Neste sentido, a redução de dimensionalidade de dados tem contribuído significativamente, auxiliando nesse processo, devido à quantidade de genes (atributos), ser muito ampla comparada ao número de amostras (classes). Este trabalho, portanto, visa fornecer um estudo comparativo entre dois métodos de redução de dimensionalidade, aplicados em três bases de dados no domínio de expressão gênica: LungCancer-Michigan, LungCancer-Ontario e LungCancerHarvard, todas relacionadas ao câncer de pulmão. Os métodos aplicados foram: Seleção de Atributos e Análise de Componentes Principais (PCA), ambos usados como uma etapa de pré-processamento na Mineração de Dados. Os algoritmos de classificação escolhidos foram: Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN e 7-NN. Foi utilizado o Weka como software para procedimentos de análise. Uma série de experimentos foi realizada para avaliar a acurácia e aplicabilidade dos algoritmos para ambos os métodos. Como resultado, foram evidenciados avanços significativos nas taxas de acerto (acurácia) dos classificadores envolvendo os métodos empregados, utilizando como critério de avaliação a Validação Cruzada. A abordagem Wrapper, do método de Seleção de Atributos, obteve os melhores resultados para as três bases de dados analisadas. O método de Análise de Componentes Principais, mesmo apresentando taxa de acerto inferior, não pode ser descartado. Os algoritmos Naive Bayes, SVM e 1-NN foram os que apresentaram melhor desempenho dentre as bases. Foram denotados os atributos (genes) que apresentaram maior frequência nas bases de dados. Portanto, a partir dos subconjuntos escolhidos, estes podem ser submetidos a análises específicas, no intuito de direcionar diagnósticos mais precisos.
id UTFPR-12_804c38f98b74a690bde093928982026a
oai_identifier_str oai:repositorio.utfpr.edu.br:1/2387
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2017-08-31T15:23:07Z2017-08-31T15:23:07Z2017-04-28SOUZA, Jovani Taveira de. Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo. 2017. 73 f. Dissertação (Mestrado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.http://repositorio.utfpr.edu.br/jspui/handle/1/2387A neoplasia é um grande desafio para os pesquisadores devido a sua alta complexidade. Apesar dos avanços em diagnósticos, os estudos apontam que, além da análise de dados, são necessários métodos que otimizem e auxiliem o processo de tomada de decisão. Neste sentido, a redução de dimensionalidade de dados tem contribuído significativamente, auxiliando nesse processo, devido à quantidade de genes (atributos), ser muito ampla comparada ao número de amostras (classes). Este trabalho, portanto, visa fornecer um estudo comparativo entre dois métodos de redução de dimensionalidade, aplicados em três bases de dados no domínio de expressão gênica: LungCancer-Michigan, LungCancer-Ontario e LungCancerHarvard, todas relacionadas ao câncer de pulmão. Os métodos aplicados foram: Seleção de Atributos e Análise de Componentes Principais (PCA), ambos usados como uma etapa de pré-processamento na Mineração de Dados. Os algoritmos de classificação escolhidos foram: Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN e 7-NN. Foi utilizado o Weka como software para procedimentos de análise. Uma série de experimentos foi realizada para avaliar a acurácia e aplicabilidade dos algoritmos para ambos os métodos. Como resultado, foram evidenciados avanços significativos nas taxas de acerto (acurácia) dos classificadores envolvendo os métodos empregados, utilizando como critério de avaliação a Validação Cruzada. A abordagem Wrapper, do método de Seleção de Atributos, obteve os melhores resultados para as três bases de dados analisadas. O método de Análise de Componentes Principais, mesmo apresentando taxa de acerto inferior, não pode ser descartado. Os algoritmos Naive Bayes, SVM e 1-NN foram os que apresentaram melhor desempenho dentre as bases. Foram denotados os atributos (genes) que apresentaram maior frequência nas bases de dados. Portanto, a partir dos subconjuntos escolhidos, estes podem ser submetidos a análises específicas, no intuito de direcionar diagnósticos mais precisos.Neoplasm is a major challenge for researchers because of its high complexity. Despite advances in diagnosis, studies point out that in addition to data analysis, methods to optimize and aid the decision-making process are necessary. In this sense, the dimensionality reduction of data has contributed significantly, helping in this process, due to the large number of genes (attributes) compared to the number of samples (classes). This work, therefore, aims to provide a comparative study between two methods of dimensionality reduction, applied to three databases in the field of gene expression: LungCancer-Michigan, LungCancer-Ontario and LungCancer-Harvard, all related to lung cancer. The methods applied were: Attribute Selection and Principal Component Analysis (PCA), both used as a pre-processing step in Data Mining. The classification algorithms chosen were Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN and 7-NN. Weka was used as a software for analyses procedures. A series of experiments was performed to evaluate the accuracy and applicability of the algorithms for both methods. As a result, significant advances in the hit rate (accuracy) of the classifiers involving the methods were evidenced, using Cross-Validation as the assessment criterion. The Wrapper approach, from the Attribute Selection method, obtained the best results for the three analyzed databases. The Principal Component Analysis method, even presenting lower hit rate, could not be ruled out. The Naive Bayes, SVM and 1-NN algorithms presented the best performance within the databases. The attributes (genes) which presented the highest frequency in the databases were denoted. Therefore, from the chosen subsets, these can be submitted to specific analyzes in order to direct more precise diagnoses.CapesporUniversidade Tecnológica Federal do ParanáPonta GrossaPrograma de Pós-Graduação em Engenharia de ProduçãoUTFPRBrasilCNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAOEngenharia de ProduçãoCâncer - DiagnósticoExpressão gênicaEngenharia de produçãoCancer - DiagnosisGene expressionProduction engineeringMétodos de seleção de atributos e análise de componentes principais: um estudo comparativoMethods of attribute selection and principal component analysis: a comparative studyinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPonta GrossaFrancisco, Antonio Carlos dehttp://lattes.cnpq.br/6457056051910603Canteri, Maria Helene Giovanettihttp://lattes.cnpq.br/5210674056704542Baldan, Roquemar de LimaFrancisco, Antonio Carlos dePiekarski, Cassiano Morohttp://lattes.cnpq.br/8929110034758487Souza, Jovani Taveira deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRTEXTPG_PPGEP_M_Souza, Jovani Taveira de_2017.pdf.txtPG_PPGEP_M_Souza, Jovani Taveira de_2017.pdf.txtExtracted texttext/plain131036http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/3/PG_PPGEP_M_Souza%2c%20Jovani%20Taveira%20de_2017.pdf.txt47db675f4a4c734fb3fae6aa98530716MD53THUMBNAILPG_PPGEP_M_Souza, Jovani Taveira de_2017.pdf.jpgPG_PPGEP_M_Souza, Jovani Taveira de_2017.pdf.jpgGenerated Thumbnailimage/jpeg1384http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/4/PG_PPGEP_M_Souza%2c%20Jovani%20Taveira%20de_2017.pdf.jpg024fda615e869fad21b63558c470d182MD54ORIGINALPG_PPGEP_M_Souza, Jovani Taveira de_2017.pdfPG_PPGEP_M_Souza, Jovani Taveira de_2017.pdfapplication/pdf1702707http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/1/PG_PPGEP_M_Souza%2c%20Jovani%20Taveira%20de_2017.pdf7777ac838b29041211bac9f327c76641MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD521/23872017-08-31 12:23:07.745oai:repositorio.utfpr.edu.br:1/2387Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2017-08-31T15:23:07Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
dc.title.alternative.pt_BR.fl_str_mv Methods of attribute selection and principal component analysis: a comparative study
title Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
spellingShingle Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
Souza, Jovani Taveira de
CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO
Câncer - Diagnóstico
Expressão gênica
Engenharia de produção
Cancer - Diagnosis
Gene expression
Production engineering
Engenharia de Produção
title_short Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
title_full Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
title_fullStr Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
title_full_unstemmed Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
title_sort Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo
author Souza, Jovani Taveira de
author_facet Souza, Jovani Taveira de
author_role author
dc.contributor.advisor1.fl_str_mv Francisco, Antonio Carlos de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6457056051910603
dc.contributor.advisor-co1.fl_str_mv Canteri, Maria Helene Giovanetti
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/5210674056704542
dc.contributor.referee1.fl_str_mv Baldan, Roquemar de Lima
dc.contributor.referee2.fl_str_mv Francisco, Antonio Carlos de
dc.contributor.referee3.fl_str_mv Piekarski, Cassiano Moro
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8929110034758487
dc.contributor.author.fl_str_mv Souza, Jovani Taveira de
contributor_str_mv Francisco, Antonio Carlos de
Canteri, Maria Helene Giovanetti
Baldan, Roquemar de Lima
Francisco, Antonio Carlos de
Piekarski, Cassiano Moro
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO
topic CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO
Câncer - Diagnóstico
Expressão gênica
Engenharia de produção
Cancer - Diagnosis
Gene expression
Production engineering
Engenharia de Produção
dc.subject.por.fl_str_mv Câncer - Diagnóstico
Expressão gênica
Engenharia de produção
Cancer - Diagnosis
Gene expression
Production engineering
dc.subject.capes.pt_BR.fl_str_mv Engenharia de Produção
description A neoplasia é um grande desafio para os pesquisadores devido a sua alta complexidade. Apesar dos avanços em diagnósticos, os estudos apontam que, além da análise de dados, são necessários métodos que otimizem e auxiliem o processo de tomada de decisão. Neste sentido, a redução de dimensionalidade de dados tem contribuído significativamente, auxiliando nesse processo, devido à quantidade de genes (atributos), ser muito ampla comparada ao número de amostras (classes). Este trabalho, portanto, visa fornecer um estudo comparativo entre dois métodos de redução de dimensionalidade, aplicados em três bases de dados no domínio de expressão gênica: LungCancer-Michigan, LungCancer-Ontario e LungCancerHarvard, todas relacionadas ao câncer de pulmão. Os métodos aplicados foram: Seleção de Atributos e Análise de Componentes Principais (PCA), ambos usados como uma etapa de pré-processamento na Mineração de Dados. Os algoritmos de classificação escolhidos foram: Naive Bayes, SVM, J48, 1-NN, 3-NN, 5-NN e 7-NN. Foi utilizado o Weka como software para procedimentos de análise. Uma série de experimentos foi realizada para avaliar a acurácia e aplicabilidade dos algoritmos para ambos os métodos. Como resultado, foram evidenciados avanços significativos nas taxas de acerto (acurácia) dos classificadores envolvendo os métodos empregados, utilizando como critério de avaliação a Validação Cruzada. A abordagem Wrapper, do método de Seleção de Atributos, obteve os melhores resultados para as três bases de dados analisadas. O método de Análise de Componentes Principais, mesmo apresentando taxa de acerto inferior, não pode ser descartado. Os algoritmos Naive Bayes, SVM e 1-NN foram os que apresentaram melhor desempenho dentre as bases. Foram denotados os atributos (genes) que apresentaram maior frequência nas bases de dados. Portanto, a partir dos subconjuntos escolhidos, estes podem ser submetidos a análises específicas, no intuito de direcionar diagnósticos mais precisos.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-08-31T15:23:07Z
dc.date.available.fl_str_mv 2017-08-31T15:23:07Z
dc.date.issued.fl_str_mv 2017-04-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOUZA, Jovani Taveira de. Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo. 2017. 73 f. Dissertação (Mestrado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/2387
identifier_str_mv SOUZA, Jovani Taveira de. Métodos de seleção de atributos e análise de componentes principais: um estudo comparativo. 2017. 73 f. Dissertação (Mestrado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2017.
url http://repositorio.utfpr.edu.br/jspui/handle/1/2387
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia de Produção
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/3/PG_PPGEP_M_Souza%2c%20Jovani%20Taveira%20de_2017.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/4/PG_PPGEP_M_Souza%2c%20Jovani%20Taveira%20de_2017.pdf.jpg
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/1/PG_PPGEP_M_Souza%2c%20Jovani%20Taveira%20de_2017.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/2387/2/license.txt
bitstream.checksum.fl_str_mv 47db675f4a4c734fb3fae6aa98530716
024fda615e869fad21b63558c470d182
7777ac838b29041211bac9f327c76641
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923205406261248