Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place

Detalhes bibliográficos
Autor(a) principal: Ribeiro, Guilherme Alberto Sousa
Data de Publicação: 2024
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFG
dARK ID: ark:/38995/001300000cxnq
Texto Completo: http://repositorio.bc.ufg.br/tede/handle/tede/13216
Resumo: The high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the La Place smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the crossvalidation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer.
id UFG-2_8f5b7cccdaee898da56301e8bd7ec22e
oai_identifier_str oai:repositorio.bc.ufg.br:tede/13216
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Barbosa, Rommel Melgaçohttp://lattes.cnpq.br/6228227125338610Costa, Nattane Luíza dahttp://lattes.cnpq.br/9968129748669015Barbosa, Rommel MelgaçoLima, Marcio Dias deOliveira, Alexandre César Muniz deGonçalves, ChristianeRodrigues, Diego de Castrohttp://lattes.cnpq.br/2551023125685122Ribeiro, Guilherme Alberto Sousa2024-01-09T13:12:39Z2024-01-09T13:12:39Z2024-09-28RIBEIRO, G. A. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023.http://repositorio.bc.ufg.br/tede/handle/tede/13216ark:/38995/001300000cxnqThe high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the La Place smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the crossvalidation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer.A alta dimensionalidade em que muitos dados são dispostos trouxe a necessidade de algoritmos de redução de dimensionalidade, os quais potencializam a performance, reduzem o esforço computacional e simplificam o processamento de dados em aplicações voltadas para as áreas de aprendizagem de máquina ou reconhecimento de padrões. Devido a necessidade e importância de ter uma base de dados reduzida, este trabalho propõe estudo sobre métodos de seleção de características, com ênfase aos métodos que utilizam AUC (Area Under the ROC curve). Foram avaliadas as tendências no uso de métodos de seleção de características em geral e para os métodos que usam AUC como estimador, aplicados a dados microarray. Em seguida, foi desenvolvido novo algoritmo de seleção de características denominado método de seleção de características baseado em AUC com estimativa de probabilidade e método de suavização de La PLace (AUC-EPS). O método proposto calcula o AUC levando em consideração todos os possíveis valores de cada característica, associado a estimativa de probabilidade e ao método de suavização de La Place (smoothing). Os experimentos foram realizados de forma a comparar a técnica proposta com os algoritmos FAST (Feature Assessment by Sliding Thresholds) e ARCO (AUC and Rank Correlation coefficient Optimization) a partir do uso de oito conjuntos de dados de relacionadas a expressão genética em microarrays, sendo a totalidade de conjuntos utilizada para o experimento de validação cruzada e quatro utilizadas no experimento de bootstrap. Os resultados demonstraram que o método proposto colaborou para a melhoria de performance de alguns classificadores e, na maioria casos, atingiu tal objetivo usando um conjunto de características completamente diferente das demais técnicas, sendo algumas dessas características identificadas pelo AUC-EPS determinantes para identificar doenças. O trabalho concluiu que o método proposto, denominado AUC-EPS, seleciona características diferentes dos algoritmos FAST e ARCO, colaborando para a melhoria de desempenho de alguns classificadores e identificando características determinantes para discriminar câncer.Submitted by Dayane Basílio (dayanebasilio@ufg.br) on 2024-01-09T13:02:14Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)Step: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2024-01-09T13:12:38Z (GMT)Made available in DSpace on 2024-01-09T13:12:39Z (GMT). No. of bitstreams: 2 Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2024-09-28porUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RMG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessSeleção de característicasÁrea abaixo da curva ROCAprendizado supervisionadoClassificaçãoFeature selectionArea under the ROC curveSupervised learningClassificationCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAbordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La PlaceAUC-based feature selection approach with probability estimation combined with La Place smoothing techniqueinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGORIGINALTese - Guilherme Alberto Sousa Ribeiro - 2023.pdfTese - Guilherme Alberto Sousa Ribeiro - 2023.pdfapplication/pdf2039473http://repositorio.bc.ufg.br/tede/bitstreams/d78166d2-77a7-4479-a544-b0268ca10042/download8e549cd51860850496c5a9699c2aaa75MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/21ab3975-0be5-4417-ac5b-0fb444bc273f/download8a4605be74aa9ea9d79846c1fba20a33MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/4a0e23df-7fbb-4b60-953e-ebdc57005e8b/download4460e5956bc1d1639be9ae6146a50347MD53tede/132162024-01-09 10:12:39.308http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/13216http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2024-01-09T13:12:39Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.none.fl_str_mv Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
dc.title.alternative.eng.fl_str_mv AUC-based feature selection approach with probability estimation combined with La Place smoothing technique
title Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
spellingShingle Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
Ribeiro, Guilherme Alberto Sousa
Seleção de características
Área abaixo da curva ROC
Aprendizado supervisionado
Classificação
Feature selection
Area under the ROC curve
Supervised learning
Classification
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
title_full Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
title_fullStr Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
title_full_unstemmed Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
title_sort Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
author Ribeiro, Guilherme Alberto Sousa
author_facet Ribeiro, Guilherme Alberto Sousa
author_role author
dc.contributor.advisor1.fl_str_mv Barbosa, Rommel Melgaço
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6228227125338610
dc.contributor.advisor-co1.fl_str_mv Costa, Nattane Luíza da
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/9968129748669015
dc.contributor.referee1.fl_str_mv Barbosa, Rommel Melgaço
dc.contributor.referee2.fl_str_mv Lima, Marcio Dias de
dc.contributor.referee3.fl_str_mv Oliveira, Alexandre César Muniz de
dc.contributor.referee4.fl_str_mv Gonçalves, Christiane
dc.contributor.referee5.fl_str_mv Rodrigues, Diego de Castro
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2551023125685122
dc.contributor.author.fl_str_mv Ribeiro, Guilherme Alberto Sousa
contributor_str_mv Barbosa, Rommel Melgaço
Costa, Nattane Luíza da
Barbosa, Rommel Melgaço
Lima, Marcio Dias de
Oliveira, Alexandre César Muniz de
Gonçalves, Christiane
Rodrigues, Diego de Castro
dc.subject.por.fl_str_mv Seleção de características
Área abaixo da curva ROC
Aprendizado supervisionado
Classificação
topic Seleção de características
Área abaixo da curva ROC
Aprendizado supervisionado
Classificação
Feature selection
Area under the ROC curve
Supervised learning
Classification
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Feature selection
Area under the ROC curve
Supervised learning
Classification
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description The high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the La Place smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the crossvalidation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-01-09T13:12:39Z
dc.date.available.fl_str_mv 2024-01-09T13:12:39Z
dc.date.issued.fl_str_mv 2024-09-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RIBEIRO, G. A. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/13216
dc.identifier.dark.fl_str_mv ark:/38995/001300000cxnq
identifier_str_mv RIBEIRO, G. A. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023.
ark:/38995/001300000cxnq
url http://repositorio.bc.ufg.br/tede/handle/tede/13216
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RMG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/d78166d2-77a7-4479-a544-b0268ca10042/download
http://repositorio.bc.ufg.br/tede/bitstreams/21ab3975-0be5-4417-ac5b-0fb444bc273f/download
http://repositorio.bc.ufg.br/tede/bitstreams/4a0e23df-7fbb-4b60-953e-ebdc57005e8b/download
bitstream.checksum.fl_str_mv 8e549cd51860850496c5a9699c2aaa75
8a4605be74aa9ea9d79846c1fba20a33
4460e5956bc1d1639be9ae6146a50347
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv tasesdissertacoes.bc@ufg.br
_version_ 1813816968437825536