Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFG |
dARK ID: | ark:/38995/001300000cxnq |
Texto Completo: | http://repositorio.bc.ufg.br/tede/handle/tede/13216 |
Resumo: | The high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the La Place smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the crossvalidation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer. |
id |
UFG-2_8f5b7cccdaee898da56301e8bd7ec22e |
---|---|
oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/13216 |
network_acronym_str |
UFG-2 |
network_name_str |
Repositório Institucional da UFG |
repository_id_str |
|
spelling |
Barbosa, Rommel Melgaçohttp://lattes.cnpq.br/6228227125338610Costa, Nattane Luíza dahttp://lattes.cnpq.br/9968129748669015Barbosa, Rommel MelgaçoLima, Marcio Dias deOliveira, Alexandre César Muniz deGonçalves, ChristianeRodrigues, Diego de Castrohttp://lattes.cnpq.br/2551023125685122Ribeiro, Guilherme Alberto Sousa2024-01-09T13:12:39Z2024-01-09T13:12:39Z2024-09-28RIBEIRO, G. A. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023.http://repositorio.bc.ufg.br/tede/handle/tede/13216ark:/38995/001300000cxnqThe high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the La Place smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the crossvalidation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer.A alta dimensionalidade em que muitos dados são dispostos trouxe a necessidade de algoritmos de redução de dimensionalidade, os quais potencializam a performance, reduzem o esforço computacional e simplificam o processamento de dados em aplicações voltadas para as áreas de aprendizagem de máquina ou reconhecimento de padrões. Devido a necessidade e importância de ter uma base de dados reduzida, este trabalho propõe estudo sobre métodos de seleção de características, com ênfase aos métodos que utilizam AUC (Area Under the ROC curve). Foram avaliadas as tendências no uso de métodos de seleção de características em geral e para os métodos que usam AUC como estimador, aplicados a dados microarray. Em seguida, foi desenvolvido novo algoritmo de seleção de características denominado método de seleção de características baseado em AUC com estimativa de probabilidade e método de suavização de La PLace (AUC-EPS). O método proposto calcula o AUC levando em consideração todos os possíveis valores de cada característica, associado a estimativa de probabilidade e ao método de suavização de La Place (smoothing). Os experimentos foram realizados de forma a comparar a técnica proposta com os algoritmos FAST (Feature Assessment by Sliding Thresholds) e ARCO (AUC and Rank Correlation coefficient Optimization) a partir do uso de oito conjuntos de dados de relacionadas a expressão genética em microarrays, sendo a totalidade de conjuntos utilizada para o experimento de validação cruzada e quatro utilizadas no experimento de bootstrap. Os resultados demonstraram que o método proposto colaborou para a melhoria de performance de alguns classificadores e, na maioria casos, atingiu tal objetivo usando um conjunto de características completamente diferente das demais técnicas, sendo algumas dessas características identificadas pelo AUC-EPS determinantes para identificar doenças. O trabalho concluiu que o método proposto, denominado AUC-EPS, seleciona características diferentes dos algoritmos FAST e ARCO, colaborando para a melhoria de desempenho de alguns classificadores e identificando características determinantes para discriminar câncer.Submitted by Dayane Basílio (dayanebasilio@ufg.br) on 2024-01-09T13:02:14Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)Step: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2024-01-09T13:12:38Z (GMT)Made available in DSpace on 2024-01-09T13:12:39Z (GMT). No. of bitstreams: 2 Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2024-09-28porUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RMG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessSeleção de característicasÁrea abaixo da curva ROCAprendizado supervisionadoClassificaçãoFeature selectionArea under the ROC curveSupervised learningClassificationCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAbordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La PlaceAUC-based feature selection approach with probability estimation combined with La Place smoothing techniqueinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGORIGINALTese - Guilherme Alberto Sousa Ribeiro - 2023.pdfTese - Guilherme Alberto Sousa Ribeiro - 2023.pdfapplication/pdf2039473http://repositorio.bc.ufg.br/tede/bitstreams/d78166d2-77a7-4479-a544-b0268ca10042/download8e549cd51860850496c5a9699c2aaa75MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/21ab3975-0be5-4417-ac5b-0fb444bc273f/download8a4605be74aa9ea9d79846c1fba20a33MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/4a0e23df-7fbb-4b60-953e-ebdc57005e8b/download4460e5956bc1d1639be9ae6146a50347MD53tede/132162024-01-09 10:12:39.308http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/13216http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2024-01-09T13:12:39Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
dc.title.none.fl_str_mv |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place |
dc.title.alternative.eng.fl_str_mv |
AUC-based feature selection approach with probability estimation combined with La Place smoothing technique |
title |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place |
spellingShingle |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place Ribeiro, Guilherme Alberto Sousa Seleção de características Área abaixo da curva ROC Aprendizado supervisionado Classificação Feature selection Area under the ROC curve Supervised learning Classification CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place |
title_full |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place |
title_fullStr |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place |
title_full_unstemmed |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place |
title_sort |
Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place |
author |
Ribeiro, Guilherme Alberto Sousa |
author_facet |
Ribeiro, Guilherme Alberto Sousa |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Barbosa, Rommel Melgaço |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6228227125338610 |
dc.contributor.advisor-co1.fl_str_mv |
Costa, Nattane Luíza da |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/9968129748669015 |
dc.contributor.referee1.fl_str_mv |
Barbosa, Rommel Melgaço |
dc.contributor.referee2.fl_str_mv |
Lima, Marcio Dias de |
dc.contributor.referee3.fl_str_mv |
Oliveira, Alexandre César Muniz de |
dc.contributor.referee4.fl_str_mv |
Gonçalves, Christiane |
dc.contributor.referee5.fl_str_mv |
Rodrigues, Diego de Castro |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/2551023125685122 |
dc.contributor.author.fl_str_mv |
Ribeiro, Guilherme Alberto Sousa |
contributor_str_mv |
Barbosa, Rommel Melgaço Costa, Nattane Luíza da Barbosa, Rommel Melgaço Lima, Marcio Dias de Oliveira, Alexandre César Muniz de Gonçalves, Christiane Rodrigues, Diego de Castro |
dc.subject.por.fl_str_mv |
Seleção de características Área abaixo da curva ROC Aprendizado supervisionado Classificação |
topic |
Seleção de características Área abaixo da curva ROC Aprendizado supervisionado Classificação Feature selection Area under the ROC curve Supervised learning Classification CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Feature selection Area under the ROC curve Supervised learning Classification |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
The high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the La Place smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the crossvalidation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-01-09T13:12:39Z |
dc.date.available.fl_str_mv |
2024-01-09T13:12:39Z |
dc.date.issued.fl_str_mv |
2024-09-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
RIBEIRO, G. A. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023. |
dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/13216 |
dc.identifier.dark.fl_str_mv |
ark:/38995/001300000cxnq |
identifier_str_mv |
RIBEIRO, G. A. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023. ark:/38995/001300000cxnq |
url |
http://repositorio.bc.ufg.br/tede/handle/tede/13216 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação (INF) |
dc.publisher.initials.fl_str_mv |
UFG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RMG) |
publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
instname_str |
Universidade Federal de Goiás (UFG) |
instacron_str |
UFG |
institution |
UFG |
reponame_str |
Repositório Institucional da UFG |
collection |
Repositório Institucional da UFG |
bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/d78166d2-77a7-4479-a544-b0268ca10042/download http://repositorio.bc.ufg.br/tede/bitstreams/21ab3975-0be5-4417-ac5b-0fb444bc273f/download http://repositorio.bc.ufg.br/tede/bitstreams/4a0e23df-7fbb-4b60-953e-ebdc57005e8b/download |
bitstream.checksum.fl_str_mv |
8e549cd51860850496c5a9699c2aaa75 8a4605be74aa9ea9d79846c1fba20a33 4460e5956bc1d1639be9ae6146a50347 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
repository.mail.fl_str_mv |
tasesdissertacoes.bc@ufg.br |
_version_ |
1813816968437825536 |