Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data

Trevizan, Bernardo

Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data

Detalhes bibliográficos
Autor(a) principal:	Trevizan, Bernardo
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/224101
Resumo:	Na medicina de precisão, a identificação de biomarcadores pode ajudar a agilizar o diagnóstico e adequar o tratamento a cada paciente, aumentando a qualidade da assistência à saúde. Dados ômicos, como os de microarranjo, geram dados de alta dimensionalidade que permitem a análise de perfis de expressão gênica para extrair cadidatos a biomarcadores. No entanto, dados de alta dimensionalidade requerem métodos computacionais avançados para análise de dados. Neste trabalho, propusemos uma estratégia de seleção de atributos com um ensemble (EFS) homogêneo para identificar candidatos a biomarcadores para câncer de mama a partir de múltiplos dados de microarranjo. Aplicamos o método de meta-análise random effect model como método de comparação. Também comparamos cinco métodos de seleção de atributos (FS) como seletores base e quatro algoritmos de classificação. Nossos resultados mostraram que o método de FS variância é o mais estável entre os outros métodos de FS. Mostramos que a estabilidade é maior dentro dos conjuntos de dados do que entre os conjuntos de dados, indicando alta heterogeneidade entre os estudos. Os 20 genes mais informativos selecionados por variância apresentaram a melhor troca entre o número de genes selecionados e o desempenho. Nossa abordagem superou a meta-análise em quatro dos seis estudos independentes de microarranjo avaliados. O classificador Support Vector Machine apresentou, em geral, os melhores valores médios de F1-Score e o classificador K-Nearest Neighbors os melhores valores médios de recall. Concluímos que o EFS homogêneo apresentado é uma metodologia promissora para a identificação de candidatos a biomarcadores, demonstrando estabilidade e desempenho preditivo tão bom quanto o método estatístico de referência.

Metadados do item

id	UFRGS-2_932419c8a25f8c4c55acdbc2b72d995e
oai_identifier_str	oai:www.lume.ufrgs.br:10183/224101
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Trevizan, BernardoRecamonde-Mendoza, Mariana2021-07-16T04:31:11Z2021http://hdl.handle.net/10183/224101001126759Na medicina de precisão, a identificação de biomarcadores pode ajudar a agilizar o diagnóstico e adequar o tratamento a cada paciente, aumentando a qualidade da assistência à saúde. Dados ômicos, como os de microarranjo, geram dados de alta dimensionalidade que permitem a análise de perfis de expressão gênica para extrair cadidatos a biomarcadores. No entanto, dados de alta dimensionalidade requerem métodos computacionais avançados para análise de dados. Neste trabalho, propusemos uma estratégia de seleção de atributos com um ensemble (EFS) homogêneo para identificar candidatos a biomarcadores para câncer de mama a partir de múltiplos dados de microarranjo. Aplicamos o método de meta-análise random effect model como método de comparação. Também comparamos cinco métodos de seleção de atributos (FS) como seletores base e quatro algoritmos de classificação. Nossos resultados mostraram que o método de FS variância é o mais estável entre os outros métodos de FS. Mostramos que a estabilidade é maior dentro dos conjuntos de dados do que entre os conjuntos de dados, indicando alta heterogeneidade entre os estudos. Os 20 genes mais informativos selecionados por variância apresentaram a melhor troca entre o número de genes selecionados e o desempenho. Nossa abordagem superou a meta-análise em quatro dos seis estudos independentes de microarranjo avaliados. O classificador Support Vector Machine apresentou, em geral, os melhores valores médios de F1-Score e o classificador K-Nearest Neighbors os melhores valores médios de recall. Concluímos que o EFS homogêneo apresentado é uma metodologia promissora para a identificação de candidatos a biomarcadores, demonstrando estabilidade e desempenho preditivo tão bom quanto o método estatístico de referência.In precision medicine, the identification of biomarkers could help speed the diagnosis and tailor the treatment to each patient increasing the quality of health care. Omics data, such as microarray, generates high-dimensional data that has enabled the analysis of genes expression profiles to extract candidate biomarkers. However, high-dimensional data requires advanced computational methods for data analysis. In this work, we proposed a homogeneous ensemble feature selection (EFS) strategy to identify candidate biomarkers for breast cancer from multiple microarray datasets. We applied the state-of-the-art random effect model from meta-analysis as a comparison method. We also compared five feature selection (FS) methods as base selectors and four classification algorithms. Our results showed that FS method variance is the most stable among other FS methods. We showed that stability is higher within datasets than across datasets, indicating high sample heterogeneity among studies. The top 20 genes selected by variance showed the best trade-off between the number of selected genes and performance. Our approach outperform meta-analysis in four out of six independent microarray studies evaluated. Support Vector Machine classifier presented, in general, the best mean F1-Scores and K-Nearest Neighbors classifier the best mean Recall values. We conclude that homogeneous EFS is a promising methodology for candidate biomarkers identification, demonstrating stability and predictive performance as good as the reference statistical method.application/pdfengBiomarcadoresCâncer de mamaMedicina de precisãoAnálise de dadosFeature selectionMicroarrayHomogeneous ensemble feature selection for breast cancer biomarker identification from microarray dataSeleção de atributos com um ensemble homogêneo a partir de dados de microarranjo para identificação de biomarcadores de câncer de mama info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2020Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001126759.pdf.txt001126759.pdf.txtExtracted Texttext/plain120276http://www.lume.ufrgs.br/bitstream/10183/224101/2/001126759.pdf.txt4a90f2bb335120d66ee9460bf69dea3aMD52ORIGINAL001126759.pdfTexto completo (inglês)application/pdf1739568http://www.lume.ufrgs.br/bitstream/10183/224101/1/001126759.pdf1cb29c3a18c6e95c819d65ad0d406fc7MD5110183/2241012024-04-10 06:33:37.530402oai:www.lume.ufrgs.br:10183/224101Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-04-10T09:33:37Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data
dc.title.alternative.pt.fl_str_mv	Seleção de atributos com um ensemble homogêneo a partir de dados de microarranjo para identificação de biomarcadores de câncer de mama
title	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data
spellingShingle	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data Trevizan, Bernardo Biomarcadores Câncer de mama Medicina de precisão Análise de dados Feature selection Microarray
title_short	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data
title_full	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data
title_fullStr	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data
title_full_unstemmed	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data
title_sort	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data
author	Trevizan, Bernardo
author_facet	Trevizan, Bernardo
author_role	author
dc.contributor.author.fl_str_mv	Trevizan, Bernardo
dc.contributor.advisor1.fl_str_mv	Recamonde-Mendoza, Mariana
contributor_str_mv	Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv	Biomarcadores Câncer de mama Medicina de precisão Análise de dados
topic	Biomarcadores Câncer de mama Medicina de precisão Análise de dados Feature selection Microarray
dc.subject.eng.fl_str_mv	Feature selection Microarray
description	Na medicina de precisão, a identificação de biomarcadores pode ajudar a agilizar o diagnóstico e adequar o tratamento a cada paciente, aumentando a qualidade da assistência à saúde. Dados ômicos, como os de microarranjo, geram dados de alta dimensionalidade que permitem a análise de perfis de expressão gênica para extrair cadidatos a biomarcadores. No entanto, dados de alta dimensionalidade requerem métodos computacionais avançados para análise de dados. Neste trabalho, propusemos uma estratégia de seleção de atributos com um ensemble (EFS) homogêneo para identificar candidatos a biomarcadores para câncer de mama a partir de múltiplos dados de microarranjo. Aplicamos o método de meta-análise random effect model como método de comparação. Também comparamos cinco métodos de seleção de atributos (FS) como seletores base e quatro algoritmos de classificação. Nossos resultados mostraram que o método de FS variância é o mais estável entre os outros métodos de FS. Mostramos que a estabilidade é maior dentro dos conjuntos de dados do que entre os conjuntos de dados, indicando alta heterogeneidade entre os estudos. Os 20 genes mais informativos selecionados por variância apresentaram a melhor troca entre o número de genes selecionados e o desempenho. Nossa abordagem superou a meta-análise em quatro dos seis estudos independentes de microarranjo avaliados. O classificador Support Vector Machine apresentou, em geral, os melhores valores médios de F1-Score e o classificador K-Nearest Neighbors os melhores valores médios de recall. Concluímos que o EFS homogêneo apresentado é uma metodologia promissora para a identificação de candidatos a biomarcadores, demonstrando estabilidade e desempenho preditivo tão bom quanto o método estatístico de referência.
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-07-16T04:31:11Z
dc.date.issued.fl_str_mv	2021
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/224101
dc.identifier.nrb.pt_BR.fl_str_mv	001126759
url	http://hdl.handle.net/10183/224101
identifier_str_mv	001126759
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/224101/2/001126759.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/224101/1/001126759.pdf
bitstream.checksum.fl_str_mv	4a90f2bb335120d66ee9460bf69dea3a 1cb29c3a18c6e95c819d65ad0d406fc7
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1815447278692859904

Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data

Registros relacionados