Clinical data mining and classification

Detalhes bibliográficos
Autor(a) principal: Nogueira, Adara Stéfanny Rodrigues
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.21/16504
Resumo: Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores
id RCAP_3fa60fcdc4ac8716c49e9ce2345214ea
oai_identifier_str oai:repositorio.ipl.pt:10400.21/16504
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Clinical data mining and classificationSeleção de característicasDiscretização de característicasDados de microarrayCancroExplicabilidade da classificaçãoFeature selectionFeature discretizationMicroarray dataCancerExplainability of classificationDissertação para obtenção do Grau de Mestre em Engenharia Informática e de ComputadoresDeterminar os genes que contribuem para o desenvolvimento de certas doenças, como o cancro, é um objectivo importante na vanguarda da investigação clínica de hoje. Isto pode fornecer conhecimentos sobre como as doenças se desenvolvem, pode levar a novos tratamentos e a testes de diagnóstico que detectam doenças mais cedo no seu desenvolvimento, aumentando as hipóteses de recuperação dos pacientes. Hoje em dia, muitos conjuntos de dados de expressão genética estão disponíveis publicamente. Estes consistem geralmente em dados de microarray com informação sobre a activação (ou não) de milhares de genes, em pacientes específicos, que exibem uma determinada doença. No entanto, estes conjuntos de dados clínicos consistem em vetores de características de elevada dimensionalidade, o que levanta dificuldades à análise humana clínica e à interpretabilidade - dadas as grandes quantidades de características e as quantidades comparativamente pequenas de instâncias, é difícil identificar os genes mais relevantes relacionados com a presença de uma determinada doença. Nesta tese, exploramos a utilização da discretização de características, selecção de características e técnicas de classificação aplicadas ao problema de identificação do conjunto mais relevante de características (genes), dentro de conjuntos de dados de microarray, que podem prever a presença de uma dada doença. Construímos um pipeline onde aplicamos diferentes técnicas de discretização, selecção e classificação, a diferentes conjuntos de dados, e comparamos/interpretamos os resultados obtidos com cada combinação de técnicas. Na maioria dos conjuntos de dados, conseguimos obter erros de classificação mais baixos aplicando quer técnicas de discretização quer técnicas de selecção (mas não ambas). Ao aplicar técnicas de selecção, conseguimos também reduzir o número de características alimentadas a cada classificador, mantendo ou melhorando os resultados da classificação. Estes pequenos subconjuntos de genes são assim mais fáceis de interpretar pelos especialistas clínicos humanos, melhorando a explicabilidade dos resultados.Determining which genes contribute to the development of certain diseases, such as cancer, is an important goal in the forefront of today’s clinical research. This can provide insights on how diseases develop, can lead to new treatments and to diagnostic tests that detect diseases earlier in their development, increasing patients chances of recovery. Today, many gene expression datasets are publicly available. These generally consist of DNA microarray data with information on the activation (or not) of thousands of genes, in specific patients, that exhibit a certain disease. However, these clinical datasets consist of high-dimensional feature vectors, which raises difficulties for clinical human analysis and interpretability - given the large amounts of features and the comparatively small amounts of instances, it is difficult to identify the most relevant genes related to the presence of a particular disease. In this thesis, we explore the usage of feature discretization, feature selection, and classification techniques applied towards the problem of identifying the most relevant set of features (genes), within DNA microarray datasets, that can predict the presence of a given disease. We propose a machine learning pipeline with different feature discretization, feature selection, and classification techniques, to different datasets, and compare/interpret the achieved results with different combinations of techniques. On most datasets, we were able to obtain lower classification errors by applying either feature discretization or feature selection techniques (but not both). When applying feature selection techniques, we were also able to reduce the number of features fed to each classifier, while maintaining or improving the classification results. These smaller subsets of genes are thus easier to interpret by human clinical experts, improving the explainability of the results.Ferreira, Artur JorgeRCIPLNogueira, Adara Stéfanny Rodrigues2023-09-22T14:21:01Z20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/16504TID:203352823engNOGUEIRA, Adara Stéfanny Rodrigues - Clinical data mining and classification. Lisboa: Instituto Superior de Engenharia de Lisboa, 2022. Dissertação de Mestrado.info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-24T02:16:40Zoai:repositorio.ipl.pt:10400.21/16504Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:31:21.814660Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Clinical data mining and classification
title Clinical data mining and classification
spellingShingle Clinical data mining and classification
Nogueira, Adara Stéfanny Rodrigues
Seleção de características
Discretização de características
Dados de microarray
Cancro
Explicabilidade da classificação
Feature selection
Feature discretization
Microarray data
Cancer
Explainability of classification
title_short Clinical data mining and classification
title_full Clinical data mining and classification
title_fullStr Clinical data mining and classification
title_full_unstemmed Clinical data mining and classification
title_sort Clinical data mining and classification
author Nogueira, Adara Stéfanny Rodrigues
author_facet Nogueira, Adara Stéfanny Rodrigues
author_role author
dc.contributor.none.fl_str_mv Ferreira, Artur Jorge
RCIPL
dc.contributor.author.fl_str_mv Nogueira, Adara Stéfanny Rodrigues
dc.subject.por.fl_str_mv Seleção de características
Discretização de características
Dados de microarray
Cancro
Explicabilidade da classificação
Feature selection
Feature discretization
Microarray data
Cancer
Explainability of classification
topic Seleção de características
Discretização de características
Dados de microarray
Cancro
Explicabilidade da classificação
Feature selection
Feature discretization
Microarray data
Cancer
Explainability of classification
description Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores
publishDate 2022
dc.date.none.fl_str_mv 2022
2022-01-01T00:00:00Z
2023-09-22T14:21:01Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.21/16504
TID:203352823
url http://hdl.handle.net/10400.21/16504
identifier_str_mv TID:203352823
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv NOGUEIRA, Adara Stéfanny Rodrigues - Clinical data mining and classification. Lisboa: Instituto Superior de Engenharia de Lisboa, 2022. Dissertação de Mestrado.
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133581828685824