Clinical data mining and classification
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.21/16504 |
Resumo: | Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores |
id |
RCAP_3fa60fcdc4ac8716c49e9ce2345214ea |
---|---|
oai_identifier_str |
oai:repositorio.ipl.pt:10400.21/16504 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Clinical data mining and classificationSeleção de característicasDiscretização de característicasDados de microarrayCancroExplicabilidade da classificaçãoFeature selectionFeature discretizationMicroarray dataCancerExplainability of classificationDissertação para obtenção do Grau de Mestre em Engenharia Informática e de ComputadoresDeterminar os genes que contribuem para o desenvolvimento de certas doenças, como o cancro, é um objectivo importante na vanguarda da investigação clínica de hoje. Isto pode fornecer conhecimentos sobre como as doenças se desenvolvem, pode levar a novos tratamentos e a testes de diagnóstico que detectam doenças mais cedo no seu desenvolvimento, aumentando as hipóteses de recuperação dos pacientes. Hoje em dia, muitos conjuntos de dados de expressão genética estão disponíveis publicamente. Estes consistem geralmente em dados de microarray com informação sobre a activação (ou não) de milhares de genes, em pacientes específicos, que exibem uma determinada doença. No entanto, estes conjuntos de dados clínicos consistem em vetores de características de elevada dimensionalidade, o que levanta dificuldades à análise humana clínica e à interpretabilidade - dadas as grandes quantidades de características e as quantidades comparativamente pequenas de instâncias, é difícil identificar os genes mais relevantes relacionados com a presença de uma determinada doença. Nesta tese, exploramos a utilização da discretização de características, selecção de características e técnicas de classificação aplicadas ao problema de identificação do conjunto mais relevante de características (genes), dentro de conjuntos de dados de microarray, que podem prever a presença de uma dada doença. Construímos um pipeline onde aplicamos diferentes técnicas de discretização, selecção e classificação, a diferentes conjuntos de dados, e comparamos/interpretamos os resultados obtidos com cada combinação de técnicas. Na maioria dos conjuntos de dados, conseguimos obter erros de classificação mais baixos aplicando quer técnicas de discretização quer técnicas de selecção (mas não ambas). Ao aplicar técnicas de selecção, conseguimos também reduzir o número de características alimentadas a cada classificador, mantendo ou melhorando os resultados da classificação. Estes pequenos subconjuntos de genes são assim mais fáceis de interpretar pelos especialistas clínicos humanos, melhorando a explicabilidade dos resultados.Determining which genes contribute to the development of certain diseases, such as cancer, is an important goal in the forefront of today’s clinical research. This can provide insights on how diseases develop, can lead to new treatments and to diagnostic tests that detect diseases earlier in their development, increasing patients chances of recovery. Today, many gene expression datasets are publicly available. These generally consist of DNA microarray data with information on the activation (or not) of thousands of genes, in specific patients, that exhibit a certain disease. However, these clinical datasets consist of high-dimensional feature vectors, which raises difficulties for clinical human analysis and interpretability - given the large amounts of features and the comparatively small amounts of instances, it is difficult to identify the most relevant genes related to the presence of a particular disease. In this thesis, we explore the usage of feature discretization, feature selection, and classification techniques applied towards the problem of identifying the most relevant set of features (genes), within DNA microarray datasets, that can predict the presence of a given disease. We propose a machine learning pipeline with different feature discretization, feature selection, and classification techniques, to different datasets, and compare/interpret the achieved results with different combinations of techniques. On most datasets, we were able to obtain lower classification errors by applying either feature discretization or feature selection techniques (but not both). When applying feature selection techniques, we were also able to reduce the number of features fed to each classifier, while maintaining or improving the classification results. These smaller subsets of genes are thus easier to interpret by human clinical experts, improving the explainability of the results.Ferreira, Artur JorgeRCIPLNogueira, Adara Stéfanny Rodrigues2023-09-22T14:21:01Z20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/16504TID:203352823engNOGUEIRA, Adara Stéfanny Rodrigues - Clinical data mining and classification. Lisboa: Instituto Superior de Engenharia de Lisboa, 2022. Dissertação de Mestrado.info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-24T02:16:40Zoai:repositorio.ipl.pt:10400.21/16504Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:31:21.814660Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Clinical data mining and classification |
title |
Clinical data mining and classification |
spellingShingle |
Clinical data mining and classification Nogueira, Adara Stéfanny Rodrigues Seleção de características Discretização de características Dados de microarray Cancro Explicabilidade da classificação Feature selection Feature discretization Microarray data Cancer Explainability of classification |
title_short |
Clinical data mining and classification |
title_full |
Clinical data mining and classification |
title_fullStr |
Clinical data mining and classification |
title_full_unstemmed |
Clinical data mining and classification |
title_sort |
Clinical data mining and classification |
author |
Nogueira, Adara Stéfanny Rodrigues |
author_facet |
Nogueira, Adara Stéfanny Rodrigues |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ferreira, Artur Jorge RCIPL |
dc.contributor.author.fl_str_mv |
Nogueira, Adara Stéfanny Rodrigues |
dc.subject.por.fl_str_mv |
Seleção de características Discretização de características Dados de microarray Cancro Explicabilidade da classificação Feature selection Feature discretization Microarray data Cancer Explainability of classification |
topic |
Seleção de características Discretização de características Dados de microarray Cancro Explicabilidade da classificação Feature selection Feature discretization Microarray data Cancer Explainability of classification |
description |
Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 2022-01-01T00:00:00Z 2023-09-22T14:21:01Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.21/16504 TID:203352823 |
url |
http://hdl.handle.net/10400.21/16504 |
identifier_str_mv |
TID:203352823 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
NOGUEIRA, Adara Stéfanny Rodrigues - Clinical data mining and classification. Lisboa: Instituto Superior de Engenharia de Lisboa, 2022. Dissertação de Mestrado. |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133581828685824 |