Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis

Detalhes bibliográficos
Autor(a) principal: Soares, Diogo Filipe Marques
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/48139
Resumo: Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2020
id RCAP_65944a5b6d797c3e7ed3af61f48efe11
oai_identifier_str oai:repositorio.ul.pt:10451/48139
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysisTriclusteringDados TridimensionaisModelos PreditivosPadrões de Progressão de DoençaEsclerose Lateral AmiotróficaTeses de mestrado - 2020Departamento de InformáticaTese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2020O conceito de triclustering estende o conceito de biclustering para um espaço tridimensional, cujo o objetivo é encontrar subespaços coerentes em dados tridimensionais. Considerando dados com dimensão temporal, a necessidade de aprender padrões temporais interessantes e usá-los para aprender modelos preditivos efetivos e interpretáveis, despoleta necessidade em investigar novas metodologias para análise de dados tridimensionais. Neste trabalho, propomos duas metodologias para esse efeito. Na primeira metodologia, encontramos os melhores parâmetros a serem usados em triclustering para descobrir os melhores triclusters (conjuntos de objetos com um padrão coerente ao longo de um dado conjunto de pontos temporais) para que depois estes padrões sejam usados como features por um dos mais apropriados classificadores encontrados na literatura. Neste caso, propomos juntar o classificador com uma abordagem de triclustering temporal. Para isso, idealizámos um algoritmo de triclustering com uma restrição temporal, denominado TCtriCluster para desvendar triclusters temporalmente contínuos (constituídos por pontos temporais contínuos). Na segunda metodologia, adicionámos uma fase de biclustering para descobrir padrões nos dados estáticos (dados que não mudam ao longo do tempo) e juntá-los aos triclusters para melhorar o desempenho e a interpretabilidade dos modelos. Estas metodologias foram usadas para prever a necessidade de administração de ventilação não invasiva (VNI) em pacientes com Esclerose Lateral Amiotrófica (ELA). Neste caso de estudo, aprendemos modelos de prognóstico geral, para os dados de todos os pacientes, e modelos especializados, depois de feita uma estratificação dos pacientes em 3 grupos de progressão: Lentos, Neutros e Rápidos. Os resultados demonstram que, além de serem bastante equiparáveis e por vezes superiores quando comparados com os resultados obtidos por um classificador de alto desempenho (Random Forests), os nossos classificadores são capazes de refinar as previsões através das potencialidades da interpretabilidade do modelo. De facto, quando usados os triclusters (e biclusters) como previsores, estamos a promover o uso de padrões de progressão da doença altamente interpretáveis. Para além disso, quando usados para previsão de prognóstico em doentes com ELA, os nossos modelos preditivos interpretáveis desvendaram padrões clinicamente relevantes para um grupo específico de padrões de progressão da doença, ajudando os médicos a entender a elevada heterogeneidade da progressão da ELA. Os resultados mostram ainda que a restrição temporal tem impacto na melhoria da efetividade e preditividade dos modelos.Triclustering extends biclustering to the three-dimensional space, aiming to find coherent subspaces in three-way data (sets of objects described by subsets of features in a subset of contexts). When the context is time, the need to learn interesting temporal patterns and use them to learn effective and interpretable predictive models triggers the need for new research methodologies to be used in three-way data analysis. In this work, we propose two approaches to learn predictive models from three-way data: 1) a triclustering-based classifier (considering just temporal data) and 2) a mixture of biclustering (with static data) and triclustering (with temporal data). In the first approach, we find the best triclustering parameters to uncover the best triclusters (sets of objects with a coherent pattern along a set of time-points) and then use these patterns as features in a state-of-the-art classifier. In the case of temporal data, we propose to couple the classifier with a temporal triclustering approach. With this aim, we devised a temporally constrained triclustering algorithm, termed TCtriCluster algorithm to mine time-contiguous triclusters. In the second approach, we extended the triclustering-based classifier with a biclustering task, where biclusters are discovered in static data (not changed over the time) and integrated with triclusters to improve performance and model explainability. The proposed methodologies were used to predict the need for non-invasive ventilation (NIV) in patients with Amyotrophic Lateral Sclerosis (ALS). In this case study, we learnt a general prognostic model from all patients data and specialized models after patient stratification into Slow, Neutral and Fast progressors. Our results show that besides comparable and sometimes outperforming results, when compared to a high performing random forest classifier, our predictive models enhance prediction with the potentialities of model interpretability. Indeed, when using triclusters (and biclusters) as predictors, we promoting the use of highly interpretable disease progression patterns. Furthermore, when used for prognostic prediction in ALS, our interpretable predictive models unravelled clinically relevant and group-specific disease progression patterns, helping clinicians to understand the high heterogeneity of ALS disease progression. Results further show that the temporal restriction is effective in improving the effectiveness of the predictive models.Madeira, Sara Alexandra CordeiroRepositório da Universidade de LisboaSoares, Diogo Filipe Marques2021-11-26T01:30:25Z202020202020-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/48139TID:202603970enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:51:23Zoai:repositorio.ul.pt:10451/48139Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:00:03.295732Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
title Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
spellingShingle Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
Soares, Diogo Filipe Marques
Triclustering
Dados Tridimensionais
Modelos Preditivos
Padrões de Progressão de Doença
Esclerose Lateral Amiotrófica
Teses de mestrado - 2020
Departamento de Informática
title_short Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
title_full Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
title_fullStr Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
title_full_unstemmed Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
title_sort Learning predictive models from temporal three-way data using triclustering: applications in clinical data analysis
author Soares, Diogo Filipe Marques
author_facet Soares, Diogo Filipe Marques
author_role author
dc.contributor.none.fl_str_mv Madeira, Sara Alexandra Cordeiro
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Soares, Diogo Filipe Marques
dc.subject.por.fl_str_mv Triclustering
Dados Tridimensionais
Modelos Preditivos
Padrões de Progressão de Doença
Esclerose Lateral Amiotrófica
Teses de mestrado - 2020
Departamento de Informática
topic Triclustering
Dados Tridimensionais
Modelos Preditivos
Padrões de Progressão de Doença
Esclerose Lateral Amiotrófica
Teses de mestrado - 2020
Departamento de Informática
description Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2020
publishDate 2020
dc.date.none.fl_str_mv 2020
2020
2020-01-01T00:00:00Z
2021-11-26T01:30:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/48139
TID:202603970
url http://hdl.handle.net/10451/48139
identifier_str_mv TID:202603970
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134546769215488