Developing deep learning methods to predict cancer and its outcome from transcriptomics data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/79908 |
Resumo: | Dissertação de mestrado em Bioinformática |
id |
RCAP_c8fe84bf4a151d46b945ed36276fac00 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/79908 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Developing deep learning methods to predict cancer and its outcome from transcriptomics dataCancerDeep learningMachine learningTranscriptomicsCancroAprendizagem máquinaTranscriptómicaCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado em BioinformáticaCancer is one of the major causes of death in developed countries. It is not a single disease, but a group of different types of diseases with specific symptoms, treatments and prognosis. Early diagnosis and prognostic assessment are essential to select the best treatment for each case. Deep learning is a branch of machine learning that became popular in recent years. Deep learning methods have been employed in a broad range of areas including self-driving cars, natural language processing, computer vision, health, among others. The main goal of the thesis is to develop deep learning methods to predict cancer and its outcome from transcriptomics data. Reviewing literature, exploring datasets, developing pipelines and validating the methods using a case study are some of the tasks needed to achieve the goals of the thesis. The developed methods are implemented as a pipeline for creating models from gene expression data. The framework is capable of reading and pre-processing these data, and training, optimizing and evaluating traditional machine learning and deep learning models. The framework was showcased by using the METABRIC dataset as a case study, which contains samples from breast cancer patients. The gene expression microarray data from the dataset was used to generate traditional, deep learning and multi-task models. The models were used to predict the expression of Estrogen Receptor (ER), the subtype of breast cancer regarding ER, Human Epidermal Growth Factor (HER-2) and Progesterone Receptor (PR) and the prognosis of breast cancer patients with Nottingham Prognostic Index (NPI), respectively. Another dataset allowed the use of single-cell RNAseq data and confirmed the main trends of the results. Overall, the results were promising with classification tasks obtaining good results while regression models had a poorer performance. While the best results were obtained with traditional machine learning models, deep learning models were near and could provide better results if the dataset contained a larger number of samples.O cancro é uma das principais causas de morte em países desenvolvidos. Não é uma única doença, mas um grupo de diferentes tipos de doenças com sintomas, tratamentos e prognósticos específicos. O diagnóstico precoce e a determinação do prognóstico são essenciais para selecionar o melhor tratamento para cada caso. "Deep learning" é um ramo da área da aprendizagem máquina que se tornou popular nos últimos anos. Métodos de "deep learning" têm sido empregados num conjunto de áreas alargado nas quais se incluem veículos autónomos, processamento de linguagem natural, visão por computador, saúde, entre outras. O objetivo principal desta dissertação é o de desenvolver métodos de "deep leaming" para prever cancro e o seu prognóstico a partir de dados de transcriptómica. A revisão da literatura, a exploração de conjuntos de dados, o desenvolvimento de "pipelines" e a validação dos métodos usando casos de estudo são alguns das tarefas necessárias para cumprir os objectivos do trabalho. Os métodos desenvolvidos constituem uma "pipeline" para criação de modelos a par-tir de dados de expressão genética. A plataforma é capaz de ler dados de expressão genética, fazer pré-processamento, treino, otimização e avaliação de modelos de apren-dizagem máquina tradicionais e de "deep learning". A plataforma foi demonstrada usando o dataset do Molecular Taxonomy of Breast Can-cer International Consortium (METABRIC) que contém amostras de pacientes com cancro da mama, como caso de estudo. Os dados de expressão genética de microarrays foram usados para gerar modelos de aprendizagem máquina tradicionais, modelos de "deep leaming" e modelos multi-tarefa. Os modelos foram usados para prever a expressão do receptor de estrogénio (ER), do fator de crescimento epidérmico humano 2 (HER-2) e do recetor da proges-terona (PR), bem como para prever o prognóstico de pacientes usando o índice de Prognóstico de Nottingham (NPI). Um segundo conjunto de dados permitiu uma validação adicional, considerando dados de RNAseq. De forma geral, os resultados foram promissores com as tarefas de classificação a obterem bons resultados enquanto os modelos de regressão tiverem um menor desempenho. En-quanto os melhores resultados foram obtidos com modelos de aprendizagem máquina tradicionais, os modelos de "deep learning" estiveram perto e poderiam obter melhores reultados se os dados tivessem um maior número de amostras.Rocha, MiguelUniversidade do MinhoSoares, Óscar Marques2019-11-282019-11-28T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79908eng203019490info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:16:30Zoai:repositorium.sdum.uminho.pt:1822/79908Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:09:02.491933Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data |
title |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data |
spellingShingle |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data Soares, Óscar Marques Cancer Deep learning Machine learning Transcriptomics Cancro Aprendizagem máquina Transcriptómica Ciências Naturais::Ciências da Computação e da Informação |
title_short |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data |
title_full |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data |
title_fullStr |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data |
title_full_unstemmed |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data |
title_sort |
Developing deep learning methods to predict cancer and its outcome from transcriptomics data |
author |
Soares, Óscar Marques |
author_facet |
Soares, Óscar Marques |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rocha, Miguel Universidade do Minho |
dc.contributor.author.fl_str_mv |
Soares, Óscar Marques |
dc.subject.por.fl_str_mv |
Cancer Deep learning Machine learning Transcriptomics Cancro Aprendizagem máquina Transcriptómica Ciências Naturais::Ciências da Computação e da Informação |
topic |
Cancer Deep learning Machine learning Transcriptomics Cancro Aprendizagem máquina Transcriptómica Ciências Naturais::Ciências da Computação e da Informação |
description |
Dissertação de mestrado em Bioinformática |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-11-28 2019-11-28T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/79908 |
url |
https://hdl.handle.net/1822/79908 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203019490 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132515139584000 |