Predict immune responses to neoantigens using machine learning

Detalhes bibliográficos
Autor(a) principal: Silva, Ana Carolina Dias
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/80052
Resumo: Dissertação de mestrado em Bioinformática
id RCAP_74666454b68b48110ea82ecba0178b9a
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/80052
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str
spelling Predict immune responses to neoantigens using machine learningCancroImunoterapiaNeoantigéniosResposta imunológicaMachine learningModelosCancerImmunotherapyNeoantigensImmune responseModelsCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado em BioinformáticaO tratamento para o cancro tem visto grandes avanços nos últimos anos. Em conjunto com a evolução das técnicas de sequenciação, novos e melhores tratamentos têm sido desenvolvidos. A imunoterapia é um tipo de tratamento para o cancro que usa o mecanismo de imunovigilancia do sistema imunitário para combater o cancro. Este ramo de investigação e em especial o estudo dos neoantigénios tem atraído imensa atenção nos últimos anos. Os neoantigénios são péptidos anormais que derivam de mutações associadas ao cancro e que podem provocar uma resposta imunitária mediada por linfócitos T. Uma vez que estes péptidos são específicos para tecidos cancerígenos e por isso não estão presentes em tecidos normais, estes têm um grande potencial para serem reconhecidos pelo sistema imunitário levando à ativação de células T que atacam as células tumorais. Contudo, nem todos os neoantigénios conseguem efetivamente gerar uma resposta imunitária, assim, é necessário identificar, de todos os neoantigénios presentes num tumor, aqueles mais prováveis de gerar uma resposta imunitária. Esta dissertação apresenta uma pipeline de machine learning que é capaz de identificar este tipo de neoantigénios. Vários modelos de machine learning e diferentes datasets foram utilizados para atingir este objetivo. Os algoritmos utilizados foram Support Vector Machines, K-nearest neighbors, Logistic Regression e Random Forests. Concluiu-se que otimizar os hiperparâmetros dos modelos de machine learning melhora a performance dos modelos. O efeito do número de casos negativos na performance dos modelos também foi avaliado e concluiu-se que os modelos de machine learning conseguem fazer previsões mais eficazes se forem aplicados em datasets balanceados. O algoritmo que deu melhores previsões foi o Random Forests, desta forma este algoritmo foi também aplicado a um dataset de diferente tamanho criado com um número de casos positivos mais elevado usando a técnica synthetic minority oversampling technique. O algoritmo Random Forests aplicado neste dataset atingiu um f1-score de 0.89, sensibilidade de 0.95 e precisão de 0.86. Infelizmente, estes bons resultados não se refletiram no caso de estudo usado para testar novamente o modelo, o que pode ser explicado pelo facto de os dados usados para treinar os modelos serem tão diferentes dos dados do caso de estudo. Por esta razão, no futuro, a investigação deve focar-se em melhorar os dados de treino para que estes melhor reflitam o que acontece em pacientes reais. Apesar disto, existe a oportunidade para um promissor trabalho futuro.Cancer treatment has been improving in the past years. Along with the evolution of next generation sequencing techniques, new and more efficient cancer treatments have been developed. Immunotherapy is a form of cancer treatment that uses the immunosurveillance mechanism of the immune system to fight cancer. This field of research and especially the study of neoantigens have attracted a lot of attention in recent years. Neoantigens are aberrant peptides derived from tumor mutations that can generate an immune response by T lymphocytes. As these peptides are cancer specific and thus not present in normal cells, they have an exceptionally high potential to be recognized by the immune system leading to activation of T-cells that will attack tumor cells. However, as not all neoantigens are effectively able to generate an immune response, there is a need to identify, from all the neoantigens present in a tumour, those that are more likely to trigger an immune response. This dissertation presents a machine learning approach to identify such neoantigens. Several machine learning models, built over different datasets were used. The machine learning algorithms used were Support Vector Machines, K-nearest neighbors, Logistic Regression and Random Forests. Random Forests generated the best prediction. It was concluded that optimizing the hyperparameters of the machine learning models, enhances the model’s performance. Regarding the optimal number of negative cases on model performance, it was concluded that machine learning models give best predictions when these are applied to balanced datasets. The algorithm that made better predictions was Random Forests, and thus the corresponding model was applied to a different sized dataset created with a higher number of positive cases using the synthetic minority oversampling technique. The Random Forests algorithm applied in this dataset achieved a F1-score of 0.89, recall of 0.95 and precision of 0.86. Unfortunately, these good results were not reflected when this model was tested with a different dataset of the case study, a fact that can be explained, mainly, because the data used for training was very different from the case study data. As such, in the future, research should be focused on improving the training data so that it better reflects what happens in real patients. Despite this, there is an excellent opportunity for a promising future work in this area.Ruano, DinaRocha, MiguelUniversidade do MinhoSilva, Ana Carolina Dias2019-12-042019-12-04T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80052eng203020693info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:06:58ZPortal AgregadorONG
dc.title.none.fl_str_mv Predict immune responses to neoantigens using machine learning
title Predict immune responses to neoantigens using machine learning
spellingShingle Predict immune responses to neoantigens using machine learning
Silva, Ana Carolina Dias
Cancro
Imunoterapia
Neoantigénios
Resposta imunológica
Machine learning
Modelos
Cancer
Immunotherapy
Neoantigens
Immune response
Models
Ciências Naturais::Ciências da Computação e da Informação
title_short Predict immune responses to neoantigens using machine learning
title_full Predict immune responses to neoantigens using machine learning
title_fullStr Predict immune responses to neoantigens using machine learning
title_full_unstemmed Predict immune responses to neoantigens using machine learning
title_sort Predict immune responses to neoantigens using machine learning
author Silva, Ana Carolina Dias
author_facet Silva, Ana Carolina Dias
author_role author
dc.contributor.none.fl_str_mv Ruano, Dina
Rocha, Miguel
Universidade do Minho
dc.contributor.author.fl_str_mv Silva, Ana Carolina Dias
dc.subject.por.fl_str_mv Cancro
Imunoterapia
Neoantigénios
Resposta imunológica
Machine learning
Modelos
Cancer
Immunotherapy
Neoantigens
Immune response
Models
Ciências Naturais::Ciências da Computação e da Informação
topic Cancro
Imunoterapia
Neoantigénios
Resposta imunológica
Machine learning
Modelos
Cancer
Immunotherapy
Neoantigens
Immune response
Models
Ciências Naturais::Ciências da Computação e da Informação
description Dissertação de mestrado em Bioinformática
publishDate 2019
dc.date.none.fl_str_mv 2019-12-04
2019-12-04T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/80052
url https://hdl.handle.net/1822/80052
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203020693
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1777303685093654528