Predict immune responses to neoantigens using machine learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/80052 |
Resumo: | Dissertação de mestrado em Bioinformática |
id |
RCAP_74666454b68b48110ea82ecba0178b9a |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/80052 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
|
spelling |
Predict immune responses to neoantigens using machine learningCancroImunoterapiaNeoantigéniosResposta imunológicaMachine learningModelosCancerImmunotherapyNeoantigensImmune responseModelsCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado em BioinformáticaO tratamento para o cancro tem visto grandes avanços nos últimos anos. Em conjunto com a evolução das técnicas de sequenciação, novos e melhores tratamentos têm sido desenvolvidos. A imunoterapia é um tipo de tratamento para o cancro que usa o mecanismo de imunovigilancia do sistema imunitário para combater o cancro. Este ramo de investigação e em especial o estudo dos neoantigénios tem atraído imensa atenção nos últimos anos. Os neoantigénios são péptidos anormais que derivam de mutações associadas ao cancro e que podem provocar uma resposta imunitária mediada por linfócitos T. Uma vez que estes péptidos são específicos para tecidos cancerígenos e por isso não estão presentes em tecidos normais, estes têm um grande potencial para serem reconhecidos pelo sistema imunitário levando à ativação de células T que atacam as células tumorais. Contudo, nem todos os neoantigénios conseguem efetivamente gerar uma resposta imunitária, assim, é necessário identificar, de todos os neoantigénios presentes num tumor, aqueles mais prováveis de gerar uma resposta imunitária. Esta dissertação apresenta uma pipeline de machine learning que é capaz de identificar este tipo de neoantigénios. Vários modelos de machine learning e diferentes datasets foram utilizados para atingir este objetivo. Os algoritmos utilizados foram Support Vector Machines, K-nearest neighbors, Logistic Regression e Random Forests. Concluiu-se que otimizar os hiperparâmetros dos modelos de machine learning melhora a performance dos modelos. O efeito do número de casos negativos na performance dos modelos também foi avaliado e concluiu-se que os modelos de machine learning conseguem fazer previsões mais eficazes se forem aplicados em datasets balanceados. O algoritmo que deu melhores previsões foi o Random Forests, desta forma este algoritmo foi também aplicado a um dataset de diferente tamanho criado com um número de casos positivos mais elevado usando a técnica synthetic minority oversampling technique. O algoritmo Random Forests aplicado neste dataset atingiu um f1-score de 0.89, sensibilidade de 0.95 e precisão de 0.86. Infelizmente, estes bons resultados não se refletiram no caso de estudo usado para testar novamente o modelo, o que pode ser explicado pelo facto de os dados usados para treinar os modelos serem tão diferentes dos dados do caso de estudo. Por esta razão, no futuro, a investigação deve focar-se em melhorar os dados de treino para que estes melhor reflitam o que acontece em pacientes reais. Apesar disto, existe a oportunidade para um promissor trabalho futuro.Cancer treatment has been improving in the past years. Along with the evolution of next generation sequencing techniques, new and more efficient cancer treatments have been developed. Immunotherapy is a form of cancer treatment that uses the immunosurveillance mechanism of the immune system to fight cancer. This field of research and especially the study of neoantigens have attracted a lot of attention in recent years. Neoantigens are aberrant peptides derived from tumor mutations that can generate an immune response by T lymphocytes. As these peptides are cancer specific and thus not present in normal cells, they have an exceptionally high potential to be recognized by the immune system leading to activation of T-cells that will attack tumor cells. However, as not all neoantigens are effectively able to generate an immune response, there is a need to identify, from all the neoantigens present in a tumour, those that are more likely to trigger an immune response. This dissertation presents a machine learning approach to identify such neoantigens. Several machine learning models, built over different datasets were used. The machine learning algorithms used were Support Vector Machines, K-nearest neighbors, Logistic Regression and Random Forests. Random Forests generated the best prediction. It was concluded that optimizing the hyperparameters of the machine learning models, enhances the model’s performance. Regarding the optimal number of negative cases on model performance, it was concluded that machine learning models give best predictions when these are applied to balanced datasets. The algorithm that made better predictions was Random Forests, and thus the corresponding model was applied to a different sized dataset created with a higher number of positive cases using the synthetic minority oversampling technique. The Random Forests algorithm applied in this dataset achieved a F1-score of 0.89, recall of 0.95 and precision of 0.86. Unfortunately, these good results were not reflected when this model was tested with a different dataset of the case study, a fact that can be explained, mainly, because the data used for training was very different from the case study data. As such, in the future, research should be focused on improving the training data so that it better reflects what happens in real patients. Despite this, there is an excellent opportunity for a promising future work in this area.Ruano, DinaRocha, MiguelUniversidade do MinhoSilva, Ana Carolina Dias2019-12-042019-12-04T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80052eng203020693info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:06:58ZPortal AgregadorONG |
dc.title.none.fl_str_mv |
Predict immune responses to neoantigens using machine learning |
title |
Predict immune responses to neoantigens using machine learning |
spellingShingle |
Predict immune responses to neoantigens using machine learning Silva, Ana Carolina Dias Cancro Imunoterapia Neoantigénios Resposta imunológica Machine learning Modelos Cancer Immunotherapy Neoantigens Immune response Models Ciências Naturais::Ciências da Computação e da Informação |
title_short |
Predict immune responses to neoantigens using machine learning |
title_full |
Predict immune responses to neoantigens using machine learning |
title_fullStr |
Predict immune responses to neoantigens using machine learning |
title_full_unstemmed |
Predict immune responses to neoantigens using machine learning |
title_sort |
Predict immune responses to neoantigens using machine learning |
author |
Silva, Ana Carolina Dias |
author_facet |
Silva, Ana Carolina Dias |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ruano, Dina Rocha, Miguel Universidade do Minho |
dc.contributor.author.fl_str_mv |
Silva, Ana Carolina Dias |
dc.subject.por.fl_str_mv |
Cancro Imunoterapia Neoantigénios Resposta imunológica Machine learning Modelos Cancer Immunotherapy Neoantigens Immune response Models Ciências Naturais::Ciências da Computação e da Informação |
topic |
Cancro Imunoterapia Neoantigénios Resposta imunológica Machine learning Modelos Cancer Immunotherapy Neoantigens Immune response Models Ciências Naturais::Ciências da Computação e da Informação |
description |
Dissertação de mestrado em Bioinformática |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-12-04 2019-12-04T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/80052 |
url |
https://hdl.handle.net/1822/80052 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203020693 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
|
repository.mail.fl_str_mv |
|
_version_ |
1777303685093654528 |