Development of machine learning tool for filtering artifacts in the identification of CNVs

Detalhes bibliográficos
Autor(a) principal: Matos, José Pedro Parracha de
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/58954
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional, 2023, Universidade de Lisboa, Faculdade de Ciências
id RCAP_0ec9f8c5ee6874e20292f8c47d7c0d9b
oai_identifier_str oai:repositorio.ul.pt:10451/58954
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Development of machine learning tool for filtering artifacts in the identification of CNVsDoenças GenómicasVariantes de número de cópiaDeleçõesDuplicaçõesAprendizagem automáticaTeses de mestrado - 2023Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional, 2023, Universidade de Lisboa, Faculdade de CiênciasGenomic disorders are pathologies that result from the rearrangement/variations of the human genome, that lead to DNA sequence alteration. These are recurrently manifested as developmental disorders, including developmental delay and intellectual disability. Currently these genetic variations, such like copy number variants (CNVs), are identified via Next Generation Sequencing technologies (NGS), which is a less cumbersome and time-consuming methodology than the previously ones. Nevertheless, NGS data analysis is still prone to errors, which are frequently associated to mapping errors, especially in low complexity regions such as telomeres and centromeres. To identify CNVs through NGS data, the sequenced read-pairs are mapped against the human reference genome. Then, the improper pairs for deletions and duplications (with higher than expected insert size or aligned in an outward facing orientation, respectively) are selected and clustered together, defining the variant regions. Concurrently, CNVs can also be identified by chimeric reads, which overlap the CNV breakpoint, corresponding to a junction fragment, or by differences of sequence coverage along the genome. Nevertheless, as the identification of CNVs depends on the read mapping, genomic characteristics, as low complexity regions, lead to the identification of False positive (FP) CNVs which, without manual verification, are difficult to distinguish from real CNVs (True positives - TP). The manual validation of hundreds of CNVs per study case can be a laborious task, therefore automation is vital. In this study, we proposed the development of an automated validation pipeline, established on Machine Learning Classification Model, able to make predictions based on patterns identified on the input data. Thus, in this project a machine learning model able of distinguish FP and TP CNVs based on the genomic characteristics of the specific mapping regions, such as GC content and distance to telomere and centromere, was developed.David, DezsőCouto, Francisco José MoreiraRepositório da Universidade de LisboaMatos, José Pedro Parracha de2023-08-22T12:44:54Z202320232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/58954enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T17:07:56Zoai:repositorio.ul.pt:10451/58954Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:09:01.421408Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Development of machine learning tool for filtering artifacts in the identification of CNVs
title Development of machine learning tool for filtering artifacts in the identification of CNVs
spellingShingle Development of machine learning tool for filtering artifacts in the identification of CNVs
Matos, José Pedro Parracha de
Doenças Genómicas
Variantes de número de cópia
Deleções
Duplicações
Aprendizagem automática
Teses de mestrado - 2023
Departamento de Informática
title_short Development of machine learning tool for filtering artifacts in the identification of CNVs
title_full Development of machine learning tool for filtering artifacts in the identification of CNVs
title_fullStr Development of machine learning tool for filtering artifacts in the identification of CNVs
title_full_unstemmed Development of machine learning tool for filtering artifacts in the identification of CNVs
title_sort Development of machine learning tool for filtering artifacts in the identification of CNVs
author Matos, José Pedro Parracha de
author_facet Matos, José Pedro Parracha de
author_role author
dc.contributor.none.fl_str_mv David, Dezső
Couto, Francisco José Moreira
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Matos, José Pedro Parracha de
dc.subject.por.fl_str_mv Doenças Genómicas
Variantes de número de cópia
Deleções
Duplicações
Aprendizagem automática
Teses de mestrado - 2023
Departamento de Informática
topic Doenças Genómicas
Variantes de número de cópia
Deleções
Duplicações
Aprendizagem automática
Teses de mestrado - 2023
Departamento de Informática
description Tese de mestrado, Bioinformática e Biologia Computacional, 2023, Universidade de Lisboa, Faculdade de Ciências
publishDate 2023
dc.date.none.fl_str_mv 2023-08-22T12:44:54Z
2023
2023
2023-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/58954
url http://hdl.handle.net/10451/58954
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134646415392768