Development of machine learning tool for filtering artifacts in the identification of CNVs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/58954 |
Resumo: | Tese de mestrado, Bioinformática e Biologia Computacional, 2023, Universidade de Lisboa, Faculdade de Ciências |
id |
RCAP_0ec9f8c5ee6874e20292f8c47d7c0d9b |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/58954 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Development of machine learning tool for filtering artifacts in the identification of CNVsDoenças GenómicasVariantes de número de cópiaDeleçõesDuplicaçõesAprendizagem automáticaTeses de mestrado - 2023Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional, 2023, Universidade de Lisboa, Faculdade de CiênciasGenomic disorders are pathologies that result from the rearrangement/variations of the human genome, that lead to DNA sequence alteration. These are recurrently manifested as developmental disorders, including developmental delay and intellectual disability. Currently these genetic variations, such like copy number variants (CNVs), are identified via Next Generation Sequencing technologies (NGS), which is a less cumbersome and time-consuming methodology than the previously ones. Nevertheless, NGS data analysis is still prone to errors, which are frequently associated to mapping errors, especially in low complexity regions such as telomeres and centromeres. To identify CNVs through NGS data, the sequenced read-pairs are mapped against the human reference genome. Then, the improper pairs for deletions and duplications (with higher than expected insert size or aligned in an outward facing orientation, respectively) are selected and clustered together, defining the variant regions. Concurrently, CNVs can also be identified by chimeric reads, which overlap the CNV breakpoint, corresponding to a junction fragment, or by differences of sequence coverage along the genome. Nevertheless, as the identification of CNVs depends on the read mapping, genomic characteristics, as low complexity regions, lead to the identification of False positive (FP) CNVs which, without manual verification, are difficult to distinguish from real CNVs (True positives - TP). The manual validation of hundreds of CNVs per study case can be a laborious task, therefore automation is vital. In this study, we proposed the development of an automated validation pipeline, established on Machine Learning Classification Model, able to make predictions based on patterns identified on the input data. Thus, in this project a machine learning model able of distinguish FP and TP CNVs based on the genomic characteristics of the specific mapping regions, such as GC content and distance to telomere and centromere, was developed.David, DezsőCouto, Francisco José MoreiraRepositório da Universidade de LisboaMatos, José Pedro Parracha de2023-08-22T12:44:54Z202320232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/58954enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T17:07:56Zoai:repositorio.ul.pt:10451/58954Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:09:01.421408Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Development of machine learning tool for filtering artifacts in the identification of CNVs |
title |
Development of machine learning tool for filtering artifacts in the identification of CNVs |
spellingShingle |
Development of machine learning tool for filtering artifacts in the identification of CNVs Matos, José Pedro Parracha de Doenças Genómicas Variantes de número de cópia Deleções Duplicações Aprendizagem automática Teses de mestrado - 2023 Departamento de Informática |
title_short |
Development of machine learning tool for filtering artifacts in the identification of CNVs |
title_full |
Development of machine learning tool for filtering artifacts in the identification of CNVs |
title_fullStr |
Development of machine learning tool for filtering artifacts in the identification of CNVs |
title_full_unstemmed |
Development of machine learning tool for filtering artifacts in the identification of CNVs |
title_sort |
Development of machine learning tool for filtering artifacts in the identification of CNVs |
author |
Matos, José Pedro Parracha de |
author_facet |
Matos, José Pedro Parracha de |
author_role |
author |
dc.contributor.none.fl_str_mv |
David, Dezső Couto, Francisco José Moreira Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Matos, José Pedro Parracha de |
dc.subject.por.fl_str_mv |
Doenças Genómicas Variantes de número de cópia Deleções Duplicações Aprendizagem automática Teses de mestrado - 2023 Departamento de Informática |
topic |
Doenças Genómicas Variantes de número de cópia Deleções Duplicações Aprendizagem automática Teses de mestrado - 2023 Departamento de Informática |
description |
Tese de mestrado, Bioinformática e Biologia Computacional, 2023, Universidade de Lisboa, Faculdade de Ciências |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-08-22T12:44:54Z 2023 2023 2023-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/58954 |
url |
http://hdl.handle.net/10451/58954 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134646415392768 |