Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica

Detalhes bibliográficos
Autor(a) principal: Borges, Murilo Guimarães, 1989-
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1636925
Resumo: Orientador: Iscia Teresinha Lopes Cendes
id UNICAMP-30_99927dd5469874d4affa1c5a8a6c8f11
oai_identifier_str oai::1092009
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médicaBioinformatics methodologies applied to high throughput sequencing analysis in medical geneticsBioinformáticaSequenciamento completo de exomaExomaHerança multifatorialBioinformaticsWhole exome sequencingExomePolygenic inheritanceOrientador: Iscia Teresinha Lopes CendesTese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências MédicasResumo: O sequenciamento de nova geração é cada vez mais incorporado na prática clínica, trazendo consigo desafios. Para propósitos diagnósticos, são priorizados os métodos de alta resolução de sequenciamento: seja pela delimitação de uma região-alvo de um painel de genes, ou pela definição de uma região de interesse constituída pelos exons. Neste sentido, bancos de dados públicos ajudam a entender de que forma variações genéticas se relacionam a um dado fenótipo, ou simplesmente refletirem uma variabilidade normal da população. A influência de variantes comuns com alta frequência e qualidade na população brasileira em métodos de chamada de variantes ainda é desconhecida. No outro extremo, encontram-se as variantes com impacto clínico comprovado, cuja identificação, acreditamos ser dependente de fatores metodológicos. Perfis de herança genética mais complexos e variações em mais de uma linhagem celular geneticamente distinta de um mesmo organismo são de relevância para as epilepsias. Acredita-se que as mutações em mosaico sejam causais em alguns tipos de displasias corticais focais, e que um perfil poligênico seja mais realista para diversas manifestações epileptogênicas não-familiares. Assim, nosso objetivo foi aplicar e avaliar ferramentas e protocolos em bioinformática para análise de sequenciamento de exomas e painéis no contexto da medicina genômica. Fomos capazes de identificar variantes somáticas e em mosaico em pacientes com displasia cortical focal sequenciados por WES e por um painel de genes empregando nosso protocolo baseado no GATK. Realizamos controles de qualidade pré e pós alinhamento, chamada e anotação das variantes com diversos programas como FastQC, Rqc, Picard, entre outros. Tivemos uma correspondência de 92,4% entre as variantes do painel com o exoma. Com relação as ferramentas utilizadas para a chamada das variantes em mosaico, 85,7% das variantes foram exclusivas de uma das ferramentas, evidenciando uma baixa concordância metodológica para estes algoritmos. Como resultado da chamada de variantes do exoma de 122 pacientes do grupo de encefalopatias epilépticas do desenvolvimento, foram identificadas um total de 608634 variantes. As variantes foram anotadas com VEP e priorizadas com o VVP para possibilitar a filtragem posterior com BrowseVCF. Como resultados preliminares para a descrição de um perfil poligênico, identificamos 32 variantes como possíveis alvos em 24 genes relacionados ao sistema nervoso central pela aplicação de métodos de aprendizado de máquina com RapidMiner. Com relação a aplicação de variantes comuns da população brasileira em protocolos de chamada de variantes, identificamos um alto potencial de sua utilização, aumentando a descoberta de variantes exclusivas de cada indivíduo em regiões anteriormente ignoradas pelos algoritmos. Ao investigar o padrão de profundidade do sequenciamento em amostras do projeto 1000 Genomas em variantes com relevância clínica, temos que a distribuição da profundidade de sequenciamento varia entre diferentes centros do consórcio, indicando um viés sistemático. Ao concluir este estudo, buscamos evidenciar o panorama das metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho e seu impacto no estabelecimento da medicina de precisãoAbstract: Next-generation sequencing is increasingly embedded in the clinical practice, bringing with it challenges as well. For diagnostic purposes, high-resolution sequencing methods are prioritized: either by delimiting a target region from a gene panel or by defining a region of interest constituted by the exons. In this sense, public databases help to understand how genetic variations relate to a given phenotype, or simply reflect normal population variability. The influence on variant calling methods of common variants with high frequency and quality in the Brazilian population is still unknown. At the other extreme are the variants with proven clinical impact, whose identification we believe to be dependent on methodological factors. More complex genetic inheritance profiles and variations in more than one genetically distinct cell line from the same organism are of relevance to epilepsies. Mosaic mutations are believed to be causal in some types of focal cortical dysplasia, and a polygenic profile is more realistic for several nonfamiliar epileptogenic manifestations. Thus, our general objective is to apply and evaluate tools and protocols in bioinformatics for the analysis of WES and panel sequencing in the genomic medicine context. We were able to identify somatic and mosaic variants in patients with focal cortical dysplasia sequenced by WES and with a panel of genes by using a protocol based on GATK. We performed quality controls before and after alignment, variant calling, and annotation of variants with programs like FastQC, Rqc and Picard. We had a 92.4% match between panel variants and the exome. Regarding the tools used for calling mosaic variants, 85.7% of the variants were unique to one of the tools, evidencing a low methodological agreement for these algorithms. For the call-set of 122 patients in the development epileptic encephalopathy group, were identified a total of 608634 variants. The variants were annotated with VEP and prioritized with VVP to allow subsequent filtering with BrowseVCF. As preliminary results for the description of a polygenic profile, we identified 32 variants as possible targets in 24 genes related to the central nervous system by using RapidMiner to implement machine learning methods. Regarding the application of common variants from the Brazilian population applied to variant calling protocols, we identified the high potential of its application, increasing the exclusive variants identification presented by each individual sample in regions previously ignored by the algorithms. When investigating the depth pattern in samples from the 1000 Genomes project in variants with clinical relevance, we have found that the depth of coverage distribution varies between different centers of the consortium, indicating a systematic bias. In concluding this study, we sought to highlight the panorama of methodologies in bioinformatics applied to the analysis of high-performance sequencing data and its impact in the establishment of precision medicineDoutoradoFisiopatologia MédicaDoutor em Fisiopatologia MédicaCAPES001[s.n.]Lopes-Cendes, Íscia Teresinha, 1964-Godard, Ana Lúcia BrunialtiSilva Junior, Wilson Araújo daMelo, Mônica Barbosa deYasuda, Clarissa LinUniversidade Estadual de Campinas (UNICAMP). Faculdade de Ciências MédicasPrograma de Pós-Graduação em Fisiopatologia MédicaUNIVERSIDADE ESTADUAL DE CAMPINASBorges, Murilo Guimarães, 1989-20192019-07-15T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdf1 recurso online (145 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1636925BORGES, Murilo Guimarães. Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica. 2019. 1 recurso online (145 p.) Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636925. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/1092009Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2019-09-02T11:53:49Zoai::1092009Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2019-09-02T11:53:49Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
Bioinformatics methodologies applied to high throughput sequencing analysis in medical genetics
title Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
spellingShingle Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
Borges, Murilo Guimarães, 1989-
Bioinformática
Sequenciamento completo de exoma
Exoma
Herança multifatorial
Bioinformatics
Whole exome sequencing
Exome
Polygenic inheritance
title_short Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
title_full Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
title_fullStr Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
title_full_unstemmed Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
title_sort Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
author Borges, Murilo Guimarães, 1989-
author_facet Borges, Murilo Guimarães, 1989-
author_role author
dc.contributor.none.fl_str_mv Lopes-Cendes, Íscia Teresinha, 1964-
Godard, Ana Lúcia Brunialti
Silva Junior, Wilson Araújo da
Melo, Mônica Barbosa de
Yasuda, Clarissa Lin
Universidade Estadual de Campinas (UNICAMP). Faculdade de Ciências Médicas
Programa de Pós-Graduação em Fisiopatologia Médica
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Borges, Murilo Guimarães, 1989-
dc.subject.por.fl_str_mv Bioinformática
Sequenciamento completo de exoma
Exoma
Herança multifatorial
Bioinformatics
Whole exome sequencing
Exome
Polygenic inheritance
topic Bioinformática
Sequenciamento completo de exoma
Exoma
Herança multifatorial
Bioinformatics
Whole exome sequencing
Exome
Polygenic inheritance
description Orientador: Iscia Teresinha Lopes Cendes
publishDate 2019
dc.date.none.fl_str_mv 2019
2019-07-15T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1636925
BORGES, Murilo Guimarães. Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica. 2019. 1 recurso online (145 p.) Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636925. Acesso em: 3 set. 2024.
url https://hdl.handle.net/20.500.12733/1636925
identifier_str_mv BORGES, Murilo Guimarães. Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica. 2019. 1 recurso online (145 p.) Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636925. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1092009
Requisitos do sistema: Software para leitura de arquivo em PDF
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
1 recurso online (145 p.) : il., digital, arquivo PDF.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809189148034072576