Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
Texto Completo: | https://hdl.handle.net/20.500.12733/1636925 |
Resumo: | Orientador: Iscia Teresinha Lopes Cendes |
id |
UNICAMP-30_99927dd5469874d4affa1c5a8a6c8f11 |
---|---|
oai_identifier_str |
oai::1092009 |
network_acronym_str |
UNICAMP-30 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository_id_str |
|
spelling |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médicaBioinformatics methodologies applied to high throughput sequencing analysis in medical geneticsBioinformáticaSequenciamento completo de exomaExomaHerança multifatorialBioinformaticsWhole exome sequencingExomePolygenic inheritanceOrientador: Iscia Teresinha Lopes CendesTese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências MédicasResumo: O sequenciamento de nova geração é cada vez mais incorporado na prática clínica, trazendo consigo desafios. Para propósitos diagnósticos, são priorizados os métodos de alta resolução de sequenciamento: seja pela delimitação de uma região-alvo de um painel de genes, ou pela definição de uma região de interesse constituída pelos exons. Neste sentido, bancos de dados públicos ajudam a entender de que forma variações genéticas se relacionam a um dado fenótipo, ou simplesmente refletirem uma variabilidade normal da população. A influência de variantes comuns com alta frequência e qualidade na população brasileira em métodos de chamada de variantes ainda é desconhecida. No outro extremo, encontram-se as variantes com impacto clínico comprovado, cuja identificação, acreditamos ser dependente de fatores metodológicos. Perfis de herança genética mais complexos e variações em mais de uma linhagem celular geneticamente distinta de um mesmo organismo são de relevância para as epilepsias. Acredita-se que as mutações em mosaico sejam causais em alguns tipos de displasias corticais focais, e que um perfil poligênico seja mais realista para diversas manifestações epileptogênicas não-familiares. Assim, nosso objetivo foi aplicar e avaliar ferramentas e protocolos em bioinformática para análise de sequenciamento de exomas e painéis no contexto da medicina genômica. Fomos capazes de identificar variantes somáticas e em mosaico em pacientes com displasia cortical focal sequenciados por WES e por um painel de genes empregando nosso protocolo baseado no GATK. Realizamos controles de qualidade pré e pós alinhamento, chamada e anotação das variantes com diversos programas como FastQC, Rqc, Picard, entre outros. Tivemos uma correspondência de 92,4% entre as variantes do painel com o exoma. Com relação as ferramentas utilizadas para a chamada das variantes em mosaico, 85,7% das variantes foram exclusivas de uma das ferramentas, evidenciando uma baixa concordância metodológica para estes algoritmos. Como resultado da chamada de variantes do exoma de 122 pacientes do grupo de encefalopatias epilépticas do desenvolvimento, foram identificadas um total de 608634 variantes. As variantes foram anotadas com VEP e priorizadas com o VVP para possibilitar a filtragem posterior com BrowseVCF. Como resultados preliminares para a descrição de um perfil poligênico, identificamos 32 variantes como possíveis alvos em 24 genes relacionados ao sistema nervoso central pela aplicação de métodos de aprendizado de máquina com RapidMiner. Com relação a aplicação de variantes comuns da população brasileira em protocolos de chamada de variantes, identificamos um alto potencial de sua utilização, aumentando a descoberta de variantes exclusivas de cada indivíduo em regiões anteriormente ignoradas pelos algoritmos. Ao investigar o padrão de profundidade do sequenciamento em amostras do projeto 1000 Genomas em variantes com relevância clínica, temos que a distribuição da profundidade de sequenciamento varia entre diferentes centros do consórcio, indicando um viés sistemático. Ao concluir este estudo, buscamos evidenciar o panorama das metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho e seu impacto no estabelecimento da medicina de precisãoAbstract: Next-generation sequencing is increasingly embedded in the clinical practice, bringing with it challenges as well. For diagnostic purposes, high-resolution sequencing methods are prioritized: either by delimiting a target region from a gene panel or by defining a region of interest constituted by the exons. In this sense, public databases help to understand how genetic variations relate to a given phenotype, or simply reflect normal population variability. The influence on variant calling methods of common variants with high frequency and quality in the Brazilian population is still unknown. At the other extreme are the variants with proven clinical impact, whose identification we believe to be dependent on methodological factors. More complex genetic inheritance profiles and variations in more than one genetically distinct cell line from the same organism are of relevance to epilepsies. Mosaic mutations are believed to be causal in some types of focal cortical dysplasia, and a polygenic profile is more realistic for several nonfamiliar epileptogenic manifestations. Thus, our general objective is to apply and evaluate tools and protocols in bioinformatics for the analysis of WES and panel sequencing in the genomic medicine context. We were able to identify somatic and mosaic variants in patients with focal cortical dysplasia sequenced by WES and with a panel of genes by using a protocol based on GATK. We performed quality controls before and after alignment, variant calling, and annotation of variants with programs like FastQC, Rqc and Picard. We had a 92.4% match between panel variants and the exome. Regarding the tools used for calling mosaic variants, 85.7% of the variants were unique to one of the tools, evidencing a low methodological agreement for these algorithms. For the call-set of 122 patients in the development epileptic encephalopathy group, were identified a total of 608634 variants. The variants were annotated with VEP and prioritized with VVP to allow subsequent filtering with BrowseVCF. As preliminary results for the description of a polygenic profile, we identified 32 variants as possible targets in 24 genes related to the central nervous system by using RapidMiner to implement machine learning methods. Regarding the application of common variants from the Brazilian population applied to variant calling protocols, we identified the high potential of its application, increasing the exclusive variants identification presented by each individual sample in regions previously ignored by the algorithms. When investigating the depth pattern in samples from the 1000 Genomes project in variants with clinical relevance, we have found that the depth of coverage distribution varies between different centers of the consortium, indicating a systematic bias. In concluding this study, we sought to highlight the panorama of methodologies in bioinformatics applied to the analysis of high-performance sequencing data and its impact in the establishment of precision medicineDoutoradoFisiopatologia MédicaDoutor em Fisiopatologia MédicaCAPES001[s.n.]Lopes-Cendes, Íscia Teresinha, 1964-Godard, Ana Lúcia BrunialtiSilva Junior, Wilson Araújo daMelo, Mônica Barbosa deYasuda, Clarissa LinUniversidade Estadual de Campinas (UNICAMP). Faculdade de Ciências MédicasPrograma de Pós-Graduação em Fisiopatologia MédicaUNIVERSIDADE ESTADUAL DE CAMPINASBorges, Murilo Guimarães, 1989-20192019-07-15T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdf1 recurso online (145 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1636925BORGES, Murilo Guimarães. Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica. 2019. 1 recurso online (145 p.) Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636925. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/1092009Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2019-09-02T11:53:49Zoai::1092009Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2019-09-02T11:53:49Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica Bioinformatics methodologies applied to high throughput sequencing analysis in medical genetics |
title |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica |
spellingShingle |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica Borges, Murilo Guimarães, 1989- Bioinformática Sequenciamento completo de exoma Exoma Herança multifatorial Bioinformatics Whole exome sequencing Exome Polygenic inheritance |
title_short |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica |
title_full |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica |
title_fullStr |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica |
title_full_unstemmed |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica |
title_sort |
Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica |
author |
Borges, Murilo Guimarães, 1989- |
author_facet |
Borges, Murilo Guimarães, 1989- |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lopes-Cendes, Íscia Teresinha, 1964- Godard, Ana Lúcia Brunialti Silva Junior, Wilson Araújo da Melo, Mônica Barbosa de Yasuda, Clarissa Lin Universidade Estadual de Campinas (UNICAMP). Faculdade de Ciências Médicas Programa de Pós-Graduação em Fisiopatologia Médica UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Borges, Murilo Guimarães, 1989- |
dc.subject.por.fl_str_mv |
Bioinformática Sequenciamento completo de exoma Exoma Herança multifatorial Bioinformatics Whole exome sequencing Exome Polygenic inheritance |
topic |
Bioinformática Sequenciamento completo de exoma Exoma Herança multifatorial Bioinformatics Whole exome sequencing Exome Polygenic inheritance |
description |
Orientador: Iscia Teresinha Lopes Cendes |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 2019-07-15T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/1636925 BORGES, Murilo Guimarães. Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica. 2019. 1 recurso online (145 p.) Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636925. Acesso em: 3 set. 2024. |
url |
https://hdl.handle.net/20.500.12733/1636925 |
identifier_str_mv |
BORGES, Murilo Guimarães. Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica. 2019. 1 recurso online (145 p.) Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1636925. Acesso em: 3 set. 2024. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/1092009 Requisitos do sistema: Software para leitura de arquivo em PDF |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 1 recurso online (145 p.) : il., digital, arquivo PDF. |
dc.publisher.none.fl_str_mv |
[s.n.] |
publisher.none.fl_str_mv |
[s.n.] |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
collection |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
sbubd@unicamp.br |
_version_ |
1809189148034072576 |