Intragenic initiation in SETD2 deficient cells

Detalhes bibliográficos
Autor(a) principal: Pereira, Miguel Maria das Neves Sousa
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/15929
Resumo: Tese de mestrado em Bioestatística, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2014
id RCAP_477c8e66661308b5cecc4959b9e9d676
oai_identifier_str oai:repositorio.ul.pt:10451/15929
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Intragenic initiation in SETD2 deficient cellsNext generation sequencing (NGS)Iniciação intragénicaComparação de proporçõesTestes múltiplosMétodo de MarascuiloTeses de mestrado - 2014Tese de mestrado em Bioestatística, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2014Nos últimos anos observou-se um enorme desenvolvimento no campo da sequenciação genética com o desenvolvimento das plataformas de elevada produção de Next Generation Sequencing (NGS). Com a tecnologia de NGS é possível sequenciar um genoma ou um transcriptoma por completo em apenas horas ou dias, o que constitui um avanço importante quando comparado com os métodos de sequenciação de Sanger. A plataforma de NGS é baseada na fragmentação e amplificação através de PCR de DNA ou RNA em pequenos segmentos, denominados reads, e na selecção das reads que alinham com um genoma de referência. Estas, denominadas reads mapeadas , são selecionadas para análise e estudo de fenómenos a nível molecular celular. O desenvolvimento destas tecnologias foi acompanhado da necessidade de desenvolver ferramentas de bioinformática para analisar dados de NGS. Estas ferramentas são indispensáveis para traduzir e estudar fenómenos genéticos a partir dos dados não processados obtidos a partir dos aparelhos de sequenciação. Um aspecto importante da NGS é a possibilidade de estudo de fenómenos a nível do genoma e do transcriptoma versus ao nível de genes e proteínas individualmente. Neste trabalho em particular, é de salientar a possibilidade de estudar o fenómeno de iniciação interagência da transcrição, que corresponde à iniciação da transcrição de DNA em RNA mensageiro num exão que não o primeiro (que corresponde ao local usual de início da transcrição). Recentemente, o gene SETD2 foi identificado como sendo um possível gene supressor de tumor em linhas celulares de carcinoma renal de células claras. Este gene codifica uma histona metiltransferase responsável pela trimetilação da lisina 36 da histona H3 (H3K36me3). É já sabido que a ausência de expressão de SETD2 resulta em instabilidade de microssatélites e num aumento da taxa de mutação, motivo pelo qual se associa a reduzida expressão de SETD2 ao cancro. Adicionalmente, a H3K36me3 mediada pelo SETD2 parece estar associada a alteração dos padrões de splicing e a um aumento da iniciação intragénica. O objectivo deste trabalho é aplicar métodos estatísticos para identificar iniciação intragénica da transcrição e usar os mesmos para estudar o efeito das mutações de SETD2 neste fenómeno usando linhas celulares de carcinoma renal de células claras. Neste trabalho foram aplicados dois métodos de deteção de iniciação intragénica que foram aplicados em dados provenientes de seis linhas celulares de carcinoma renal de células claras: quatro linhas celulares com mutações loss of function do gene SETD2 (AB, ER, MF e FG2) e duas linhas-controlo (Caki1 e Caki2). Primeiro, foi efetuado o processamento dos dados originados pelo aparelho de sequenciação para obter dados de contagens relativos ao números de reads que alinharam com cada exão. Estes dados foram transformados em proporções tendo como base as contagens de reads e numa estimativa do número de reads que existiriam se todos os exões tivessem o mesmo nível de expressão e se comportassem como um gene activo. O objectivo foi comparar a expressão entre todos os pares de exões contíguos em cada gene e seleccionar os genes com um nível de expressão superior por parte de um exão que não o primeiro, o que sugere a existência de iniciação intragénica da transcrição. Para cada linha celular, obteve-se um vector com as proporções de expressão de cada exão organizadas por gene e foram aplicados dois métodos estatísticos que podem ser usados para comparação múltiplas proporções: (1) o teste de comparação de duas proporções e (2) o método de Marascuilo. No método (1) foram efetuadas todas as comparações dois-a-dois entre os pares de exões contíguos de cada gene e, um vez que se tem comparações múltiplas, os valor-p obtidos foram ajustados usando o procedimento de Benjamini-Hochberg que controlo a proporção de verdadeiras hipóteses nulas em cada gene. No método (2) foi aplicado um método que efetua todas as comparações dois-a-dois entre os exões de cada gene e selecionados os pares de interesse (ou seja, os pares de exões contíguos). Este método testa mais pares do que o necessário levando a um maior número de comparações. Isto cria um viés na direção da hipótese nula o que faz deste procedimento um método conservador. No entanto, o método de Marascuilo tem a vantagem de incorporar a correção para testes múltiplos não sendo necessário aplicar um outro método para efetuar esse ajuste. Na nossa abordagem, um gene tem iniciação intragénica da transcrição se satisfizer os seguintes critérios: (1) apresentar um exão downstream com maior nível de expressão que o primeiro exão (ou primeiros exões), (2) o primeiro exão diferencialmente expresso positivamente encontrar-se nos primeiros 40% dos exões do gene e (3) mantiver os nível de expressão em 50% dos exões downstream do primeiro exão diferencialmente expresso. Utilizando o nosso algoritmo de processamento de dados foram identificados 42233 genes, excluindo isoformas, dos quais 13667 (⇡31.7%) foram excluídos por serem compostos por apenas quatro exões ou menos. Optou-se por excluir estes genes a priori visto ser impossível os mesmos obedecerem aos critérios de iniciação intragénica estabelecidos. Os nossos resultados mostraram que o teste de comparação de duas proporções juntamente com o procedimento de Benjamini-Hocherg não conseguiu identificar um número satisfatório de genes. Adicionalmente, os genes identificados não apresentavam qualquer concordância com os detectados com o método de Marascuilo e com dados previamente publicados. Foi colocada a hipótese deste aspecto se dever à sensibilidade para este método detectar pequenas flutuações de expressão por ser um método menos conservador do que o método de Marascuilo, bem como ao facto dos critérios para considerar iniciação intragénica serem estritos. Por outro lado, o método de Marascuilo, detectou 1304 genes com iniciação intragénica tendo identificado cerca de 500 genes em cada amostra. Destes, ⇡300 genes eram específicos das linhas celulares mutadas quando eliminados os genes concordantes entre cada uma destas linhas e o controlo Caki1. Pelo contrário, quando eliminados os genes concordantes entre as amostras Caki1 e Caki2, foram detectados apenas 208 genes nesta última amostra, o que vem ao encontro da previsão de que a mutação no gene SETD2 aumenta a iniciação intragénica. Com este trabalho pode-se concluir que o método de Marascuilo pode ser usado como uma ferramenta para detetar iniciação intragénica. Este método deteta um menor número de genes que um método menos conservador baseado no teste exato de Fisher previamente descrito, mas apresenta a vantagem de identificar numa amostra sem necessitar de comparar com o controlo, ou seja, é capaz de detectar a iniciação intragénica basal numa linha celular controlo, por exemplo. Adicionalmente, este método parece ser preciso na quantificação de iniciação intragénica tendo-se detectado uma concordância de 50% entre pelo menos duas linhas mutadas, o que contrasta com uma concordância de 22% no método previamente descrito.The advent of high-throughput Next Generation Sequencing technologies that generate information about the genome, transcriptome and epigenome has created a demand for the development of statistical approaches to detect biological phenomena that occur on a molecular level. One of those phenomena is intragenic initiation, which corresponds to transcription initiation in an exon downstream of the first. The aim of this thesis is to apply statistical methods to identify intragenic initiation and to use these to study the effect of down-regulation due to mutation in the SETD2 gene, a putative tumor suppressor gene in clear cell renal cell carcinoma. We analyzed count data from a RNA-seq experiment, a Next Generation Sequencing method to obtain the transcriptome of a cell, to detect intragenic initiation in six cell lines: two controls and four cell lines with loss of function mutations in the SETD2 gene. Our approach was based on transforming the data into proportions and comparing pairs of proportions either using the two proportions comparison test along with the Benjamini-Hochberg procedure to correct for multiple testing or the Marascuilo procedure, a method that performs every pair-wise comparison in an experimental unit and incorporates correction for multiplicity. Our results showed that the two proportions comparison method was not able to effectively detect intragenic initiation since very few genes were detected that had no relation with genes detected by the Marascuilo procedure and other published data. The Marascuilo procedure, on the other hand, detected 1304 genes with approximately 300 genes per mutant sample. There as 50% overlap between at least two mutant cell lines, which suggests that the method is consistent. We conclude that the Marascuilo procedure seems to be a method that can be applied to the detection of intragenic initiation and allows detection of this phenomenon in each of the cell lines individually.Sousa, Lisete Maria Ribeiro, 1972-Grosso, Ana RitaRepositório da Universidade de LisboaPereira, Miguel Maria das Neves Sousa2015-02-05T15:15:17Z201420142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/15929TID:201356082enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:02:53Zoai:repositorio.ul.pt:10451/15929Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:37:13.386750Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Intragenic initiation in SETD2 deficient cells
title Intragenic initiation in SETD2 deficient cells
spellingShingle Intragenic initiation in SETD2 deficient cells
Pereira, Miguel Maria das Neves Sousa
Next generation sequencing (NGS)
Iniciação intragénica
Comparação de proporções
Testes múltiplos
Método de Marascuilo
Teses de mestrado - 2014
title_short Intragenic initiation in SETD2 deficient cells
title_full Intragenic initiation in SETD2 deficient cells
title_fullStr Intragenic initiation in SETD2 deficient cells
title_full_unstemmed Intragenic initiation in SETD2 deficient cells
title_sort Intragenic initiation in SETD2 deficient cells
author Pereira, Miguel Maria das Neves Sousa
author_facet Pereira, Miguel Maria das Neves Sousa
author_role author
dc.contributor.none.fl_str_mv Sousa, Lisete Maria Ribeiro, 1972-
Grosso, Ana Rita
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Pereira, Miguel Maria das Neves Sousa
dc.subject.por.fl_str_mv Next generation sequencing (NGS)
Iniciação intragénica
Comparação de proporções
Testes múltiplos
Método de Marascuilo
Teses de mestrado - 2014
topic Next generation sequencing (NGS)
Iniciação intragénica
Comparação de proporções
Testes múltiplos
Método de Marascuilo
Teses de mestrado - 2014
description Tese de mestrado em Bioestatística, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2014
publishDate 2014
dc.date.none.fl_str_mv 2014
2014
2014-01-01T00:00:00Z
2015-02-05T15:15:17Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/15929
TID:201356082
url http://hdl.handle.net/10451/15929
identifier_str_mv TID:201356082
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134270134943744