LINCRNAS' profile in setd2 downregulated cells

Detalhes bibliográficos
Autor(a) principal: Tavares, Joana Patrícia Moreira
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/20663
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015
id RCAP_0c1f656d8fb02af44a483cc52c570128
oai_identifier_str oai:repositorio.ul.pt:10451/20663
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling LINCRNAS' profile in setd2 downregulated cellslincRNAccRCCRNA-seqPerfil de expressão génicaAnálise génica de expressão diferencialRede de correlação génicaTeses de mestrado - 2015Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015O carcinoma de células renais (CCR) é o tipo de cancro renal mais prevalente na população adulta e representa 2-3% dos casos de cancro em todo o mundo. O CCR inclui quatro subtipos histologicamente distintos, sendo o mais comum o de células claras, assim designado devido ao baixo teor lipídico presente no citoplasma das suas células. Este subtipo é geneticamente caracterizado pela recorrente perda do braço pequeno do cromossoma 3 (3p) e consequentemente, pela inativação dos genes supressores de tumores que estão localizados nesta região do genoma. Mutações no gene supressor de tumor Von Hippel-Lindau (VHL) eram comummente observadas na grande maioria dos casos e, por isso, pensou-se que estas mutações estariam na base genética do desenvolvimento de CCR. Contudo, estudos mais aprofundados mostraram que a inativação do gene VHL é necessária mas insuficiente para despoletar a doença, desta forma surgiu a hipótese de existir a intervenção de um outro gene supressor de tumores que também estivesse localizado nas proximidades da região. Esta hipótese foi suportada por estudos posteriores que identificaram o gene SETD2 como um possível novo gene supressor de tumor do CCR de células claras. O gene SETD2 codifica uma metiltransferase que atua especificamente na lisina-36 da histona H3 (H3K36). A trimetilação desta histona (H3K36me3) está associada ao estado ativo da cromatina e desempenha um importante papel durante a fase de elongação no processo de transcrição génica. Foi também demonstrado que os níveis de modificação da H3K36me3, e consequentemente os níveis de expressão do gene SETD2, são mais elevados em genes que são constituídos por vários exões, o que sugere que o SETD2 tem um papel preponderante na prevenção da iniciação intragénica (evitando assim a produção de transcritos incorretos). Uma vez que todas estas funções são importantes para que haja uma boa regulação génica, é possível prever que a alteração dos níveis de expressão do SETD2 poderá comprometer importantes processos celulares, levando em última instância ao desenvolvimento de cancros. De facto, em células de pacientes com cancro da mama, foram observados baixos níveis de expressão deste gene e em estudos independentes, foi também constatado que o SETD2 regula a transcrição da proteína p53, descrita atualmente como a proteína mais comummente alterada em tumores humanos. Apesar das últimas décadas de investigação científica se terem gravitado em torno das proteínas e das suas funções, o desenvolvimento de tecnologias de sequenciação de nova geração (NGS) têm levado ao reconhecimento de que, na verdade, apenas uma pequena parte do genoma está efetivamente associado à produção de proteínas. Surpreendentemente, observou-se também que a grande maioria do genoma (apesar de não estar associada à codificação de proteínas) continua a ser transcrito de forma frequente e generalizada, tornando-se evidente que as regiões não-codificantes do genoma (assim designadas por não codificarem proteínas) estão longe de estarem desprovidas de qualquer tipo de função. Na realidade, sabe-se agora, que a grande maioria delas produz moléculas que estão associadas a mecanismos de regulação génica e que orquestram tudo o que é produzido dentro das células. Dentro do conjunto de genes não-codificantes encontram-se os genes que produzem lincRNAs (long intergenic noncoding RNAs), que são longos transcritos de RNA funcionais que se encontram localizados entre genes que codificam proteínas. Uma vez que os lincRNAs desempenham importantes funções de regulação celular têm sido, ultimamente, alvo de vários estudos que têm demonstrado que em diversas doenças, como alguns tipos de cancro, existem profundas alterações na produção destes transcritos. Uma vez que o CCR de células claras é conhecido por ser particularmente resistente à radioterapia ou à quimioterapia, a terapia génica direcionada apresenta-se como uma boa alternativa de tratamento para os seus doentes. No entanto, apesar da quantidade de estudos moleculares realizados em CCR de células claras ainda não é possível compreender totalmente este subtipo de carcinoma renal. É portanto necessária uma melhor caracterização molecular deste carcinoma, a fim de se poderem encontrar os genes-alvo na realização de uma terapia génica direcionada. Deste modo, com o intuito de explorar de que forma é que o perfil de expressão dos genes (tanto codificadores de proteínas, como lincRNAs) é influenciado pelo SETD2 em células com este subtipo de CCR, decidiu-se fazer uma análise de expressão diferencial, quantificando e comparando os níveis de expressão génica entre linhas celulares com o SETD2 expresso a níveis normais e linhas celulares com o SETD2 mutado. Para tal, e uma vez que se pretendia fazer uma análise integral do genoma, foi necessário obter um catálogo de anotação de lincRNAs humanos que fosse o mais completo possível. Como o importante papel de regulação desempenhado pelos lincRNAs por todo o genoma tem feito com que sejam associados ao desenvolvimento de certas doenças, e por isso, que estejam a ser alvo de intensos e meticulosos estudos, algumas das bases de dados começaram a catalogá-los o que levou a que, rapidamente emergissem inúmeras bases de dados publicamente acessíveis e exclusivamente dedicadas à anotação de genes não-codificantes. As bases de dados oferecem uma excelente ferramenta na investigação científica, contudo, como não são criadas com os mesmos propósitos nem têm a mesma anotação, também se podem tornar num grande obstáculo à obtenção de conhecimento. Assim, procurou-se as maiores e mais especializadas bases de dados de lincRNAs (Ensembl, Genivcode, Vega, Lncipedia, UCSC, Broad Institute, Noncode e dados publicados por Zhipeng e Adelson) e convergiram-se todas numa só, obtendo-se um total de 38 402 lincRNAs. De seguida, para que se pudesse descobrir novos lincRNAs e completar o catálogo obtido anteriormente, o transcriptoma de CCR de células claras foi reconstruído, tendo se descoberto 21 661 potenciais novos lincRNAs. Depois de adicionados ao catálogo de anotação anterior, obteve-se um número surpreendentemente elevado de lincRNAs que é concordante com o que tem sido descrito relativamente à porção do genoma que não codifica proteínas. A análise diferencial entre as amostras cujo SETD2 tem uma expressão normal versus as que têm uma mutação do SETD2 permitiu a identificação de 505 genes diferencialmente expressos, entre os quais 292 genes codificadores de proteínas e 213 lincRNAs. Durante esta análise, foi possível observar que a sub-expressão de lincRNAs nas linhas celulares com o SETD2 mutado foi incrivelmente elevada, quando comparada com a sub-expressão de genes codificadores de proteínas, sugerindo que a desregulação do SETD2 tem um maior impacto no perfil de expressão dos lincRNAs. Apesar de enumeras evidências sugerirem que a maioria dos lincRNAs são funcionais, a verdade é que apenas uma pequena quantidade tem atualmente a sua função anotada. Sabendo que alguns lincRNAs são co-expressos com os genes que codificam proteínas que estão localizados nas suas proximidades, pode-se inferir a função dos primeiros através da função dos últimos. No entanto, alguns lincRNAs podem também influenciar a expressão de genes codificadores de proteínas em regiões cromossómicas bastante distantes da sua própria localização. Assim, com a intenção de obter conjuntos de genes codificadores de proteínas e lincRNAs cujos níveis de expressão estivessem correlacionados entre si, e correlacionados com a expressão de SETD2, mas também com o objetivo de prever possíveis funções para alguns lincRNAs, procedeu-se à construção de uma rede de correlação génica. Esta análise permitiu distinguir três módulos de genes altamente correlacionados entre si, e entre os níveis de expressão do SETD2. De uma forma geral, constatou-se que as funções dos genes pertencentes a um mesmo módulo tendiam a ser bastante semelhantes, tendo-se desta forma feito uma previsão funcional para os lincRNAs que ainda não estão descritos ou caracterizados. No final, este trabalho permitiu dar os primeiros passos na compreensão do perfil de expressão dos lincRNAs no CCR de células claras, para que futuramente se possam encontrar os biomarcadores genéticos que indicam a suscetibilidade de certos indivíduos para desenvolverem este carcinoma, ou ainda para que se encontrem os genes-alvo numa possível terapia génica direcionada.Renal cell carcinoma (RCC) is the most prevalent kidney cancer in adults, and it comprises approximately 3% of adult malignancies. On a microscopic level, there are several histologic subtypes of RCC, the most common being a clear cell (ccRCC) which owes its name to the low lipid content of its cytoplasm. This cancer is known to be particularly resistant to chemotherapy and radiotherapy, and therefore recent molecular findings have opened new treatment strategies like targeted therapy. Although many studies have been performed on ccRCC, the transcriptional profile of this cancer is still poorly characterized. This lack of information has been delaying the genetic approaches for tumor classification, prognostic makers of response to treatment, and individual susceptibility of developing ccRCC when expose to risk factors. The ccRCC is genetically characterized by recurrent loss of the short arm of chromosome 3 (3p), leading to an inactivation of the tumor-suppressor genes placed in this region. The Von Hippel-Lindau (VHL) gene, which is located at 3p25, has been often identified as a tumor-suppressor gene involved in ccRCC, because it is inactivated in the majority of the cases. However, since mutations in VHL gene alone merely induce senescence, it was proposed that VHL’s role in tumor development is necessary but not sufficient in ccRCC development. This fact suggests the existence of an additional tumor-suppressor gene nearby, which is also consistent with the frequent copy number loss of 3p21 observed in ccRCC patients. This hypothesis was supported by later studies on the matter, and the histone methyltransferase SET domain-containing 2 (SETD2) was identified as a putative new tumor-suppressor gene involved in ccRCC. While in the last decades the scientific research has gravitated around proteins and their functions, the advent of next generation sequencing (NGS) technologies has allowed the acknowledgment that the number of distinct RNA transcripts is much larger than the number of proteins produced in a cell. It became apparent that the proportion of proteincoding regions in the genome was much smaller than the noncoding ones. Despite being called noncoding regions (since they do not codify proteins), they are far from being devoid of any function. In fact, it is now known that the intergenic regions contain important regulatory elements such as promoters and enhancers. These regions not only provide a substrate for DNA-binding proteins to control the gene expression and the chromatin conformation, but also enclose a huge number of genes which are transcribed into several ncRNAs. Among them, there are long intergenic noncoding RNAs (lincRNAs), which have been increasingly associated with important regulatory roles in the cell. As a matter of fact, many studies have demonstrated that some conditions or diseases, like cancer, have an impressively high disruption of lincRNAs expression profile. The important regulatory role played by lincRNAs across the genome has led them to be associated with diseases, and therefore subjected to a thorough and intensive study. Accordingly, some of the existing databases started to catalogue them, but rapidly a vast number of publicly available databases exclusively dedicated to ncRNAs or lncRNAs emerged. The databases offer an excellent tool for research, but since they are neither concurrent nor have the same notation, they could also become a great obstacle to progress. Thus, in order to assess the impact of SETD2 depletion in ccRCC transcriptome, it was first necessary to obtain a comprehensive catalogue of human lincRNAs using the largest available databases. After merging the most complete and specialized databases (Ensembl, Gencode, Vega, Lncipedia, UCSC, Broad Institute, Noncode and Zhipeng and Adelson’s published catalogue), 38 402 annotated lincRNAs were obtained. Then, with the aim of extending the lincRNAs annotated catalogue and discover new lincRNAs, the ccRCC transcriptome was reassembled which resulted in the identification of 21 661 potentially new lincRNAs. Once added to the previous catalogue, a surprisingly high number of lincRNAs was obtained, which is consistent with what has been described in the literature regarding the proportion of noncoding regions in the genome relative to the coding ones. The differential analysis of the SETD2 wild-type versus mutated cell lines allowed the identification of 505 differentially expressed genes, comprising 292 protein-coding and 213 lincRNAs genes. During this analysis, it was possible to observe that the downregulation of lincRNAs in the SETD2 mutated cell lines was remarkably high when compared with the downregulation of protein-coding genes in the same cells, which suggests that the impact of SETD2 depletion is higher in the non-coding transcriptome profile. Despite accumulating evidence suggesting that the majority of lincRNAs are likely to be functional, currently only a relatively small proportion is functionally annotated. Knowing that some lincRNAs are co-expressed with their neighbouring protein-coding genes, one can infer the function of the former through the function of the latter. However, some lincRNAs can also regulate the expression of protein-coding genes in distant chromosomic regions. Thus, with the intention of (1) obtaining modules of protein-coding genes and lincRNAs whose expression levels were not only correlated between them, but also correlated with the expression levels of SETD2, and (2) predict possible functions for some lincRNAs, a weighted gene correlation network analysis was performed. This analysis allowed to distinguish three highly correlated modules of genes, in which it was possible to assess that the functions enriched within each module tended to be quite similar or associated with the same pathways. This enabled to assign a potential function in the lincRNAs that are not already described or characterized. In the end, this work allowed to take the first steps in understanding the transcriptome profile in ccRCC, and especially get a better awareness of the potential of the noncoding transcriptome, so that further studies can identify the genetic biomarkers that determine the susceptibility of certain individuals to develop this renal carcinoma, as well as discover the best genes to be used in a gene targeted strategy.Grosso, Ana Rita Fialho, 1979-Sousa, Lisete Maria Ribeiro de, 1972-Repositório da Universidade de LisboaTavares, Joana Patrícia Moreira2018-10-24T00:30:22Z201520152015-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/20663TID:201373980enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:06:18Zoai:repositorio.ul.pt:10451/20663Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:38:37.147159Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv LINCRNAS' profile in setd2 downregulated cells
title LINCRNAS' profile in setd2 downregulated cells
spellingShingle LINCRNAS' profile in setd2 downregulated cells
Tavares, Joana Patrícia Moreira
lincRNA
ccRCC
RNA-seq
Perfil de expressão génica
Análise génica de expressão diferencial
Rede de correlação génica
Teses de mestrado - 2015
Departamento de Informática
title_short LINCRNAS' profile in setd2 downregulated cells
title_full LINCRNAS' profile in setd2 downregulated cells
title_fullStr LINCRNAS' profile in setd2 downregulated cells
title_full_unstemmed LINCRNAS' profile in setd2 downregulated cells
title_sort LINCRNAS' profile in setd2 downregulated cells
author Tavares, Joana Patrícia Moreira
author_facet Tavares, Joana Patrícia Moreira
author_role author
dc.contributor.none.fl_str_mv Grosso, Ana Rita Fialho, 1979-
Sousa, Lisete Maria Ribeiro de, 1972-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Tavares, Joana Patrícia Moreira
dc.subject.por.fl_str_mv lincRNA
ccRCC
RNA-seq
Perfil de expressão génica
Análise génica de expressão diferencial
Rede de correlação génica
Teses de mestrado - 2015
Departamento de Informática
topic lincRNA
ccRCC
RNA-seq
Perfil de expressão génica
Análise génica de expressão diferencial
Rede de correlação génica
Teses de mestrado - 2015
Departamento de Informática
description Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015
publishDate 2015
dc.date.none.fl_str_mv 2015
2015
2015-01-01T00:00:00Z
2018-10-24T00:30:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/20663
TID:201373980
url http://hdl.handle.net/10451/20663
identifier_str_mv TID:201373980
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134285727268864