The role of antisense transcription on regulation of gene expression

Detalhes bibliográficos
Autor(a) principal: Luís, Rui Sérgio de Sousa
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/37701
Resumo: Tese de mestrado Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2018
id RCAP_fbc0b2e9c8910765ef8b4723ebbdcd25
oai_identifier_str oai:repositorio.ul.pt:10451/37701
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling The role of antisense transcription on regulation of gene expressionPCATTranscritos contra-sentido convergentesRegulação positivamNET-seqTeses de mestrado - 2018Domínio/Área Científica::Ciências Naturais::Ciências BiológicasTese de mestrado Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2018Uma explosão no número de transcritos que não codificam para proteínas tem sido registada nos últimos anos, muito justificada pela utilização de técnicas de alto rendimento de sequenciação. Apesar da sua abundancia, a função de muitos deles ainda permanece desconhecida. Uma das classes de RNAs não codificantes são os transcritos contra-sentido, que são transcritos na cadeia de DNA oposta a dos genes codificadores (PC) aos quais estão associados. Esta proximidade sugere uma possível função reguladora entre ambas as unidades transcricionais. E hoje sabido que um elevado numero de regiões promotoras de genes apresenta transcrição bidirecional, dando origem a transcritos divergente não codificantes de proteínas. A transcrição contra sentido convergente (NATs) é também comum, mas a sua relevância biológica permanece muito menos compreendida. Várias análises efectuadas contemplando todo o genoma indiciam que a expressão dos NATs leva a uma repressão da expressão dos genes PC sobrepostos. Contudo, recentemente foi estudado um destes pares no nosso laboratório – ZEB2 / ZEB2-NAT – o qual apresentou uma dinâmica oposta a generalidade dos pares descritos na literatura, aumentando os níveis de mRNA quando o NAT e expresso. O ZEB2-NAT (transcrito contrasentido) e transcrito a partir do primeiro intrão do gene ZEB2 (gene codificador para proteínas), terminado a montante do início de transcrição deste. Outros pares, como VIM / VIM-AS1 e SPHK1 / LncRNA Khps1 apresentam os seus elementos contra-sentido a serem transcritos igualmente a partir do primeiro intrão, demonstrando uma correlação positiva face a sua expressão, semelhante ao par estudado no nosso laboratório. Estas evidências levaram-me a perguntar quantos pares havia no genoma humano numa disposição semelhante, e se a sua expressão também aumentaria os níveis dos PC sobrepostos. Para responder a esta questão, baseado nas anotações Ensembl, selecionei pares expressos com uma disposição semelhante aos referidos anteriormente, utilizando RNA-seq da fracção da cromatina, em células HeLa. Nesta identificação foram usados limites de 2 e 1 TPMs (Transcripts per Kilobase Milion) , acima dos quais eram considerados expressos os transcritos de PC e contra-sentido, respectivamente. Apos o trimming com o software Cutadapt e o alinhamento com o Hisat2, efectuei a quantificação de reads com o software StringTie, do qual foram obtidos os valores de TPMs. Daqui, um conjunto de 97 pares foram selecionados como tendo ambas as unidades transcricionais expressas. Seguidamente, realizei uma curação manual, na qual apliquei dados de mammalian native elongating transcript sequencing (mNET-seq), os quais revelaram o sinal da pausa da RNA polimerase junto dos promotores dos transcritos contra-sentido, permitindo aceitar ou rejeitar os pares anteriormente identificados de forma automática. Nesta técnica são sequenciados os RNAs que se encontram a ser transcritos pela RNA Polimerase II, havendo uma selecção pelo estado de fosforilação dos diferentes aminoácidos (UnPh, Y1P, S2P, Th4, S5P, S7P) do domínio Carboxi-terminal (CTD) deste complexo proteico. Era desconhecido para os transcritos contra sentido qual o estado de fosforilação que caracterizava a sua transcrição. Por este motivo analisei inicialmente todas os estados. Na analise efetuada não foram detetadas diferenças nos sinais de CTD da RNA polimerase II entre a transcrição de PCATs e PC, sendo igualmente detetado um forte sinal para os anticorpos associados aos estados Y1P e UnPh da RNA polimerase II. Estes elevados níveis foram cruciais para a identificação de PCATs expressos e não expressos. Esta estratégia de busca permitiu a identificação de 65 pares de unidades transcricionais, nos quais ambos os transcritos eram expressos. Aos elementos não codificantes destes pares atribuímos o nome de promoter-proximal convergent antisense transcripts (PCATs). Após a sua identificação realizei uma caracterização da classe PCAT. Esta análise começou por verificar os níveis de poliadenilação destes transcritos, por comparação a outras classes de genes, para os quais esta modificação pós-transcricional esta bem caracterizada. Para tal, utilizei dois conjuntos de dados de RNA-seq da fração nucleoplasmática. Num deles foram selecionados e sequenciados reads pertencentes a transcritos poliadenilados, enquanto para um segundo, reads de transcritos não poliadenilados. Os meus resultados mostram que para a classe PCAT a abundância relativa de reads pertencentes a transcritos poliadenilados é superior à de não poliadenilados. Observação similar a encontrada em genes PC, os quais sabemos que sofrem esta modificação. Os rácios entre reads poadeniladas / não-poliadeniadas são similares entre PCATs e PCs, o que dita uma poliadenilacao eficiente por parte desta nova classe em estudo. Sabendo que um elevado número de transcritos não codificadores de proteína são mantidos no núcleo e degradado neste compartimento, decidi analisar os níveis de degradação dos PCATs na fração da cromatina e do nucleoplasma pelo exossoma nuclear. Para tal, recorri a dados de RNA-seq das frações de cromatina e nucleoplasma de células HeLa com knock-down (KD) do exossoma. Por comparação a células wild type, demonstrei que os PCATs são estáveis enquanto ligados a cromatina, não apresentando diferenças entre os dois grupos. Quando analisados os dados de nucleoplasma foi possível concluir que a abundância dos PCATs quando feito KD do exossoma nuclear era superior. Esta observação indica que este complexo enzimático tem um efeito de degradação sobre a classe em estudo na fração nucleoplasmática, nao observada na cromatina. Desta forma, os dados sugerem uma possível função preferencial dos PCATs na fração da cromatina, comparativamente a do núcleo plasma. De modo a entender possíveis efeitos da presença destes transcritos na cromatina, recorrendo a dados de ChIP-seq do ENCODE project, estudei a modificação de vários aminoácidos das projeções de histones e proteínas associadas ao DNA (CTCF, EZH2, H2A.Z, H3K27ac, H3K27me3, H3K36me3, H3K4me1, H3K4me2, H3K4me3, H3K79me2, H3K9ac, H3K9me3, H4K20me1 e RNA Polymerase II) em regiões onde os PCATs são expressos. Das várias modificações estudadas, as acetilações H3K9ac e H3K27ac demonstraram estar mais presentes quando os PCATs são expressos, em comparação a regiões que não expressam estes transcritos não codificadores para proteínas. Estas marcas estão intimamente ligadas a ativação de genes e a descompactação do DNA. Desta forma, estes resultados apontam para um efeito regulador sofre a cromatina por parte dos PCATs, podendo levar a uma sobre expressão dos genes PC sobrepostos. Por fim, com dados de RNA-seq da fração da cromatina, previamente usados para a identificação dos PCATs, comparei os níveis de mRNAs para PC com PCATs expressos e não expressos. Desta análise conclui que para PC com PCATs anotados, os níveis de mRNAs são mais elevados aquando da sua expressão. Verificamos ainda que os níveis de expressão de genes sem PCATs anotados são semelhantes aos encontrados para aqueles que tem PCATs expressos, sugerindo que certas regiões no genoma necessitam da expressão destes transcritos para terem níveis de expressão semelhantes aos genes convencionais. Deste trabalho surtiu a descoberta de 65 pares de transcritos semelhantes ao par previamente estudado no nosso laboratório - ZEB2 / ZEB2-NAT. Alem disso, os meus resultados apontam que os PCATs identificados têm um poder regulador sobre os PC sobrepostos, idêntico ao ZEB2-NAT. Contudo, o estudo destes pares em laboratório vai ser essencial, não só para confirmar este poder regulador mas também para entender o seu mecanismo de ação. Os resultados obtidos neste trabalho levam-me a propor os PCATs como uma nova classe reguladora de RNA não codificantes.In recent years, an increasing number of non-coding transcripts have been discovered, powered by the introduction of high-throughput sequencing techniques. Despite their large abundance in the human genome, their function remains largely unknown. Non-coding antisense transcripts are transcribed on the opposite strand of protein-coding genes, which suggests that they have a regulatory function. Most eukaryotic promoter regions are transcribed bi-directionally, generating divergent non-coding RNAs. Antisense transcription convergent to protein-coding genes is also common, but its biological relevance remains unclear. Several genome-wide studies have indicated that the expression of these overlapping non-coding transcripts may inhibit sense genes. However, studies done in our laboratory with the transcriptional pair Zeb2 / Zeb2-NAT have shown that this pair presents an opposite behavior, in which the antisense transcript actually promotes the expression of the sense gene. The non-coding Zeb2-NAT is transcribed from the first intron of the Zeb2 (protein-coding gene) in the opposite direction and ends upstream its Transcription Start Site (TSS). Other similar cases had already been reported. For instance, VIM / VIM-AS1 and SPHK1 / LncRNA Khps1, which are also transcribed from the first intron of protein-coding genes, showing a positive correlation with their sense pair unit, as our case study pair. These results have made me question how frequently in the human genome antisense transcription starting in the first intron enhances sense gene expression. To address this question, I searched for expressed sense (protein-coding) and antisense (non-coding) transcriptional paired units with closely spaced convergent promoters, using RNA-seq datasets from chromatin fractions obtained from HeLa cells and Ensembl annotations. Next, I did a manual curation using datasets obtained by mammalian native elongating transcript sequencing (mNET-seq), which revealed consistent polymerase pausing at the TSS of these antisense transcripts. The mNET-seq data determined whether to accept or reject the identified pairs that resulted from the automated search step. A group of 65 paired transcription units were identified, with both elements (sense and antisense) being expressed. We coined the term promoter-proximal convergent antisense transcripts (PCATs) to refer to the non-coding component of these pairs. Next, I characterized PCATs. Analysis of polyadenylated and non-polyadenylated transcripts in RNAseq datasets from the nucleoplasmic fraction of HeLa cells revealed that an enriched proportion of reads in PCATs regions originates from polyadenylated transcripts, similar to the proportion found for protein-coding genes, suggesting that PCATs are efficiently polyadenylated. To study PCAT stability, I analyzed RNA-seq data from chromatin and nucleoplasm fractions isolated from HeLa cells after knockdown of the nuclear exosome. PCATs associated with chromatin were not altered when the exosome was inhibited, whereas in the nucleoplasm PCATs accumulated after exosome inhibition. Analysis of NET-seq data using antibodies that distinguish different phophorylation-isoforms of the carboxi-terminal domain of RNA polymerase II (RNAP II-CTD) revealed similar patterns for proteincoding and PCATs transcription. In particular, prominent NET-seq peaks were observed at the TSS of both protein-coding genes and PCATs corresponding to CTD unphosphorylated and Y1P isoforms. Analysis of ChIP-seq data from Encode project on HeLa cells further demonstrated higher levels of histone H3 acetylation (H3K9ac and H3K27ac) around the TSS of protein-coding genes when PCATs are expressed. This suggests that PCAT expression is associated with gene activation and chromatin relaxation. Lastly, I compared the levels of protein-coding mRNAs when the corresponding PCATs were either expressed or non-expressed and found a strong positive correlation. I found similar expression levels for protein-coding genes without a PCAT annotated and protein-coding genes with an overlapping expressed PCAT; however, in the absence of PCAT expression, the associated proteincoding genes were expressed at significantly lower levels. Taken together, these results suggest that PCATs represent a novel class of regulatory non-conding RNAs.Fonseca, M. Carmo,1959-Couto, Francisco José MoreiraRepositório da Universidade de LisboaLuís, Rui Sérgio de Sousa2022-01-07T01:30:20Z201820182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/37701TID:202230902enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:34:59Zoai:repositorio.ul.pt:10451/37701Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:51:42.681248Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv The role of antisense transcription on regulation of gene expression
title The role of antisense transcription on regulation of gene expression
spellingShingle The role of antisense transcription on regulation of gene expression
Luís, Rui Sérgio de Sousa
PCAT
Transcritos contra-sentido convergentes
Regulação positiva
mNET-seq
Teses de mestrado - 2018
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
title_short The role of antisense transcription on regulation of gene expression
title_full The role of antisense transcription on regulation of gene expression
title_fullStr The role of antisense transcription on regulation of gene expression
title_full_unstemmed The role of antisense transcription on regulation of gene expression
title_sort The role of antisense transcription on regulation of gene expression
author Luís, Rui Sérgio de Sousa
author_facet Luís, Rui Sérgio de Sousa
author_role author
dc.contributor.none.fl_str_mv Fonseca, M. Carmo,1959-
Couto, Francisco José Moreira
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Luís, Rui Sérgio de Sousa
dc.subject.por.fl_str_mv PCAT
Transcritos contra-sentido convergentes
Regulação positiva
mNET-seq
Teses de mestrado - 2018
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
topic PCAT
Transcritos contra-sentido convergentes
Regulação positiva
mNET-seq
Teses de mestrado - 2018
Domínio/Área Científica::Ciências Naturais::Ciências Biológicas
description Tese de mestrado Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2018
publishDate 2018
dc.date.none.fl_str_mv 2018
2018
2018-01-01T00:00:00Z
2022-01-07T01:30:20Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/37701
TID:202230902
url http://hdl.handle.net/10451/37701
identifier_str_mv TID:202230902
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134452935294976