Assessing pseudogene expression during neural differentiation by RNA-Seq
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/22445 |
Resumo: | Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015 |
id |
RCAP_b6122048fd277709d694bac2cf212e04 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/22445 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Assessing pseudogene expression during neural differentiation by RNA-SeqPseudogenePseudogenizaçãoRPKMDiferenciação neuronalRNA-SeqTeses de mestrado - 2015Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015Os pseudogenes são sequências genómicas que foram desprezadas ao longo do tempo, por se pensar que não passavam de réplicas ancestrais de genes codificantes de proteína. Esta visão tem sido desmistificada nos últimos anos e vários estudos têm vindo a surgir mostrando que os pseudogenes não são apenas meras cópias disfuncionais dos genes codificantes de proteína, pois também eles desempenham funções biológicas relevantes. Existem 14,285 pseudogenes anotados no genoma humano pelo projeto GENCODE (versão 22, Outubro de 2014). O número tem vindo a aumentar ao longo dos anos devido ao desenvolvimento das tecnologias de sequenciação de nova geração (next generation sequencing - NGS) e de algoritmos para identificação de novos pseudogenes. No genoma de ratinho encontram-se anotados 8,526 pseudogenes pelo projeto GENCODE (versão M5, Dezembro de 2014). A origem destas sequências que derivam de genes codificantes de proteína (genes parentais) dá-se na sua grande maioria por um de dois mecanismos de pseudogenização: duplicação genómica de um locus do gene parental (pseudogene duplicado ou não-processado); ou retrotransposição (pseudogene processado), onde um mRNA é reversamente transcrito em DNA de novo e inserido aleatoriamente no genoma. Este último é o processo pelo qual a maioria dos pseudogenes são originados, levando esta classe a ser a mais estudada. Inicialmente estas sequências podem ser operacionais, mas ao longo do tempo acumulam mutações deletérias que podem resultar na tradução de um codão stop prematuro, ou em mutações frameshift que levam a uma mudança na grelha de leitura, impedindo a expressão bem sucedida destas sequências. Existe ainda uma terceira classe de pseudogenes, os unitários, que não resultam de nenhum tipo de inserções genómicas, apenas de mutações pontuais, levando assim a que se torne um “gene vestigial”. O primeiro pseudogene foi descoberto em 1977, coincidindo com o aparecimento da primeira técnica de sequenciação. O desenvolvimento das tecnologias de NGS, bem como a redução de custo das mesmas, têm permitido que cada vez mais laboratórios em todo o mundo sequenciem as suas amostras e incorporem a sequenciação de moléculas de DNA (Deoxyribonucleic acid) ou RNA (robonucleic acid) na sua investigação. Uma destas tecnologias é a sequenciação do transcriptoma (RNA-seq) que representa uma forte alternativa ao uso de microarrays no estudo da expressão genética, sendo que para a análise destes dados são essenciais conhecimentos na área da Bioinformática e Biologia Computacional. Esta tecnologia tem permitido o estudo ao nível do transcriptoma não só de genes codificantes de proteína, como de outras sequências nucleotídicas não codificantes. Exemplos disto são os pseudogenes e ncRNAs (non-coding RNAs), permitindo assim compreender que também estes transcriptos não codificantes desempenham um papel importante em termos biológicos. Assim, a ideia de que estas sequências eram apenas zonas do genoma sem qualquer tipo de importância, sendo consideradas “lixo”, tem sido desmistificada. Os pseudogenes podem interagir com os seus genes parentais de diferentes formas: fonte de pequenos RNAs de interferência; transcriptos antisense; inibidores competitivos da tradução; RNAs endógenos competitivos; competindo pela ligação a microRNAs partilhados. Apresentam uma expressão específica de tecido para tecido, sendo que o cérebro e os testículos são os tecidos que apresentam uma maior expressão de pseudogenes. Em 2014 foi descrito o caso de um gene (OCT4A) com um padrão de regulação associado a três dos seus pseudogenes durante a diferenciação neural de células estaminais humanas. Contudo, a extensão de pseudogenes envolvidos na regulação dos padrões de expressão associados com diferenciação nunca foram abordados globalmente. Deste modo, este trabalho tem o propósito de estudar a expressão dos pseudogenes na diferenciação de células estaminais em percursores neuronais, tanto em humano como em ratinho. De modo a atingir o objetivo, foram analisados dados de transcripoma (RNASeq) de amostras obtidas ao longo da diferenciação neural em humano e ratinho. De modo a obter um catálogo completo de pseudogenes foram usadas três bases de dados (Ensembl, Yale e Noncode), perfazendo um total de 19444 pseudogenes no genoma de ratinho e 18061 no genoma de humano. Além disso foi também construída uma pipeline para descobrir novos potenciais pseudogenes, resultando num total de 130 (41 nas amostras de ratinho e 89 nas amostras de humano). Para obter os pseudogenes com expressão diferencial foram testados três métodos implementados em pacotes do R (DESeq e EdgeR), tendo-se optado por usar o pacote EdgeR para a análise final. Devido à elevada semelhança entre as sequencias do pseudogene e o respetivo gene parental, os alinhamentos contemplaram apenas reads unicamente mapeadas. Assim, foi necessário estudar a mapabilidade dos pseudogenes, percebendo a singularidade dos mesmos e dessa forma filtrar os resultados. Após esta análise foi possível identificar 513 pseudogenes (92 de ratinho e 421 de humano) a variarem ao longo da diferenciação neural. A análise funcional dos respetivos genes parentais revelou 172 pseudogenes, potencialmente interessantes para a diferenciação celular e neural. A comparação dos resultados de ambos os organismos identificou um dos novos pseudogenes de ratinho como homólogo de um pseudogene humano anotado e contendo o ortólogo gene parental (FAM205A). De modo a explorar a regulação dos genes parentais pelos seus pseudogenes, foi avaliada a correlação dos níveis de expressão para cada par de pseudogeneparental, sendo que em ambos os organismos foi encontrado um elevado número de pares de genes positivamente correlacionados. Neste estudo, foram ainda incluídos os resultados com dados de transcriptoma ao nível de célula-única (single-cell). Devido ao nível baixo de sequenciação dos dados de célula-única a percentagem de pseudogenes expressos (com contagens processadas) foi reduzida e não permitiu detetar os pseudogenes da análise de transcriptoma global. Contudo, a análise destes dados revelaram quatro pseudogenes diferencialmente expressos cujos parentais têm funções relevantes a nível da diferenciação neuronal e envolvidos nas vias de sinalização de doenças neurodegenerativas. Concluindo, o presente trabalho permitiu obter um conjunto de pseudogenes que variam ao longo da diferenciação neural e com o potencial para regularem genes parentais associados com diferenciação celular, neural ou doenças neurais. Além disso, os resultados realçam a importância da utilização de dados das tecnologias desequenciação em larga-escala na descoberta de novos transcritos.Pseudogenes are nucleotide sequences that were been neglected since they were discovered. In the last years this point of view is changing, and their functions have been studied and there are been annotated more pseudogenes than the estimated number in human genome. Pseudogenization process can occur essentially by two mechanisms: genomic duplication of a parental gene locus (duplicated pseudogene); or retrotransposition (processed pseudogene) where an mRNA is reversely transcribed and randomlyinserted in the genome. Initially these type of sequences can operate as a normal protein coding gene, but after some time and accumulation of deleterious mutations the open reading frame is modified, preventing their well-succeeded expression. RNA-Seq technology allows studying the transcriptome of all type of biologic sequences, not only protein coding genes, giving an idea of the roles performed by them and demystifying the idea that they are genomic “junk”. There are evidences of interaction with their parental genes as: source of endogenous siRNAs; antisense transcripts; competitive inhibitors of translation; competitive endogenous RNAs (ceRNAs); competing for binding to shared miRNAs. In 2014 (last year) was described that a protein coding gene (OCT4) with a regulation patern associated with three of its pseudogenes in human stem cells differentiation. To achieve our goal, were analyzed transcriptome sequencing (RNA-Seq) of neural differentiation datasets of human and mouse. Three databases were merged and a pipeline was constructed in order to find new possible pseudogenes, resulting in a total 130 in two dataset. Differential expression analysis was performed with two R packages (DESeq and EdgeR) with three different approaches, and after comparison, EdgeR pair wise analysis was selected as the best for our study. Because of the high similarity between pseudogenes and their cognates, we only allowed reads uniquely mapped. Thus, it was necessary to study mappability of pseudogenes, realizing the uniqueness of them and therefore filter results. After this analysis, was possible to identify 513 pseudogenes varying along differentiation (92 in mouse dataset and 421 in human dataset). Functional analysis allowed to identify 172 potentially interesting pseudogenes in neural differentiation. Comparison of results between organisms identified one new putative mouse pseudogene homologous of an annotated pseudogene in human, with an ortholog parental (FAM205A). To assess regulation of cognates by their pseudogenes, expression values were evaluated with Pearson’s coefficient and there were found many pairs with significant correlation. Processed data from single-cell experiments were analyzed too and there were highlighted four differentially expressed pseudogenes associated with neurodegenerative diseases and neural differentiation. Finally, this work enabled to obtain a set of pseudogenes varying along neural differentiation with regulatory potential of parental genes associated with cell and neural differentiation or neurodegenerative diseases. The results highlight the importance of high throughput sequencing in discovery of new transcripts.Grosso, Ana Rita Fialho, 1979-Couto, Francisco José MoreiraRepositório da Universidade de LisboaSimões, Luís Carlos Pereira2018-10-30T01:30:14Z201520152015-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/22445TID:201387298enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:09:39Zoai:repositorio.ul.pt:10451/22445Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:40:02.590225Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Assessing pseudogene expression during neural differentiation by RNA-Seq |
title |
Assessing pseudogene expression during neural differentiation by RNA-Seq |
spellingShingle |
Assessing pseudogene expression during neural differentiation by RNA-Seq Simões, Luís Carlos Pereira Pseudogene Pseudogenização RPKM Diferenciação neuronal RNA-Seq Teses de mestrado - 2015 Departamento de Informática |
title_short |
Assessing pseudogene expression during neural differentiation by RNA-Seq |
title_full |
Assessing pseudogene expression during neural differentiation by RNA-Seq |
title_fullStr |
Assessing pseudogene expression during neural differentiation by RNA-Seq |
title_full_unstemmed |
Assessing pseudogene expression during neural differentiation by RNA-Seq |
title_sort |
Assessing pseudogene expression during neural differentiation by RNA-Seq |
author |
Simões, Luís Carlos Pereira |
author_facet |
Simões, Luís Carlos Pereira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Grosso, Ana Rita Fialho, 1979- Couto, Francisco José Moreira Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Simões, Luís Carlos Pereira |
dc.subject.por.fl_str_mv |
Pseudogene Pseudogenização RPKM Diferenciação neuronal RNA-Seq Teses de mestrado - 2015 Departamento de Informática |
topic |
Pseudogene Pseudogenização RPKM Diferenciação neuronal RNA-Seq Teses de mestrado - 2015 Departamento de Informática |
description |
Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015 |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015 2015 2015-01-01T00:00:00Z 2018-10-30T01:30:14Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/22445 TID:201387298 |
url |
http://hdl.handle.net/10451/22445 |
identifier_str_mv |
TID:201387298 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134308406919168 |