Assessing pseudogene expression during neural differentiation by RNA-Seq

Detalhes bibliográficos
Autor(a) principal: Simões, Luís Carlos Pereira
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/22445
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015
id RCAP_b6122048fd277709d694bac2cf212e04
oai_identifier_str oai:repositorio.ul.pt:10451/22445
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Assessing pseudogene expression during neural differentiation by RNA-SeqPseudogenePseudogenizaçãoRPKMDiferenciação neuronalRNA-SeqTeses de mestrado - 2015Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015Os pseudogenes são sequências genómicas que foram desprezadas ao longo do tempo, por se pensar que não passavam de réplicas ancestrais de genes codificantes de proteína. Esta visão tem sido desmistificada nos últimos anos e vários estudos têm vindo a surgir mostrando que os pseudogenes não são apenas meras cópias disfuncionais dos genes codificantes de proteína, pois também eles desempenham funções biológicas relevantes. Existem 14,285 pseudogenes anotados no genoma humano pelo projeto GENCODE (versão 22, Outubro de 2014). O número tem vindo a aumentar ao longo dos anos devido ao desenvolvimento das tecnologias de sequenciação de nova geração (next generation sequencing - NGS) e de algoritmos para identificação de novos pseudogenes. No genoma de ratinho encontram-se anotados 8,526 pseudogenes pelo projeto GENCODE (versão M5, Dezembro de 2014). A origem destas sequências que derivam de genes codificantes de proteína (genes parentais) dá-se na sua grande maioria por um de dois mecanismos de pseudogenização: duplicação genómica de um locus do gene parental (pseudogene duplicado ou não-processado); ou retrotransposição (pseudogene processado), onde um mRNA é reversamente transcrito em DNA de novo e inserido aleatoriamente no genoma. Este último é o processo pelo qual a maioria dos pseudogenes são originados, levando esta classe a ser a mais estudada. Inicialmente estas sequências podem ser operacionais, mas ao longo do tempo acumulam mutações deletérias que podem resultar na tradução de um codão stop prematuro, ou em mutações frameshift que levam a uma mudança na grelha de leitura, impedindo a expressão bem sucedida destas sequências. Existe ainda uma terceira classe de pseudogenes, os unitários, que não resultam de nenhum tipo de inserções genómicas, apenas de mutações pontuais, levando assim a que se torne um “gene vestigial”. O primeiro pseudogene foi descoberto em 1977, coincidindo com o aparecimento da primeira técnica de sequenciação. O desenvolvimento das tecnologias de NGS, bem como a redução de custo das mesmas, têm permitido que cada vez mais laboratórios em todo o mundo sequenciem as suas amostras e incorporem a sequenciação de moléculas de DNA (Deoxyribonucleic acid) ou RNA (robonucleic acid) na sua investigação. Uma destas tecnologias é a sequenciação do transcriptoma (RNA-seq) que representa uma forte alternativa ao uso de microarrays no estudo da expressão genética, sendo que para a análise destes dados são essenciais conhecimentos na área da Bioinformática e Biologia Computacional. Esta tecnologia tem permitido o estudo ao nível do transcriptoma não só de genes codificantes de proteína, como de outras sequências nucleotídicas não codificantes. Exemplos disto são os pseudogenes e ncRNAs (non-coding RNAs), permitindo assim compreender que também estes transcriptos não codificantes desempenham um papel importante em termos biológicos. Assim, a ideia de que estas sequências eram apenas zonas do genoma sem qualquer tipo de importância, sendo consideradas “lixo”, tem sido desmistificada. Os pseudogenes podem interagir com os seus genes parentais de diferentes formas: fonte de pequenos RNAs de interferência; transcriptos antisense; inibidores competitivos da tradução; RNAs endógenos competitivos; competindo pela ligação a microRNAs partilhados. Apresentam uma expressão específica de tecido para tecido, sendo que o cérebro e os testículos são os tecidos que apresentam uma maior expressão de pseudogenes. Em 2014 foi descrito o caso de um gene (OCT4A) com um padrão de regulação associado a três dos seus pseudogenes durante a diferenciação neural de células estaminais humanas. Contudo, a extensão de pseudogenes envolvidos na regulação dos padrões de expressão associados com diferenciação nunca foram abordados globalmente. Deste modo, este trabalho tem o propósito de estudar a expressão dos pseudogenes na diferenciação de células estaminais em percursores neuronais, tanto em humano como em ratinho. De modo a atingir o objetivo, foram analisados dados de transcripoma (RNASeq) de amostras obtidas ao longo da diferenciação neural em humano e ratinho. De modo a obter um catálogo completo de pseudogenes foram usadas três bases de dados (Ensembl, Yale e Noncode), perfazendo um total de 19444 pseudogenes no genoma de ratinho e 18061 no genoma de humano. Além disso foi também construída uma pipeline para descobrir novos potenciais pseudogenes, resultando num total de 130 (41 nas amostras de ratinho e 89 nas amostras de humano). Para obter os pseudogenes com expressão diferencial foram testados três métodos implementados em pacotes do R (DESeq e EdgeR), tendo-se optado por usar o pacote EdgeR para a análise final. Devido à elevada semelhança entre as sequencias do pseudogene e o respetivo gene parental, os alinhamentos contemplaram apenas reads unicamente mapeadas. Assim, foi necessário estudar a mapabilidade dos pseudogenes, percebendo a singularidade dos mesmos e dessa forma filtrar os resultados. Após esta análise foi possível identificar 513 pseudogenes (92 de ratinho e 421 de humano) a variarem ao longo da diferenciação neural. A análise funcional dos respetivos genes parentais revelou 172 pseudogenes, potencialmente interessantes para a diferenciação celular e neural. A comparação dos resultados de ambos os organismos identificou um dos novos pseudogenes de ratinho como homólogo de um pseudogene humano anotado e contendo o ortólogo gene parental (FAM205A). De modo a explorar a regulação dos genes parentais pelos seus pseudogenes, foi avaliada a correlação dos níveis de expressão para cada par de pseudogeneparental, sendo que em ambos os organismos foi encontrado um elevado número de pares de genes positivamente correlacionados. Neste estudo, foram ainda incluídos os resultados com dados de transcriptoma ao nível de célula-única (single-cell). Devido ao nível baixo de sequenciação dos dados de célula-única a percentagem de pseudogenes expressos (com contagens processadas) foi reduzida e não permitiu detetar os pseudogenes da análise de transcriptoma global. Contudo, a análise destes dados revelaram quatro pseudogenes diferencialmente expressos cujos parentais têm funções relevantes a nível da diferenciação neuronal e envolvidos nas vias de sinalização de doenças neurodegenerativas. Concluindo, o presente trabalho permitiu obter um conjunto de pseudogenes que variam ao longo da diferenciação neural e com o potencial para regularem genes parentais associados com diferenciação celular, neural ou doenças neurais. Além disso, os resultados realçam a importância da utilização de dados das tecnologias desequenciação em larga-escala na descoberta de novos transcritos.Pseudogenes are nucleotide sequences that were been neglected since they were discovered. In the last years this point of view is changing, and their functions have been studied and there are been annotated more pseudogenes than the estimated number in human genome. Pseudogenization process can occur essentially by two mechanisms: genomic duplication of a parental gene locus (duplicated pseudogene); or retrotransposition (processed pseudogene) where an mRNA is reversely transcribed and randomlyinserted in the genome. Initially these type of sequences can operate as a normal protein coding gene, but after some time and accumulation of deleterious mutations the open reading frame is modified, preventing their well-succeeded expression. RNA-Seq technology allows studying the transcriptome of all type of biologic sequences, not only protein coding genes, giving an idea of the roles performed by them and demystifying the idea that they are genomic “junk”. There are evidences of interaction with their parental genes as: source of endogenous siRNAs; antisense transcripts; competitive inhibitors of translation; competitive endogenous RNAs (ceRNAs); competing for binding to shared miRNAs. In 2014 (last year) was described that a protein coding gene (OCT4) with a regulation patern associated with three of its pseudogenes in human stem cells differentiation. To achieve our goal, were analyzed transcriptome sequencing (RNA-Seq) of neural differentiation datasets of human and mouse. Three databases were merged and a pipeline was constructed in order to find new possible pseudogenes, resulting in a total 130 in two dataset. Differential expression analysis was performed with two R packages (DESeq and EdgeR) with three different approaches, and after comparison, EdgeR pair wise analysis was selected as the best for our study. Because of the high similarity between pseudogenes and their cognates, we only allowed reads uniquely mapped. Thus, it was necessary to study mappability of pseudogenes, realizing the uniqueness of them and therefore filter results. After this analysis, was possible to identify 513 pseudogenes varying along differentiation (92 in mouse dataset and 421 in human dataset). Functional analysis allowed to identify 172 potentially interesting pseudogenes in neural differentiation. Comparison of results between organisms identified one new putative mouse pseudogene homologous of an annotated pseudogene in human, with an ortholog parental (FAM205A). To assess regulation of cognates by their pseudogenes, expression values were evaluated with Pearson’s coefficient and there were found many pairs with significant correlation. Processed data from single-cell experiments were analyzed too and there were highlighted four differentially expressed pseudogenes associated with neurodegenerative diseases and neural differentiation. Finally, this work enabled to obtain a set of pseudogenes varying along neural differentiation with regulatory potential of parental genes associated with cell and neural differentiation or neurodegenerative diseases. The results highlight the importance of high throughput sequencing in discovery of new transcripts.Grosso, Ana Rita Fialho, 1979-Couto, Francisco José MoreiraRepositório da Universidade de LisboaSimões, Luís Carlos Pereira2018-10-30T01:30:14Z201520152015-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/22445TID:201387298enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:09:39Zoai:repositorio.ul.pt:10451/22445Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:40:02.590225Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Assessing pseudogene expression during neural differentiation by RNA-Seq
title Assessing pseudogene expression during neural differentiation by RNA-Seq
spellingShingle Assessing pseudogene expression during neural differentiation by RNA-Seq
Simões, Luís Carlos Pereira
Pseudogene
Pseudogenização
RPKM
Diferenciação neuronal
RNA-Seq
Teses de mestrado - 2015
Departamento de Informática
title_short Assessing pseudogene expression during neural differentiation by RNA-Seq
title_full Assessing pseudogene expression during neural differentiation by RNA-Seq
title_fullStr Assessing pseudogene expression during neural differentiation by RNA-Seq
title_full_unstemmed Assessing pseudogene expression during neural differentiation by RNA-Seq
title_sort Assessing pseudogene expression during neural differentiation by RNA-Seq
author Simões, Luís Carlos Pereira
author_facet Simões, Luís Carlos Pereira
author_role author
dc.contributor.none.fl_str_mv Grosso, Ana Rita Fialho, 1979-
Couto, Francisco José Moreira
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Simões, Luís Carlos Pereira
dc.subject.por.fl_str_mv Pseudogene
Pseudogenização
RPKM
Diferenciação neuronal
RNA-Seq
Teses de mestrado - 2015
Departamento de Informática
topic Pseudogene
Pseudogenização
RPKM
Diferenciação neuronal
RNA-Seq
Teses de mestrado - 2015
Departamento de Informática
description Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2015
publishDate 2015
dc.date.none.fl_str_mv 2015
2015
2015-01-01T00:00:00Z
2018-10-30T01:30:14Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/22445
TID:201387298
url http://hdl.handle.net/10451/22445
identifier_str_mv TID:201387298
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134308406919168