In silico analysis of miRNA promoters

Detalhes bibliográficos
Autor(a) principal: Martins, Fernando Manuel Magalhães, 1969-
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/4685
Resumo: Tese de mestrado. Biologia (Bioinformática e Biologia Computacional). Universidade de Lisboa, Faculdade de Ciências, 2011
id RCAP_6d0dd08c29ffbfc9621f5bf595dc02e5
oai_identifier_str oai:repositorio.ul.pt:10451/4685
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling In silico analysis of miRNA promotersExpressão génicamicroRNATranscrição genéticaHomo sapiensTeses de mestrado - 2011Tese de mestrado. Biologia (Bioinformática e Biologia Computacional). Universidade de Lisboa, Faculdade de Ciências, 2011Os microRNAs (miRNAs) contribuem de uma forma abundante para a fracção de RNAs não-codificantes eucariotas. Estes estão envolvidos na regulação negativa póstranscricional da expressão genética através da ligação com a região 3'-UTR dos transcritos de mRNA nascente, conjuntamente com várias outras proteínas ajudantes. Em mamíferos, manifesta-se principalmente através da inibição da síntese proteica. Actualmente, sabe-se que estas moléculas de RNA são reguladores moleculares mestre envolvidos em processos celulares que englobam a diferenciação, transdução de sinal, divisão celular e cancro. A expressão dos microRNAs parece ter uma assinatura específica para cada um dos tecidos. Ainda não está claro quais são os principais factores que controlam esta especificidade, porém vários autores têm postulado a existência de circuitos de regulação entre os factores de transcrição que controlam a expressão de miRNA e a regulação exercida pelo miRNA sobre a expressão do factor de transcrição. Recentemente, as sequências de DNA de todos os promotores de miRNA humanos foram caracterizados por imunoprecipitação da cromatina por Marson et al [1]. Começamos com estes dados e a primeira coisa que se fez foi recolher todas estas sequências, usando a versão do UCSC Genome Browser indicada no estudo anterior e tendo em conta as posições nele indicadas para cada um dos 550 promotores. Para este efeito, foi necessário escrever um pequeno programa. O presente trabalho tem como objectivo principal realizar uma caracterização in silico de todos estes promotores, estudando os factores de transcrição que possivelmente controlam a expressão de miRNAs. Procurou-se factores de transcrição que regulassem a expressão de cada um destes miRNAs e que, simultaneamente, fossem proteínas codificadoras alvo desses mesmos miRNAs. O primeiro passo na análise dos circuitos de regulação entre os microRNA e os factores de transcrição foi a predição dos locais de ligação (TFBS) destes últimos para todas as sequências de promotores de miRNA obtidas. Ou seja, dadas as sequências de promotores de cada um dos miRNAs, era necessário saber quais os factores de transcrição que a elas se poderiam ligar e regular sua transcrição dos respectivos miRNAs. Actualmente, existem vários programas disponíveis. No entanto, apesar de todos os esforços, esses algoritmos às vezes produzem muitos falsos positivos ou falsos negativos. Assim, um dos maiores problemas ainda existentes é como encontrar o software apropriado. Consequentemente, os investigadores costumam usar vários dos programas existentes. Nós usamos o TFSEARCH 1.3, MAPPER 2, Match 1,0, Patch 1.0, P-Match 1.0, PROMO 3.0.2 e o TFBind. A primeira diferença entre todos estes programas é a maneira como as sequências dos promotores lhes podem ser enviadas. O MAPPER 2, foi o único que foi capaz de processar um arquivo FASTA contendo todas as sequências de promotores. Para o TFSEARCH 1.3 foi possível descarregar o EZRetrieve. Esta é uma ferramenta gratuita que se baseia no TFSEARCH e também processou o arquivo FASTA completo. Para o TFBind concebemos uma ferramenta similar ao EZRetrieve. Este programa lê um arquivo FASTA e envia cada sequência à ferramenta TFBind que está disponível online. Em seguida, guarda os ficheiros HTML que podem ser obtidos quando se realizam as pesquisas online. Para todas as outras ferramentas, era necessário um registo prévio nos locais onde elas se encontram disponíveis e, como tal, é necessário fazer o login antes de começar a usar essas ferramentas. Por este motivo, não foi possível conceber qualquer ferramenta para realizar esta pesquisa automaticamente. A única solução foi dividir nosso arquivo FASTA em vários arquivos pequenos e submeter cada um deles a cada uma dessas ferramentas. Tendo esta quantidade enorme de dados proveniente dos sete programas, foi necessário, então, uniformizá-los e prepará-los para serem analisados, tendo sido necessário desenvolver diversos programas para o efeito. As principais questões surgidas durante este processo foram o facto de algumas das aplicações usadas não permitirem restringir os resultados a genes de Homo Sapiens e, para além disso, a identificação dos genes não ser feita de forma uniforma, em virtude de os mesmos terem diversas designações. Para o efeito, descarregamos todos os genes de Homo Sapiens existentes na base de dados GenBank do NCBI. Além dos símbolos oficiais de cada gene, esta base de dados também contém os seus sinónimos. Depois de comparar os nomes dos genes, foi possível identificar a maioria dos genes obtidos nas aplicações de TFBS. No entanto, muitos deles permanecem por classificar ou não são genes de Homo Sapiens. Hoje em dia, é evidente que os processos pós-transcricionais desempenham um papel muito mais importante na regulação da expressão génica do que o anteriormente esperado. Assim, um passo crucial para a análise de funções reguladoras dos miRNAs é a previsão de seus alvos. Actualmente, existem diversos programas e bases de dados disponíveis. Nós usamos o Diana micro-T, Miranda, miRWalk, miRTarBase e uma base de dados publicada em 2010 por Saito T e P Sætrom [44]. Por comparação com o processo de análise das bases de dados de TFBS, estas revelaram uma melhoria considerável na forma de identificação dos genes, pois algumas delas usam identificadores únicos, quer sejam do GenBank ou do sistema Ensemble. Dado que os dados dos genes extraídos do GenBank também incluem os identificadores Ensemble, esta questão da identificação dos genes nas bases de dados de targets não obrigou a tanto esforço e permitiu certamente resultados mais fiáveis. A principal questão surgida com a análise das bases de dados de targets foi o volume de dados das mesmas. Estas bases de dados contêm geralmente milhões de registos e, apesar de os formatos das mesmas serem de muito mais fácil tratamento, obrigam a que se desenvolvam ferramentas para a extracção dos dados pretendidos. Refira-se que a maior destas bases de dados por nós usadas contém cerca de 20 milhões de registos. Depois de analisar todos os dados seleccionados, encontramos 38.773 loops, cobrindo 285 diferentes factores de transcrição e 417 miRNAs distintos. Estes loops envolvem factores de transcrição que regulam a expressão de um miRNA e que, simultaneamente, são proteínas codificadoras alvo desse mesmo miRNA. No entanto, cada loop é composto por um único factor de transcrição e um único miRNA. Uma vez que um único miRNA pode regular múltiplos genes e um único gene pode ser regulado por múltiplos miRNAs, é bastante natural pensar que miRNAs e factores de transcrição possam cooperar na regulação dos genes-alvo tanto a nível transcricional como a nível pós-transcricional. Na verdade, factores de transcrição e miRNAs funcionam juntos em redes reguladoras de genes que ainda não estão completamente identificadas nem compreendidas. Consequentemente, todos os loops identificados por este estudo devem ser vistos como componentes de módulos reguladores, em vez de loops isolados. Embora isto seja verdade, também podemos analisar individualmente cada um destes loops. Tendo em mente o facto de que esta é uma análise in silico, devemos estar cientes que a grande maioria de todos os loops detectados têm uma probabilidade muito baixa de serem loops reais. Portanto, futuras investigações devem começar pela definição de critérios de fiabilidade de todos os dados obtidos. Na verdade, todos estes dados exigem futuras investigações e necessitam de validações experimentais. Assim, este trabalho permitiu reunir e catalogar loops de regulação mistos entre factores de transcrição e miRNAs, em humanos, tendo sido todos os dados processados e armazenados numa base de dados relacional. Além disso, foi desenvolvida uma plataforma web de modo a permitir futuras investigações, pois apesar de ainda não compreendermos perfeitamente o significado biológico destes circuitos, eles são provavelmente um importante mecanismo de regulação da expressão génica. Esta base de dados tem 36 tabelas e armazena mais de 2,5 milhões de registos. A interface web permite a procura de loops usando vários critérios de pesquisa e permite a análise de todos os detalhes de cada um dos loops, tais como os TFBS previstos, os targets, as pontuações associadas a cada previsão, etc.MicroRNAs (miRNAs) are an abundant class of eukaryotic non-coding RNAs. They are involved in the negative post-transcriptional regulation of gene expression. Their inhibitory action is exerted by binding to the 3’-UTR region of nascent mRNA transcripts together with several other helper proteins, and in mammals it is observed mainly as an inhibition of protein synthesis. These non-protein coding RNA molecules are master molecular regulators that have been found to be involved in cellular processes ranging from differentiation, cell division, signal transduction and cancer. MicroRNAs expression appears to have a tissue specific signature in which specific miRNAs are expressed preferentially in some tissues or organs. It remains unclear which are the main factors that control this tissue-specificity, however several authors have postulated the existence of a regulatory feedback loop between transcription factors controlling miRNA expression and the regulatory control exerted by miRNA over the transcription factor expression. Recently, the DNA sequences of all the human miRNA promoters have been characterized by chromatin-immunoprecipitation [1]. The present work has the main objective of performing an in silico characterization of all these promoters, studying the possible transcription factors controlling miRNA expression. We were looking for transcription factors regulating miRNA expression and being simultaneously the target protein-coding gene of that same miRNA. Despite the fact that we cannot yet understand the biological significance of these regulation loops, this must be an important mechanism of genes regulation. The purpose of this work was to assemble and characterize a catalogue of such mixed transcription factor/miRNA regulation loops in humans. All data was processed and stored in a relational database. Furthermore, a web platform was developed in order to enable further investigations.Enguita, Francisco J.Inácio, ÂngelaRepositório da Universidade de LisboaMartins, Fernando Manuel Magalhães, 1969-2011-12-21T15:33:21Z20112011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/pdfapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/vnd.openxmlformats-officedocument.spreadsheetml.sheetapplication/octet-streamapplication/pdfhttp://hdl.handle.net/10451/4685enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T15:45:53Zoai:repositorio.ul.pt:10451/4685Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:30:17.069336Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv In silico analysis of miRNA promoters
title In silico analysis of miRNA promoters
spellingShingle In silico analysis of miRNA promoters
Martins, Fernando Manuel Magalhães, 1969-
Expressão génica
microRNA
Transcrição genética
Homo sapiens
Teses de mestrado - 2011
title_short In silico analysis of miRNA promoters
title_full In silico analysis of miRNA promoters
title_fullStr In silico analysis of miRNA promoters
title_full_unstemmed In silico analysis of miRNA promoters
title_sort In silico analysis of miRNA promoters
author Martins, Fernando Manuel Magalhães, 1969-
author_facet Martins, Fernando Manuel Magalhães, 1969-
author_role author
dc.contributor.none.fl_str_mv Enguita, Francisco J.
Inácio, Ângela
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Martins, Fernando Manuel Magalhães, 1969-
dc.subject.por.fl_str_mv Expressão génica
microRNA
Transcrição genética
Homo sapiens
Teses de mestrado - 2011
topic Expressão génica
microRNA
Transcrição genética
Homo sapiens
Teses de mestrado - 2011
description Tese de mestrado. Biologia (Bioinformática e Biologia Computacional). Universidade de Lisboa, Faculdade de Ciências, 2011
publishDate 2011
dc.date.none.fl_str_mv 2011-12-21T15:33:21Z
2011
2011-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/4685
url http://hdl.handle.net/10451/4685
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/pdf
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
application/octet-stream
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134190198849536