Development and implementation of a repository for transcriptional regulatory information
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/79880 |
Resumo: | Dissertação de mestrado em Bioinformatics |
id |
RCAP_d0595f487fde4fb4af0b8e161ddafe50 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/79880 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Development and implementation of a repository for transcriptional regulatory informationTranscriptional regulatory networksGene regulationRepository developmentGraph databasesData warehousingRedes regulatórias de transcriçãoRegulação génicaDesenvolvimento de um repositórioNeo4jEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado em BioinformaticsThe development of an integrated framework to infer genome-scale regulatory networks requires comparative genomics or experimental data. The former requires the compilation of transcriptional regulatory data, as the results of predictions may depend on the quantity and quality of template data. The automatic inference of gene regulatory networks has multiple applications in systems biology, such as the integration of regulatory data in Genome-Scale Metabolic (GSM) models to improve the accuracy of phenotypic predictions. In this work, we have implemented a state-of-the-art repository of prokaryotic Transcriptional Regulatory Network (TRN)s and several tools to analyse and handle the reg ulatory information. Regulatory networks are a set of highly interconnected entities, therefore a graph database management system was used to store the retrieved data. Neo4j was the chosen framework due to its efficiency, abundant documentation and compatibility with multiple programming languages, such as Python and Java. The repository implementation was performed by retrieving regulatory data from five online databases and five studies of TRNs on prokaryotic organisms. Resources of genomics and proteomics data, such as Universal Protein Resource (UniProt) and National Center for Biotechnology Information (NCBI) were also used to complete the repository. Based on the data warehousing procedures, Extract Transform Load (ETL) tools were used to assemble the main resource of regulatory information of this repository. The development of the repository also required the implementation of several subsystems for multiple purposes, such as data extraction, transformation, loading, request and visualization. The unification of all extracted data resulted in the implementation of the most extensive resource of TRNs reported for prokaryotic organisms, with regulatory data for 510 species and approximately 1500 unique regulators controlling the expression levels of over 46000 target genes. In addition, a web application was developed to provide a user-friendly graphical interface for interested parties lacking programming knowledge, available at http://bit.ly/ProTReND_DB.O desenvolvimento de uma plataforma para inferir redes regulatórias requer da-dos de genómica comparativa ou experimentais. Isto implica a compilação de dados de redes regulatórias de transcrição, visto que os resultados das inferências podem depender da quantidade e qualidade dos dados modelo. A inferência automática de redes de regulação de genes tem várias aplicações em biologia de sistemas, nomeadamente a integração de dados regulatórios em modelos metabólicos à escala genómica de forma a melhorar a precisão de previsões fenotípicas. Neste trabalho, foi implementado um repositório que reflete o estado da arte em redes regulatórias de transcrição, além de várias ferramentas para analisar e manipular os seus conteúdos. Posto isto, a escolha de sistema de gestão de bases de dados passou pela plataforma Neva./ (base de dados de grafos), devido à sua reconhecida eficiência, documentação abundante e compatibilidade com várias linguagens de programação, como Python e fava. A implementação do repositório foi possível através da extração de dados regulatórios de cinco bases de dados online, cinco estudos de redes regulatórias de transcrição em organismos procariontes e de recursos de dados de genómica e proteómica, nomeadamente, UniProt e NCBI. Baseado nas ferramentas ETL, tipicamente utilizadas em data warehousing, dividiu-se o repositório em vários sub-sistemas, direcionados para tarefas específicas como extrair, transformar e carregar dados. Adicionalmente, foram desenvolvidas ferramentas para automatizar processos de requisição e visualização de dados do repositório. A união de todos os dados extraídos, resultou na implementação da fonte de redes regulatórias de transcrição de organismos procariontes mais extensa, até então reportada, fornecendo dados regulatórios para 510 espécies e aproximadamente isoo reguladores distintos, responsáveis pelo controlo dos níveis de expressão de mais de 46000 genes. Complementarmente, foi desenvolvida uma aplicação web de forma a disponibilizar uma interface gráfica a possíveis interessados sem conhecimentos de programação. A plataforma encontra-se disponível em http://bit.ly/ProTReND_DB.This work is a result of the project 22231/01/SAICT/2016: “Biodata.pt – Infraestrutura Portuguesa de Dados Biologicos”, supported by the PORTUGAL 2020 Partnership Agreement, through the European Regional Development Fund (ERDF).Dias, OscarUniversidade do MinhoLima, Diogo Batista2019-11-132019-11-13T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79880eng203017609info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-09T01:19:55Zoai:repositorium.sdum.uminho.pt:1822/79880Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:02:00.906487Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Development and implementation of a repository for transcriptional regulatory information |
title |
Development and implementation of a repository for transcriptional regulatory information |
spellingShingle |
Development and implementation of a repository for transcriptional regulatory information Lima, Diogo Batista Transcriptional regulatory networks Gene regulation Repository development Graph databases Data warehousing Redes regulatórias de transcrição Regulação génica Desenvolvimento de um repositório Neo4j Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
title_short |
Development and implementation of a repository for transcriptional regulatory information |
title_full |
Development and implementation of a repository for transcriptional regulatory information |
title_fullStr |
Development and implementation of a repository for transcriptional regulatory information |
title_full_unstemmed |
Development and implementation of a repository for transcriptional regulatory information |
title_sort |
Development and implementation of a repository for transcriptional regulatory information |
author |
Lima, Diogo Batista |
author_facet |
Lima, Diogo Batista |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dias, Oscar Universidade do Minho |
dc.contributor.author.fl_str_mv |
Lima, Diogo Batista |
dc.subject.por.fl_str_mv |
Transcriptional regulatory networks Gene regulation Repository development Graph databases Data warehousing Redes regulatórias de transcrição Regulação génica Desenvolvimento de um repositório Neo4j Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
topic |
Transcriptional regulatory networks Gene regulation Repository development Graph databases Data warehousing Redes regulatórias de transcrição Regulação génica Desenvolvimento de um repositório Neo4j Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
description |
Dissertação de mestrado em Bioinformatics |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-11-13 2019-11-13T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/79880 |
url |
https://hdl.handle.net/1822/79880 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203017609 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132420412276736 |