Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | https://hdl.handle.net/1884/82071 |
Resumo: | Orientador: Profº Drº Roberto Tadeu Raittz |
id |
UFPR_7af89175abbb412e0808978af101c530 |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/82071 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Huergo, Luciano Fernandes, 1978-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaRaittz, Roberto Tadeu, 1966-Wilczek, Amanda2023-04-17T17:52:30Z2023-04-17T17:52:30Z2019https://hdl.handle.net/1884/82071Orientador: Profº Drº Roberto Tadeu RaittzCoorientador: Profº Drº Luciano Fernandes HuergoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 30/05/2019Inclui referências: p. 78-92Área de concentração: BioinformáticaResumo: O nitrogênio é um elemento essencial para a manutenção da vida na Terra. Apesar disso sua maior concentração está presente na atmosfera. Algumas proteobactérias possuem o sistema Ntr, que é responsável pelo processo de regulação do metabolismo do nitrogênio. Dentro do Ntr, encontra-se o sistema NtrBC, que regula a expressão de genes envolvidos com a utilização de fontes alternativas de nitrogênio. Nele encontramos a proteína NtrC, que atua como um ativador de transcrição se ligando a sítios específicos no DNA e ativando promotores dependentes do fator sigma 54 ([sigma]54), tipicamente relacionados à transcrição de genes ligados ao metabolismo de nitrogênio. Os métodos mais comuns para detectar regiões de ligação da proteína NtrC ao DNA consiste em análises experimentais em laboratório, o que pode ser um processo caro e demorado. Para auxiliar nessa tarefa propomos uma ferramenta preditora de regiões relacionadas ao sitio de ligação da proteína NtrC a partir de um arquivo de genoma completo. A ferramenta contém uma rede neuronal artificial que passou pelo processo de treinamento supervisionado. Referente aos dados para o treinamento, utilizamos conjuntos de regiões promotoras de NtrC já confirmadas anteriormente e disponibilizadas em bancos de dados abertos para compor o conjunto de dados verdadeiros. Para compor o conjunto de regiões falsas utilizamos regiões geradas aleatoriamente, regiões retiradas de organismos modelo, e regiões provenientes de outros fatores de transcrição. A fim de selecionar qual é o melhor processo de extração de características e o modelo de rede neuronal mais adequado para solucionar o problema utilizamos janelas móvel e bases ortonormais de tamanhos variados. Esses conjuntos previamente classificados foram agrupados e embaralhados e passaram pelos modelos de classificadores MLP, SVM, RBF, DT, KNN, NB, RF (sendo os 3 primeiros utilizados no software MATLAB e o restante utilizando a biblioteca sklearn em Python 3), e por um modelo baseado em FAN com o software EasyFan. Após efetuar testes com arquivos de genoma da base de dados do NCBI e comparar com dados disponíveis em bancos de dados voltados à fatores de transcrição, a rede foi disponibilizada em uma ferramenta web para que possa ser utilizada pelo público.Abstract: Nitrogen is an essential element for the maintenance of life on Earth. However its greater concentration is present in the atmosphere. Some proteobacteria have the Ntr system, which is responsible for the regulation process of nitrogen metabolism. Within the Ntr, is the NtrBC system, which regulates the expression of genes involved with the use of alternative sources of nitrogen. In it we find the NtrC protein, which acts as a transcriptional activator binding to specific sites in the DNA and activating promoters dependent on the sigma factor 54 ([sigma]54), typically related to the transcription of genes linked to nitrogen metabolism. The most common methods for detecting binding regions of NtrC protein to DNA are experimental laboratory analyzes, which can be an expensive and time-consuming process. To assist in this task, we propose a predictor tool for regions related to the NtrC protein binding site from whole-genome. The tool contains an artificial neural network that has gone through the supervised training process. About the training data, we used sets of NtrC promoter regions previously confirmed and available in open databases to compose the true data set. To compose the set of false regions we use randomly generated regions, regions taken from model organisms, and regions from other transcription factors. In order to select which is the best feature extraction process and the most appropriate neural network model to solve the problem we use different and sliding windows and orthonormal bases. These previously classified sets were grouped and shuffled and went through the classification models MLP, SVM, RBF, DT, KNN, NB, and RF using the sklearn package (Python 3) and software MATLAB, and a FAN based model with EasyFan software. After testing NCBI database genomes and comparing it with data available in transcription factor databases, the network is available in a web tool so it could be used by the public1 recurso online : PDF.application/pdfBioinformáticaNitrogênio - FixaçãoSoftware - DesenvolvimentoCiências BiológicasIdentificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - AMANDA WILCZEK.pdfapplication/pdf2925545https://acervodigital.ufpr.br/bitstream/1884/82071/1/R%20-%20D%20-%20AMANDA%20WILCZEK.pdf0e5d408b2cec49eb38a7f29a8b0ab6a9MD51open access1884/820712023-04-17 14:52:30.94open accessoai:acervodigital.ufpr.br:1884/82071Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082023-04-17T17:52:30Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas |
title |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas |
spellingShingle |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas Wilczek, Amanda Bioinformática Nitrogênio - Fixação Software - Desenvolvimento Ciências Biológicas |
title_short |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas |
title_full |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas |
title_fullStr |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas |
title_full_unstemmed |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas |
title_sort |
Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas |
author |
Wilczek, Amanda |
author_facet |
Wilczek, Amanda |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Huergo, Luciano Fernandes, 1978- Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática |
dc.contributor.advisor1.fl_str_mv |
Raittz, Roberto Tadeu, 1966- |
dc.contributor.author.fl_str_mv |
Wilczek, Amanda |
contributor_str_mv |
Raittz, Roberto Tadeu, 1966- |
dc.subject.por.fl_str_mv |
Bioinformática Nitrogênio - Fixação Software - Desenvolvimento Ciências Biológicas |
topic |
Bioinformática Nitrogênio - Fixação Software - Desenvolvimento Ciências Biológicas |
description |
Orientador: Profº Drº Roberto Tadeu Raittz |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019 |
dc.date.accessioned.fl_str_mv |
2023-04-17T17:52:30Z |
dc.date.available.fl_str_mv |
2023-04-17T17:52:30Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/82071 |
url |
https://hdl.handle.net/1884/82071 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
1 recurso online : PDF. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/82071/1/R%20-%20D%20-%20AMANDA%20WILCZEK.pdf |
bitstream.checksum.fl_str_mv |
0e5d408b2cec49eb38a7f29a8b0ab6a9 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1813898863115763712 |