Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas

Detalhes bibliográficos
Autor(a) principal: Wilczek, Amanda
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/82071
Resumo: Orientador: Profº Drº Roberto Tadeu Raittz
id UFPR_7af89175abbb412e0808978af101c530
oai_identifier_str oai:acervodigital.ufpr.br:1884/82071
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Huergo, Luciano Fernandes, 1978-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaRaittz, Roberto Tadeu, 1966-Wilczek, Amanda2023-04-17T17:52:30Z2023-04-17T17:52:30Z2019https://hdl.handle.net/1884/82071Orientador: Profº Drº Roberto Tadeu RaittzCoorientador: Profº Drº Luciano Fernandes HuergoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 30/05/2019Inclui referências: p. 78-92Área de concentração: BioinformáticaResumo: O nitrogênio é um elemento essencial para a manutenção da vida na Terra. Apesar disso sua maior concentração está presente na atmosfera. Algumas proteobactérias possuem o sistema Ntr, que é responsável pelo processo de regulação do metabolismo do nitrogênio. Dentro do Ntr, encontra-se o sistema NtrBC, que regula a expressão de genes envolvidos com a utilização de fontes alternativas de nitrogênio. Nele encontramos a proteína NtrC, que atua como um ativador de transcrição se ligando a sítios específicos no DNA e ativando promotores dependentes do fator sigma 54 ([sigma]54), tipicamente relacionados à transcrição de genes ligados ao metabolismo de nitrogênio. Os métodos mais comuns para detectar regiões de ligação da proteína NtrC ao DNA consiste em análises experimentais em laboratório, o que pode ser um processo caro e demorado. Para auxiliar nessa tarefa propomos uma ferramenta preditora de regiões relacionadas ao sitio de ligação da proteína NtrC a partir de um arquivo de genoma completo. A ferramenta contém uma rede neuronal artificial que passou pelo processo de treinamento supervisionado. Referente aos dados para o treinamento, utilizamos conjuntos de regiões promotoras de NtrC já confirmadas anteriormente e disponibilizadas em bancos de dados abertos para compor o conjunto de dados verdadeiros. Para compor o conjunto de regiões falsas utilizamos regiões geradas aleatoriamente, regiões retiradas de organismos modelo, e regiões provenientes de outros fatores de transcrição. A fim de selecionar qual é o melhor processo de extração de características e o modelo de rede neuronal mais adequado para solucionar o problema utilizamos janelas móvel e bases ortonormais de tamanhos variados. Esses conjuntos previamente classificados foram agrupados e embaralhados e passaram pelos modelos de classificadores MLP, SVM, RBF, DT, KNN, NB, RF (sendo os 3 primeiros utilizados no software MATLAB e o restante utilizando a biblioteca sklearn em Python 3), e por um modelo baseado em FAN com o software EasyFan. Após efetuar testes com arquivos de genoma da base de dados do NCBI e comparar com dados disponíveis em bancos de dados voltados à fatores de transcrição, a rede foi disponibilizada em uma ferramenta web para que possa ser utilizada pelo público.Abstract: Nitrogen is an essential element for the maintenance of life on Earth. However its greater concentration is present in the atmosphere. Some proteobacteria have the Ntr system, which is responsible for the regulation process of nitrogen metabolism. Within the Ntr, is the NtrBC system, which regulates the expression of genes involved with the use of alternative sources of nitrogen. In it we find the NtrC protein, which acts as a transcriptional activator binding to specific sites in the DNA and activating promoters dependent on the sigma factor 54 ([sigma]54), typically related to the transcription of genes linked to nitrogen metabolism. The most common methods for detecting binding regions of NtrC protein to DNA are experimental laboratory analyzes, which can be an expensive and time-consuming process. To assist in this task, we propose a predictor tool for regions related to the NtrC protein binding site from whole-genome. The tool contains an artificial neural network that has gone through the supervised training process. About the training data, we used sets of NtrC promoter regions previously confirmed and available in open databases to compose the true data set. To compose the set of false regions we use randomly generated regions, regions taken from model organisms, and regions from other transcription factors. In order to select which is the best feature extraction process and the most appropriate neural network model to solve the problem we use different and sliding windows and orthonormal bases. These previously classified sets were grouped and shuffled and went through the classification models MLP, SVM, RBF, DT, KNN, NB, and RF using the sklearn package (Python 3) and software MATLAB, and a FAN based model with EasyFan software. After testing NCBI database genomes and comparing it with data available in transcription factor databases, the network is available in a web tool so it could be used by the public1 recurso online : PDF.application/pdfBioinformáticaNitrogênio - FixaçãoSoftware - DesenvolvimentoCiências BiológicasIdentificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - AMANDA WILCZEK.pdfapplication/pdf2925545https://acervodigital.ufpr.br/bitstream/1884/82071/1/R%20-%20D%20-%20AMANDA%20WILCZEK.pdf0e5d408b2cec49eb38a7f29a8b0ab6a9MD51open access1884/820712023-04-17 14:52:30.94open accessoai:acervodigital.ufpr.br:1884/82071Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082023-04-17T17:52:30Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
title Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
spellingShingle Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
Wilczek, Amanda
Bioinformática
Nitrogênio - Fixação
Software - Desenvolvimento
Ciências Biológicas
title_short Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
title_full Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
title_fullStr Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
title_full_unstemmed Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
title_sort Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
author Wilczek, Amanda
author_facet Wilczek, Amanda
author_role author
dc.contributor.other.pt_BR.fl_str_mv Huergo, Luciano Fernandes, 1978-
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.advisor1.fl_str_mv Raittz, Roberto Tadeu, 1966-
dc.contributor.author.fl_str_mv Wilczek, Amanda
contributor_str_mv Raittz, Roberto Tadeu, 1966-
dc.subject.por.fl_str_mv Bioinformática
Nitrogênio - Fixação
Software - Desenvolvimento
Ciências Biológicas
topic Bioinformática
Nitrogênio - Fixação
Software - Desenvolvimento
Ciências Biológicas
description Orientador: Profº Drº Roberto Tadeu Raittz
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2023-04-17T17:52:30Z
dc.date.available.fl_str_mv 2023-04-17T17:52:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/82071
url https://hdl.handle.net/1884/82071
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/82071/1/R%20-%20D%20-%20AMANDA%20WILCZEK.pdf
bitstream.checksum.fl_str_mv 0e5d408b2cec49eb38a7f29a8b0ab6a9
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1813898863115763712