Algoritmos genéticos para identicação de sítios ativos em enzimas

Detalhes bibliográficos
Autor(a) principal: Sandro Carvalho Izidoro
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUBD-A9NMYH
Resumo: Mais de 14 mil famílias de proteínas estão anotadas no Pfam (Protein Families Database), das quais cerca de 3.500 ainda têm suas funções desconhecidas. Testes experimentais são caros e demorados e, na sua ausência, estudos têm demonstrado que a função de uma proteína pode ser inferida com sucesso baseando-se similaridade da sequência ou da estrutura de uma proteína hipotética e proteínas de função conhecida. Uma maneira de predizer a função de uma proteína é através da busca dos sítios de ligação (binding sites). Sítios de ligação são regiões na superfície de uma enzima especialmente modeladas para interagir com outras moléculas. Devido à sua importância para a função da enzima, os aminoácidos do sítio ativo são mais conservados durante a evolução do que a sequência como um todo. Consequentemente, eles podem ser uma rica fonte de informações para a predição de função.Diversos métodos já foram propostos para identicar sítios ativos com base em templates. Porém, eles apresentam algumas limitações. Grande parte desses métodos não é capaz de lidar com mutações conservativas, onde enzimas com a mesma função podem variar em termos da composição dos aminoácidos do sítio ativo. Além disso, muitos deles não são capazes de identicar a cadeia ao qual um resíduo pertence ou restrigem a busca em termos de número de resíduos no template ou distâncias máximas entre o template e o sítio candidato.O principal objetivo desta tese é propor um novo método para a busca de sítios ativos basedos em templates utilizando algoritmos genéticos com base em dados estruturais. Para isso foi proposto o Genetic Active Site Search (GASS), um algoritmo genético modelado para utilizar informações estruturais de um sítio ativo template na busca de enzimas com sítios ativos similares. O método pode encontrar sítios ativos com resíduos em cadeias diferentes e é capaz de lidar com mutações conservativas, além de não impor quaisquer restrições quanto ao número de resíduos no sítio ativo e a distância entre eles. Os resultados do GASS foram comparados com os sítios catalíticos anotados no Catalytic Site Atlas (CSA) utilizando quatro diferentes conjuntos de dados. Quando comparado com outros métodos de busca de sítios catalíticos, os resultados mostraram que o GASS pôde identicar corretamente mais de 90% dos sítios pesquisados. Experimentos também foram realizados utilizando os dados de sítios de ligação dacompetição CASP 10 e, quando comparado com os 17 métodos participantes, o GASS apareceu em quarto lugar, embora não tenha sido inicialmente desenvolvido com este propósito.
id UFMG_b7c0a448e5320313190318a369aa3d60
oai_identifier_str oai:repositorio.ufmg.br:1843/BUBD-A9NMYH
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Gisele Lobo PappaRaquel Cardoso de MeloSandro Carvalho Izidoro2019-08-14T19:34:07Z2019-08-14T19:34:07Z2015-03-30http://hdl.handle.net/1843/BUBD-A9NMYHMais de 14 mil famílias de proteínas estão anotadas no Pfam (Protein Families Database), das quais cerca de 3.500 ainda têm suas funções desconhecidas. Testes experimentais são caros e demorados e, na sua ausência, estudos têm demonstrado que a função de uma proteína pode ser inferida com sucesso baseando-se similaridade da sequência ou da estrutura de uma proteína hipotética e proteínas de função conhecida. Uma maneira de predizer a função de uma proteína é através da busca dos sítios de ligação (binding sites). Sítios de ligação são regiões na superfície de uma enzima especialmente modeladas para interagir com outras moléculas. Devido à sua importância para a função da enzima, os aminoácidos do sítio ativo são mais conservados durante a evolução do que a sequência como um todo. Consequentemente, eles podem ser uma rica fonte de informações para a predição de função.Diversos métodos já foram propostos para identicar sítios ativos com base em templates. Porém, eles apresentam algumas limitações. Grande parte desses métodos não é capaz de lidar com mutações conservativas, onde enzimas com a mesma função podem variar em termos da composição dos aminoácidos do sítio ativo. Além disso, muitos deles não são capazes de identicar a cadeia ao qual um resíduo pertence ou restrigem a busca em termos de número de resíduos no template ou distâncias máximas entre o template e o sítio candidato.O principal objetivo desta tese é propor um novo método para a busca de sítios ativos basedos em templates utilizando algoritmos genéticos com base em dados estruturais. Para isso foi proposto o Genetic Active Site Search (GASS), um algoritmo genético modelado para utilizar informações estruturais de um sítio ativo template na busca de enzimas com sítios ativos similares. O método pode encontrar sítios ativos com resíduos em cadeias diferentes e é capaz de lidar com mutações conservativas, além de não impor quaisquer restrições quanto ao número de resíduos no sítio ativo e a distância entre eles. Os resultados do GASS foram comparados com os sítios catalíticos anotados no Catalytic Site Atlas (CSA) utilizando quatro diferentes conjuntos de dados. Quando comparado com outros métodos de busca de sítios catalíticos, os resultados mostraram que o GASS pôde identicar corretamente mais de 90% dos sítios pesquisados. Experimentos também foram realizados utilizando os dados de sítios de ligação dacompetição CASP 10 e, quando comparado com os 17 métodos participantes, o GASS apareceu em quarto lugar, embora não tenha sido inicialmente desenvolvido com este propósito.Currently, 25% of proteins annotated in the Protein Families Database (Pfam) have their function unknown. Experimental tests are expensive and time-consuming, and research has shown that the function of a protein can be successfully inferred based on the sequence or structure similarity of a hypothetical function and other functions of known function.A way of predicting the function of a protein is to consider its binding sites. Binding sites are regions in the surface of an enzyme designed to interact with other molecules. Due to its importance to enzyme function, the residues in the active site are more conserved than the sequence as a whole, providing important information for function prediction. Hence, active sites are a rich source of information for protein function prediction.Many methods have been previously proposed to identify active sites based on similarity. However, they do present some limitations, such as not being capable of dealing with conservative mutations (which occur when enzymes with the same function dier in terms of active site residues composition), having diculties in assigning the active siteto a chain or restricting the number of residues in the template. The main goal of this thesis is to propose a new method for searching for activesites similar using genetic algorithms based on protein structural data, namely Genetic Active Site Search (GASS). The method is based on a genetic algorithm, modeled to use structural information from an active site template in the search for enzymes with similar active sites. The method can nd active sites with residues in dierent chains and is ableto handle conservative mutations, apart from not imposing any restrictions on the number of residues in the active site and the distance between them. GASS results were compared with catalytic sites noted in the Catalytic Site Atlas (CSA) using four dierent data sets. When compared to other search methods of catalytic sites, the results showed that GASS identied correctly over 90% of the surveyed sites. Experiments were also performed using data of binding sites from the competitionCASP 10, and when compared with the 17 participants methods, GASS appeared in fourth, regardless of not being initially developed with this purpose.Universidade Federal de Minas GeraisUFMGDomínio CatalíticoBioinformáticaAlgoritmos genéticosEnzimasBIOINFORMÁTICAAlgoritmos genéticos para identicação de sítios ativos em enzimasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese_sandro.pdfapplication/pdf24781319https://repositorio.ufmg.br/bitstream/1843/BUBD-A9NMYH/1/tese_sandro.pdf5a7bfcc05ddb0cc5177de119a7bf5275MD51TEXTtese_sandro.pdf.txttese_sandro.pdf.txtExtracted texttext/plain227359https://repositorio.ufmg.br/bitstream/1843/BUBD-A9NMYH/2/tese_sandro.pdf.txt65295d1c092347d973a9361ab16a7caaMD521843/BUBD-A9NMYH2019-11-14 12:07:14.937oai:repositorio.ufmg.br:1843/BUBD-A9NMYHRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T15:07:14Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Algoritmos genéticos para identicação de sítios ativos em enzimas
title Algoritmos genéticos para identicação de sítios ativos em enzimas
spellingShingle Algoritmos genéticos para identicação de sítios ativos em enzimas
Sandro Carvalho Izidoro
BIOINFORMÁTICA
Domínio Catalítico
Bioinformática
Algoritmos genéticos
Enzimas
title_short Algoritmos genéticos para identicação de sítios ativos em enzimas
title_full Algoritmos genéticos para identicação de sítios ativos em enzimas
title_fullStr Algoritmos genéticos para identicação de sítios ativos em enzimas
title_full_unstemmed Algoritmos genéticos para identicação de sítios ativos em enzimas
title_sort Algoritmos genéticos para identicação de sítios ativos em enzimas
author Sandro Carvalho Izidoro
author_facet Sandro Carvalho Izidoro
author_role author
dc.contributor.advisor1.fl_str_mv Gisele Lobo Pappa
dc.contributor.advisor-co1.fl_str_mv Raquel Cardoso de Melo
dc.contributor.author.fl_str_mv Sandro Carvalho Izidoro
contributor_str_mv Gisele Lobo Pappa
Raquel Cardoso de Melo
dc.subject.por.fl_str_mv BIOINFORMÁTICA
topic BIOINFORMÁTICA
Domínio Catalítico
Bioinformática
Algoritmos genéticos
Enzimas
dc.subject.other.pt_BR.fl_str_mv Domínio Catalítico
Bioinformática
Algoritmos genéticos
Enzimas
description Mais de 14 mil famílias de proteínas estão anotadas no Pfam (Protein Families Database), das quais cerca de 3.500 ainda têm suas funções desconhecidas. Testes experimentais são caros e demorados e, na sua ausência, estudos têm demonstrado que a função de uma proteína pode ser inferida com sucesso baseando-se similaridade da sequência ou da estrutura de uma proteína hipotética e proteínas de função conhecida. Uma maneira de predizer a função de uma proteína é através da busca dos sítios de ligação (binding sites). Sítios de ligação são regiões na superfície de uma enzima especialmente modeladas para interagir com outras moléculas. Devido à sua importância para a função da enzima, os aminoácidos do sítio ativo são mais conservados durante a evolução do que a sequência como um todo. Consequentemente, eles podem ser uma rica fonte de informações para a predição de função.Diversos métodos já foram propostos para identicar sítios ativos com base em templates. Porém, eles apresentam algumas limitações. Grande parte desses métodos não é capaz de lidar com mutações conservativas, onde enzimas com a mesma função podem variar em termos da composição dos aminoácidos do sítio ativo. Além disso, muitos deles não são capazes de identicar a cadeia ao qual um resíduo pertence ou restrigem a busca em termos de número de resíduos no template ou distâncias máximas entre o template e o sítio candidato.O principal objetivo desta tese é propor um novo método para a busca de sítios ativos basedos em templates utilizando algoritmos genéticos com base em dados estruturais. Para isso foi proposto o Genetic Active Site Search (GASS), um algoritmo genético modelado para utilizar informações estruturais de um sítio ativo template na busca de enzimas com sítios ativos similares. O método pode encontrar sítios ativos com resíduos em cadeias diferentes e é capaz de lidar com mutações conservativas, além de não impor quaisquer restrições quanto ao número de resíduos no sítio ativo e a distância entre eles. Os resultados do GASS foram comparados com os sítios catalíticos anotados no Catalytic Site Atlas (CSA) utilizando quatro diferentes conjuntos de dados. Quando comparado com outros métodos de busca de sítios catalíticos, os resultados mostraram que o GASS pôde identicar corretamente mais de 90% dos sítios pesquisados. Experimentos também foram realizados utilizando os dados de sítios de ligação dacompetição CASP 10 e, quando comparado com os 17 métodos participantes, o GASS apareceu em quarto lugar, embora não tenha sido inicialmente desenvolvido com este propósito.
publishDate 2015
dc.date.issued.fl_str_mv 2015-03-30
dc.date.accessioned.fl_str_mv 2019-08-14T19:34:07Z
dc.date.available.fl_str_mv 2019-08-14T19:34:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUBD-A9NMYH
url http://hdl.handle.net/1843/BUBD-A9NMYH
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUBD-A9NMYH/1/tese_sandro.pdf
https://repositorio.ufmg.br/bitstream/1843/BUBD-A9NMYH/2/tese_sandro.pdf.txt
bitstream.checksum.fl_str_mv 5a7bfcc05ddb0cc5177de119a7bf5275
65295d1c092347d973a9361ab16a7caa
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589389647872000