Aplicação da inteligência artificial na anotação automática de genomas bacterianos

Detalhes bibliográficos
Autor(a) principal: Tibães, Juliana Helena
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/28826
Resumo: Orientador : Prof. Dr. Fábio de Oliveira Pedrosa
id UFPR_d4f509311a0ba05eada485c22c19cc5a
oai_identifier_str oai:acervodigital.ufpr.br:1884/28826
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Raittz, Roberto Tadeu, 1966-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaPedrosa, Fabio O., 1947-Tibães, Juliana Helena2024-01-03T16:48:36Z2024-01-03T16:48:36Z2012https://hdl.handle.net/1884/28826Orientador : Prof. Dr. Fábio de Oliveira PedrosaCoorientador: Prof. Dr. Roberto Tadeu RaittzDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 16/02/2012Bibliografia: fls. 81-86Resumo: O propósito da anotação é identificar sequências de DNA codificadoras de RNAs ou proteínas, esse processo é importante porque atribuem funções moleculares aos produtos gênicos. Para isso, são utilizadas ferramentas computacionais de anotação de genes que usam alinhamentos de sequência de proteína ou de DNA com o propósito de identificar genes homólogos e utilizar as informações de banco de dados de domínio público para inferir a função do gene. Embora sejam técnicas eficientes, elas podem estar sujeitas a erros quando realizada sem curadoria de um perito, em particular quando ocorre inexistência de grau de similaridade significativo de uma sequência comparada com outras sequências ou quando o banco de dados é composto por sequências parciais. Além disso, a taxa de erro de anotação pode ser significativamente aumentada quando a sequência de proteína de consulta é nova, compartilhando nenhuma semelhança com qualquer sequência disponível em bases de dados. Por esses motivos, neste trabalho desenvolveu-se uma ferramenta para verificar anotação de genes em genomas completos de bactérias, o programa Bioinformatics Tool Based on Bacterial Genomes Comparison (BOBBLES). Ele realiza a verificação da predição de genes computacionalmente propostos pelo programa Hybrid-Gene Finder (HGF). O programa BOBBLES compara a anotação de um genoma de referência completo de bactérias com os genes identificados pelo programa HGF. Este programa utiliza duas abordagens de comparação de sequências, uma utilizando pesquisas de similaridade de sequência através do programa BlastP e a outra utilizando o programa SILA. Ambas as abordagens servem para decidir se as sequências sugeridas pelo programa HGF foram anotadas corretamente. Para testar a ferramenta BOBBLES, utilizou-se um conjunto composto por 14 genomas bacterianos completos. Foram encontrados 365 novos genes e 101 genes com melhor ou similar grau alinhamento em fase de leitura diferente do genoma de referência, resultando em uma porcentagem de acerto de aproximadamente 76 % para esse conjunto de genomas, utilizando o alinhamento das sequências com o programa SILA. Já com o alinhamento realizado pelo programa Blastp obteve-se 529 novos genes. No entanto, o tempo médio estimado de execução do programa BOBBLES tendo em seu algoritmo a ferramenta SILA é de pelo menos cinco vezes mais rápido do que utilizando o programa BlastP. Essa diferença de tempo é justificada pelo fato do programa SILA realizar os alinhamentos das sequências com indexação recursiva em um banco de dados local, o banco de dados de proteínas não redundantes do NCBI, conhecido por NR.Abstract: The annotation purpose is to identify DNA sequences coding for proteins or RNAs, this process is important because it gives the molecular function for the genes products. For that, it's used Gene Annotation tools using protein or DNA sequences alignments to identify homologous genes and use information from the public database to infer gene function. Although these are efficient techniques, they can be error-prone when performed without curation of an expert, particularly in cases of similarity sequence with no degree of similarity with other sequences that may be relevant or when the database is composed by partial sequences. In addition, annotation error rate can be significantly increased when it's a new query protein sequence, sharing no similarity with any available sequence in databases. Therefore, this work has developed a tool to verify genes annotation in complete bacterial genomes, the Bioinformatics Tool Based on Bacterial Genomes Comparison program (BOBBLES). It realizes the computationally gene prediction performed by Hybrid-Gene Finder (HGF). The BOBBLES compares a previous complete bacterial genome annotation with the genes identified by HGF program. This program uses two sequence comparison approaches, the first one using the BlastP program, and another approach using the SILA program, to decide whether they were recorded correctly. The BOBBLES was tested using a set composed of 14 complete bacterial genomes. These tests obtained 365 new genes and 101 genes with better or similar alignment in process of reading different from the reference genome, resulting in 76% of correct results for genomes set which used the alignment of sequences with the SILA program. But using the BlastP program, 529 new genes were obtained. However, the estimated average execution time for the BOBBLES program using SILA program was at least five times faster than using the BlastP program. This time difference is justified by the fact that the SILA program performs the alignments of the sequences with recursive indexing into a local database, the NCBI's non-redundant protein sequence (NR) database.136f. : il. , grafs., tabs.application/pdfDisponível em formato digitalTesesInteligência artificialSeqüencia de nucleotidiosBioinformáticaCiencia da computaçãoAplicação da inteligência artificial na anotação automática de genomas bacterianosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - JULIANA HELENA TIBAES.pdfapplication/pdf1984459https://acervodigital.ufpr.br/bitstream/1884/28826/1/R%20-%20D%20-%20JULIANA%20HELENA%20TIBAES.pdf495f6c31a1d1519516eba5791427a4ddMD51open accessTEXTR - D - JULIANA HELENA TIBAES.pdf.txtExtracted Texttext/plain203752https://acervodigital.ufpr.br/bitstream/1884/28826/2/R%20-%20D%20-%20JULIANA%20HELENA%20TIBAES.pdf.txt3f330fd78ca9b26ceb93bc85e2010dacMD52open accessTHUMBNAILR - D - JULIANA HELENA TIBAES.pdf.jpgGenerated Thumbnailimage/jpeg1185https://acervodigital.ufpr.br/bitstream/1884/28826/3/R%20-%20D%20-%20JULIANA%20HELENA%20TIBAES.pdf.jpg3868c797f76b2f53fe799754a12e710eMD53open access1884/288262024-01-03 13:48:36.164open accessoai:acervodigital.ufpr.br:1884/28826Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082024-01-03T16:48:36Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Aplicação da inteligência artificial na anotação automática de genomas bacterianos
title Aplicação da inteligência artificial na anotação automática de genomas bacterianos
spellingShingle Aplicação da inteligência artificial na anotação automática de genomas bacterianos
Tibães, Juliana Helena
Teses
Inteligência artificial
Seqüencia de nucleotidios
Bioinformática
Ciencia da computação
title_short Aplicação da inteligência artificial na anotação automática de genomas bacterianos
title_full Aplicação da inteligência artificial na anotação automática de genomas bacterianos
title_fullStr Aplicação da inteligência artificial na anotação automática de genomas bacterianos
title_full_unstemmed Aplicação da inteligência artificial na anotação automática de genomas bacterianos
title_sort Aplicação da inteligência artificial na anotação automática de genomas bacterianos
author Tibães, Juliana Helena
author_facet Tibães, Juliana Helena
author_role author
dc.contributor.other.pt_BR.fl_str_mv Raittz, Roberto Tadeu, 1966-
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.advisor1.fl_str_mv Pedrosa, Fabio O., 1947-
dc.contributor.author.fl_str_mv Tibães, Juliana Helena
contributor_str_mv Pedrosa, Fabio O., 1947-
dc.subject.por.fl_str_mv Teses
Inteligência artificial
Seqüencia de nucleotidios
Bioinformática
Ciencia da computação
topic Teses
Inteligência artificial
Seqüencia de nucleotidios
Bioinformática
Ciencia da computação
description Orientador : Prof. Dr. Fábio de Oliveira Pedrosa
publishDate 2012
dc.date.issued.fl_str_mv 2012
dc.date.accessioned.fl_str_mv 2024-01-03T16:48:36Z
dc.date.available.fl_str_mv 2024-01-03T16:48:36Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/28826
url https://hdl.handle.net/1884/28826
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 136f. : il. , grafs., tabs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/28826/1/R%20-%20D%20-%20JULIANA%20HELENA%20TIBAES.pdf
https://acervodigital.ufpr.br/bitstream/1884/28826/2/R%20-%20D%20-%20JULIANA%20HELENA%20TIBAES.pdf.txt
https://acervodigital.ufpr.br/bitstream/1884/28826/3/R%20-%20D%20-%20JULIANA%20HELENA%20TIBAES.pdf.jpg
bitstream.checksum.fl_str_mv 495f6c31a1d1519516eba5791427a4dd
3f330fd78ca9b26ceb93bc85e2010dac
3868c797f76b2f53fe799754a12e710e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860473548701696