Metodologia de busca de similaridade de genes por matriz de co-ocorrência

Detalhes bibliográficos
Autor(a) principal: Ramos, Danhylo Almeida
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: http://hdl.handle.net/1884/29846
Resumo: Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas.
id UFPR_31860a05d0ee7b1b541aeaf54ceb62f3
oai_identifier_str oai:acervodigital.ufpr.br:1884/29846
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Ramos, Danhylo AlmeidaRaittz, Roberto TadeuSteffens, Maria Berenice ReynaudMarchaukoski, Jeroniza NunesUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática2013-05-16T18:11:15Z2013-05-16T18:11:15Z2013-05-16http://hdl.handle.net/1884/29846Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas.application/pdfTesesSeqüencia de nucleotidiosMontagem genômicaBioinformáticaMetodologia de busca de similaridade de genes por matriz de co-ocorrênciainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DANHYLO ALMEIDA RAMOS.pdfapplication/pdf1493887https://acervodigital.ufpr.br/bitstream/1884/29846/1/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdff6db0fbc044efa18409cf192e05b9d9bMD51open accessTEXTR - D - DANHYLO ALMEIDA RAMOS.pdf.txtR - D - DANHYLO ALMEIDA RAMOS.pdf.txtExtracted Texttext/plain198722https://acervodigital.ufpr.br/bitstream/1884/29846/2/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.txt65036f4b496eaa48dd3310cd60554f1fMD52open accessTHUMBNAILR - D - DANHYLO ALMEIDA RAMOS.pdf.jpgR - D - DANHYLO ALMEIDA RAMOS.pdf.jpgGenerated Thumbnailimage/jpeg1140https://acervodigital.ufpr.br/bitstream/1884/29846/3/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.jpg956b5bc94ff7398adbc1d68efaebcbcdMD53open access1884/298462016-04-07 04:06:23.72open accessoai:acervodigital.ufpr.br:1884/29846Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082016-04-07T07:06:23Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title Metodologia de busca de similaridade de genes por matriz de co-ocorrência
spellingShingle Metodologia de busca de similaridade de genes por matriz de co-ocorrência
Ramos, Danhylo Almeida
Teses
Seqüencia de nucleotidios
Montagem genômica
Bioinformática
title_short Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_full Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_fullStr Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_full_unstemmed Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_sort Metodologia de busca de similaridade de genes por matriz de co-ocorrência
author Ramos, Danhylo Almeida
author_facet Ramos, Danhylo Almeida
author_role author
dc.contributor.other.pt_BR.fl_str_mv Raittz, Roberto Tadeu
Steffens, Maria Berenice Reynaud
Marchaukoski, Jeroniza Nunes
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv Ramos, Danhylo Almeida
dc.subject.por.fl_str_mv Teses
Seqüencia de nucleotidios
Montagem genômica
Bioinformática
topic Teses
Seqüencia de nucleotidios
Montagem genômica
Bioinformática
description Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas.
publishDate 2013
dc.date.accessioned.fl_str_mv 2013-05-16T18:11:15Z
dc.date.available.fl_str_mv 2013-05-16T18:11:15Z
dc.date.issued.fl_str_mv 2013-05-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1884/29846
url http://hdl.handle.net/1884/29846
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/29846/1/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf
https://acervodigital.ufpr.br/bitstream/1884/29846/2/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.txt
https://acervodigital.ufpr.br/bitstream/1884/29846/3/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.jpg
bitstream.checksum.fl_str_mv f6db0fbc044efa18409cf192e05b9d9b
65036f4b496eaa48dd3310cd60554f1f
956b5bc94ff7398adbc1d68efaebcbcd
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1797699186510004224