Metodologia de busca de similaridade de genes por matriz de co-ocorrência
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | http://hdl.handle.net/1884/29846 |
Resumo: | Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas. |
id |
UFPR_31860a05d0ee7b1b541aeaf54ceb62f3 |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/29846 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Ramos, Danhylo AlmeidaRaittz, Roberto TadeuSteffens, Maria Berenice ReynaudMarchaukoski, Jeroniza NunesUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática2013-05-16T18:11:15Z2013-05-16T18:11:15Z2013-05-16http://hdl.handle.net/1884/29846Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas.application/pdfTesesSeqüencia de nucleotidiosMontagem genômicaBioinformáticaMetodologia de busca de similaridade de genes por matriz de co-ocorrênciainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DANHYLO ALMEIDA RAMOS.pdfapplication/pdf1493887https://acervodigital.ufpr.br/bitstream/1884/29846/1/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdff6db0fbc044efa18409cf192e05b9d9bMD51open accessTEXTR - D - DANHYLO ALMEIDA RAMOS.pdf.txtR - D - DANHYLO ALMEIDA RAMOS.pdf.txtExtracted Texttext/plain198722https://acervodigital.ufpr.br/bitstream/1884/29846/2/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.txt65036f4b496eaa48dd3310cd60554f1fMD52open accessTHUMBNAILR - D - DANHYLO ALMEIDA RAMOS.pdf.jpgR - D - DANHYLO ALMEIDA RAMOS.pdf.jpgGenerated Thumbnailimage/jpeg1140https://acervodigital.ufpr.br/bitstream/1884/29846/3/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.jpg956b5bc94ff7398adbc1d68efaebcbcdMD53open access1884/298462016-04-07 04:06:23.72open accessoai:acervodigital.ufpr.br:1884/29846Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082016-04-07T07:06:23Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência |
title |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência |
spellingShingle |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência Ramos, Danhylo Almeida Teses Seqüencia de nucleotidios Montagem genômica Bioinformática |
title_short |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência |
title_full |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência |
title_fullStr |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência |
title_full_unstemmed |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência |
title_sort |
Metodologia de busca de similaridade de genes por matriz de co-ocorrência |
author |
Ramos, Danhylo Almeida |
author_facet |
Ramos, Danhylo Almeida |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Raittz, Roberto Tadeu Steffens, Maria Berenice Reynaud Marchaukoski, Jeroniza Nunes Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática |
dc.contributor.author.fl_str_mv |
Ramos, Danhylo Almeida |
dc.subject.por.fl_str_mv |
Teses Seqüencia de nucleotidios Montagem genômica Bioinformática |
topic |
Teses Seqüencia de nucleotidios Montagem genômica Bioinformática |
description |
Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas. |
publishDate |
2013 |
dc.date.accessioned.fl_str_mv |
2013-05-16T18:11:15Z |
dc.date.available.fl_str_mv |
2013-05-16T18:11:15Z |
dc.date.issued.fl_str_mv |
2013-05-16 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1884/29846 |
url |
http://hdl.handle.net/1884/29846 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/29846/1/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf https://acervodigital.ufpr.br/bitstream/1884/29846/2/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/29846/3/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.jpg |
bitstream.checksum.fl_str_mv |
f6db0fbc044efa18409cf192e05b9d9b 65036f4b496eaa48dd3310cd60554f1f 956b5bc94ff7398adbc1d68efaebcbcd |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1797699186510004224 |