Metodologia de busca de similaridade de genes por matriz de co-ocorrência

Ramos, Danhylo Almeida

Metodologia de busca de similaridade de genes por matriz de co-ocorrência

Detalhes bibliográficos
Autor(a) principal:	Ramos, Danhylo Almeida
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFPR
Texto Completo:	http://hdl.handle.net/1884/29846
Resumo:	Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas.

Metadados do item

id	UFPR_31860a05d0ee7b1b541aeaf54ceb62f3
oai_identifier_str	oai:acervodigital.ufpr.br:1884/29846
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str	308
spelling	Ramos, Danhylo AlmeidaRaittz, Roberto TadeuSteffens, Maria Berenice ReynaudMarchaukoski, Jeroniza NunesUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática2013-05-16T18:11:15Z2013-05-16T18:11:15Z2013-05-16http://hdl.handle.net/1884/29846Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas.application/pdfTesesSeqüencia de nucleotidiosMontagem genômicaBioinformáticaMetodologia de busca de similaridade de genes por matriz de co-ocorrênciainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DANHYLO ALMEIDA RAMOS.pdfapplication/pdf1493887https://acervodigital.ufpr.br/bitstream/1884/29846/1/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdff6db0fbc044efa18409cf192e05b9d9bMD51open accessTEXTR - D - DANHYLO ALMEIDA RAMOS.pdf.txtR - D - DANHYLO ALMEIDA RAMOS.pdf.txtExtracted Texttext/plain198722https://acervodigital.ufpr.br/bitstream/1884/29846/2/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.txt65036f4b496eaa48dd3310cd60554f1fMD52open accessTHUMBNAILR - D - DANHYLO ALMEIDA RAMOS.pdf.jpgR - D - DANHYLO ALMEIDA RAMOS.pdf.jpgGenerated Thumbnailimage/jpeg1140https://acervodigital.ufpr.br/bitstream/1884/29846/3/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.jpg956b5bc94ff7398adbc1d68efaebcbcdMD53open access1884/298462016-04-07 04:06:23.72open accessoai:acervodigital.ufpr.br:1884/29846Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082016-04-07T07:06:23Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title	Metodologia de busca de similaridade de genes por matriz de co-ocorrência
spellingShingle	Metodologia de busca de similaridade de genes por matriz de co-ocorrência Ramos, Danhylo Almeida Teses Seqüencia de nucleotidios Montagem genômica Bioinformática
title_short	Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_full	Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_fullStr	Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_full_unstemmed	Metodologia de busca de similaridade de genes por matriz de co-ocorrência
title_sort	Metodologia de busca de similaridade de genes por matriz de co-ocorrência
author	Ramos, Danhylo Almeida
author_facet	Ramos, Danhylo Almeida
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Raittz, Roberto Tadeu Steffens, Maria Berenice Reynaud Marchaukoski, Jeroniza Nunes Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv	Ramos, Danhylo Almeida
dc.subject.por.fl_str_mv	Teses Seqüencia de nucleotidios Montagem genômica Bioinformática
topic	Teses Seqüencia de nucleotidios Montagem genômica Bioinformática
description	Resumo: O barateamento das tecnologias de sequencimento de DNA têm resultado em um aumento expressivo de novos organismos sequenciados. No estudo destes dados cientistas utilizam o alinhamento de sequência de nucleotídeos para promover a anotação de genes ou de proteínas nos organismos recém sequenciados, comparando com banco de dados públicos de sequências. Alinhamento de sequências é um problema quando se observa o grande volume de organismos sequenciados e sequências depositadas em banco de dados mundiais, fazendo-se necessária uma otimização do processo. Esta pesquisa propõe uma Metodologia de Busca de Similaridade de Genes por Matriz de Co-ocorrência de modo a oferecer um meio que contribua na tarefa de anotação de um novo gene, fornecendo respostas rápidas e precisas. Uma base de dados contendo todos os genes dos genomas completos foi obtida do NCBI em setembro de 2010. As sequências de nucleotídeos foram processadas, avaliando-se a co-ocorrências entre as bases, extraindo valores estatísticos que sejam capazes de representar estas sequências em dados numéricos, permitindo a comparação de sequências através dessas medidas. Um banco de dados relacional é utilizado para armazenar os dados obtidos. Através de consulta SQL as sequências são pesquisadas na base de dados. Os resultados obtidos pela aplicação da metodologia foram validados comparando com as respostas do BLAST referente à mesma base de dados. Dez mil sequências de nucleotídeos foram testadas, e quando aplicada uma linha de corte de 50% de score relativo ao self-score a metodologia proposta encontra mais de 97% de respostas idênticas ao BLAST, este percentual é maior, quase totalizando 100% quando aplicada uma linha de corte de 70% a 90% de score relativo ao self-score nas respostas.
publishDate	2013
dc.date.accessioned.fl_str_mv	2013-05-16T18:11:15Z
dc.date.available.fl_str_mv	2013-05-16T18:11:15Z
dc.date.issued.fl_str_mv	2013-05-16
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1884/29846
url	http://hdl.handle.net/1884/29846
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/29846/1/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf https://acervodigital.ufpr.br/bitstream/1884/29846/2/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/29846/3/R%20-%20D%20-%20DANHYLO%20ALMEIDA%20RAMOS.pdf.jpg
bitstream.checksum.fl_str_mv	f6db0fbc044efa18409cf192e05b9d9b 65036f4b496eaa48dd3310cd60554f1f 956b5bc94ff7398adbc1d68efaebcbcd
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_	1797699186510004224

Metodologia de busca de similaridade de genes por matriz de co-ocorrência

Registros relacionados