Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas

Detalhes bibliográficos
Autor(a) principal: Nichio, Bruno Thiago de Lima
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: http://hdl.handle.net/1884/49076
Resumo: Orientador : Prof. Dr. Roberto Tadeu Raittz
id UFPR_e114d0ac5ddc0001e1cc4e9ccedf60ab
oai_identifier_str oai:acervodigital.ufpr.br:1884/49076
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Nichio, Bruno Thiago de LimaMarchaukoski, Jeroniza Nunes, 1973-Weiss, Vinicius Almir, 1984-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaRaittz, Roberto Tadeu2018-01-05T15:47:58Z2018-01-05T15:47:58Z2016http://hdl.handle.net/1884/49076Orientador : Prof. Dr. Roberto Tadeu RaittzCoorientadores : Dra. Jeroniza Nunes Marchaukoski e Dr. Vinícius Almir WeissDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 16/09/2016Inclui referências ao final dos capítulosResumo: Uma das principais análises envolvendo sequências biológicas, imprescindíveis e complexas, é a análise de homologia. A necessidade de desenvolver técnicas e ferramentas computacionais que consigam predizer com mais eficiência grupos de ortólogos e, ao mesmo tempo, lidar com grande volume de informações biológicas, ainda é um grande gargalo a ser superado pela bioinformática. Atualmente, não existe uma única ferramenta eficiente na detecção desses grupos, pois ainda requerem muito esforço computacional e tempo. Metodologias já consolidadas, como o BLAST 'todos contra todos', RBH e ferramentas como o OrthoMCL, demandam um alto custo computacional e falham quando há ortologia, necessitando de uma intervenção manual sofisticada. Diante desse cenário, neste trabalho, aprensentamos um breve review referente às técnicas, desenvolvidas entre 2011 até metade de 2017, para a detecção de ortólogos, descrevendo 12 ferramentas e contextualizando os principais problemas ainda a serem superados. A maioria das ferramentas utiliza o algoritmo BLAST como algoritmo padrão predição de homologia entre sequências. Apresentamos também uma nova abordagem para a clusterização de homólogos, a ferramenta RAFTS3groups. Para validarmos a ferramenta utilizamos como base de dados o UniProtKB/Swiss-Prot com outras ferramentas de clusterização o UCLUST e CD-HIT. RAFTS3groups mostrou-se ser mais de 4 vezes mais rápido que o CD-HIT e equiparável em volume de clusters e de tempo à ferramenta UCLUST. Para análise e consolidação de homologia, introduzimos uma nova aplicação auxiliar à ferramenta RAFTS3groups, na clusterização de ortólogos, o script DivideCluster. Comparamos com o método BLAST 'todos contra todos', analisando 9 genomas completos de Herbaspirillum spp. disponíveis no NCBI genbank. RAFTS3groups mostrou-se tão eficiente quanto o método, apresentando cerca de 96% de correlação entre os resultados de clusterização de core e pan genoma obtidos. Palavras-chave: homologia, clusterização, alignment-free, k-means, RAFTS3.Abstract: One of the main tests involving biological sequences, essential and complex, is the analysis of homology. The study of homologous genes involved in processes such as cell cycle, DNA repair in simpler organisms, even with large evolutionary distance, there are genes that are shared between primates, yeasts and bacteria, which we call (core-genome). The need to develop computational tools and techniques that can predict more efficiently ortologs groups and handle large volume of biological information is still a problem to be resolved by Bioinformatics. We don't have a single powerful tool in detecting groups that still require a lot of effort and computing time. Tools, already consolidated, as the BLAST ' 'all-against-all' ', RBH, OrthoMCL, demand a high computational cost and fail when there is orthology, requiring manual intervention. In this scenario, in this work we presents a brief review on main techniques, developed between 2011 until early 2016, for the detection of orthologs groups, describing 12 tools and being developed currently and the main problems main problems still to be overcome. We note that most tools uses the BLAST as default prediction of homology between sequences. We also present a new approach for the analysis of homology, the RAFTS3groups tool. We use as the database UniProtKB /Swiss-Prot with the clustering tools the UCLUST and the CD-HIT. RAFTS3groups proved to be more than 4 times faster than CD-HIT and comparable in volume to clusters and time with UCLUST tool. In Homology analysis we introduced a new clustering strategy of orthology, the DivideCluster algorithm aplication built into the RAFTS3groups. Compared with the BLAST 'all-against-all', analyzing 9 complete genomes from Herbaspirillum spp. available by NCBI genbank. RAFTS3groups was shown to be as efficient as the method, showing approximately 96% of the correlation among the clustering results of core and pan genome obtained. Key-words: homology, clustering, alignment-free, k-means clustering, RAFTS3.89 f. : il.application/pdfDisponível em formato digitalHomologia (Biologia)Analise por conglomeradosSoftware - DesenvolvimentoBioinformáticaConsolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - BRUNO THIAGO DE LIMA NICHIO.pdfapplication/pdf2972795https://acervodigital.ufpr.br/bitstream/1884/49076/1/R%20-%20D%20-%20BRUNO%20THIAGO%20DE%20LIMA%20NICHIO.pdf601a982f39b3471f8f4f6e350daf28a6MD51open access1884/490762018-01-05 13:47:58.767open accessoai:acervodigital.ufpr.br:1884/49076Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082018-01-05T15:47:58Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
title Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
spellingShingle Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
Nichio, Bruno Thiago de Lima
Homologia (Biologia)
Analise por conglomerados
Software - Desenvolvimento
Bioinformática
title_short Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
title_full Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
title_fullStr Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
title_full_unstemmed Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
title_sort Consolidação e validação da ferramenta Rapid Alignment Free Tool for Sequences Similarity Search to Groups (RAFTS3GROUPS) : um software rápido de clusterização para big data e buscador consistente de proteínas ortólogas
author Nichio, Bruno Thiago de Lima
author_facet Nichio, Bruno Thiago de Lima
author_role author
dc.contributor.other.pt_BR.fl_str_mv Marchaukoski, Jeroniza Nunes, 1973-
Weiss, Vinicius Almir, 1984-
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv Nichio, Bruno Thiago de Lima
dc.contributor.advisor1.fl_str_mv Raittz, Roberto Tadeu
contributor_str_mv Raittz, Roberto Tadeu
dc.subject.por.fl_str_mv Homologia (Biologia)
Analise por conglomerados
Software - Desenvolvimento
Bioinformática
topic Homologia (Biologia)
Analise por conglomerados
Software - Desenvolvimento
Bioinformática
description Orientador : Prof. Dr. Roberto Tadeu Raittz
publishDate 2016
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2018-01-05T15:47:58Z
dc.date.available.fl_str_mv 2018-01-05T15:47:58Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1884/49076
url http://hdl.handle.net/1884/49076
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 89 f. : il.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/49076/1/R%20-%20D%20-%20BRUNO%20THIAGO%20DE%20LIMA%20NICHIO.pdf
bitstream.checksum.fl_str_mv 601a982f39b3471f8f4f6e350daf28a6
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860314849869824