Benchmark de algoritmos para a computação de métricas de similaridade genômica

Detalhes bibliográficos
Autor(a) principal: Guella, Felipe Lhywinskh
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/203973
Resumo: A hibridização de DNA-DNA (DDH) é ainda considerada a principal técnica para classificação procariótica, apesar de ter certas limitações e já ser considerada obsoleta por muitos pesquisadores. A redução significativa nos custos de sequenciamento genômico, por sua vez, está abrindo espaço para novas métricas baseadas na comparação in silico de sequências genômicas. A análise computacional de genomas não apresenta as mesmas limitações da DDH e, desde o desenvolvimento de métricas genômicas, houve um aumento paulatino e constante em seu uso na descrição e reclassificação de espécimes bacterianos. O paradigma da sistemática procariótica está mudando e a tendência é que métricas genômicas se tornem o padrão ouro da área. A métrica mais utilizada é o ANI (average nucleotide identity), mas, além dela, surgiram outras métricas que convergem para o mesmo objetivo de comparar genomas bacterianos para delimitação de espécie. Não obstante, poucos estudos de fato compararam essas métricas entre si em termos de performance e intercambialidade. É necessário, portanto, uma análise abrangente que possibilite uma padronização de diversas métricas, com o objetivo de se desenvolver um esquema de classificação e identificação padrão baseado nas métricas genômicas mais eficientes na discriminação de espécies bacterianas. A primeira parte da dissertação envolveu a avaliação de métricas genômicas em relação a diversos parâmetros, utilizando os resultados de ANIb como referência e genomas de Paenibacillus como conjunto de dados. Os resultados de tempo de execução indicam que o TETRA é a métrica mais rápida, seguido do MUMi e do ANIm, enquanto o GGD, ANIb, gANI e OrthoANI exigiram maior tempo de computação. Todas as métricas tiveram valores de coeficiente de correlação elevado (≥ 0.9), com exceção do TETRA (≈0.75). A especificidade, em relação aos resultados do ANIb, foi elevada para todas as métricas (≥0.9), enquanto a sensibilidade foi elevada para todas (≥0.9), exceto para o gANI, GGD e MUMi (entre 0.7 e 0.8). Em relação a testes de robustez, utilizando genomas artificialmente contaminados, houve uma variação mínima entre as métricas que utilizam cálculos baseados em alinhamento, exceto com o MUMi, que apresentou variação significativa nos resultados. O TETRA, em contrapartida, teve a maior variação das métricas testadas, resultados que poderiam comprometer a definição de espécie. Considerando todos os parâmetros e condições testadas, o ANIm foi uma das melhores métricas testadas, devido a sua robustez, seu tempo de execução e sua 8 elevada similaridade de resultados com o ANIb. As outras métricas que derivaram do ANIb — OrthoANI e gANI — tiveram pouca variação em termos de performance. Apesar da grande velocidade das análises do MUMi e do TETRA, eles não apresentam a mesma robustez que as outras métricas. A segunda parte da dissertação foi um estudo derivado dos dados gerados na primeira parte e envolveu a reclassificação das espécies bacterianas Paenibacillus durus e Paenibacillus azotofixans. Os resultados das métricas, aliados às análises filogenéticas — como MLSA e reconstrução do proteoma core — e características morfofisiológicas e quimiotáxicas, possibilitaram a reclassificação dessas espécies. Excetuando o resultado da análise de identidade do gene do rRNA 16S — que definia ambos como da mesma espécie —, todos resultados indicaram a separação desses dois micro-organismos em duas espécies independentes. A dissertação apresentou as qualidades e limitações de diversas métricas disponíveis atualmente e um exemplo prático de como esses dados quantitativos podem ser úteis na área de sistemática procariótica.
id URGS_3322d54135e027b97597b5077c8d2327
oai_identifier_str oai:www.lume.ufrgs.br:10183/203973
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Guella, Felipe LhywinskhPassaglia, Luciane Maria PereiraSant'Anna, Fernando Hayashi2019-12-28T04:01:43Z2019http://hdl.handle.net/10183/203973001099756A hibridização de DNA-DNA (DDH) é ainda considerada a principal técnica para classificação procariótica, apesar de ter certas limitações e já ser considerada obsoleta por muitos pesquisadores. A redução significativa nos custos de sequenciamento genômico, por sua vez, está abrindo espaço para novas métricas baseadas na comparação in silico de sequências genômicas. A análise computacional de genomas não apresenta as mesmas limitações da DDH e, desde o desenvolvimento de métricas genômicas, houve um aumento paulatino e constante em seu uso na descrição e reclassificação de espécimes bacterianos. O paradigma da sistemática procariótica está mudando e a tendência é que métricas genômicas se tornem o padrão ouro da área. A métrica mais utilizada é o ANI (average nucleotide identity), mas, além dela, surgiram outras métricas que convergem para o mesmo objetivo de comparar genomas bacterianos para delimitação de espécie. Não obstante, poucos estudos de fato compararam essas métricas entre si em termos de performance e intercambialidade. É necessário, portanto, uma análise abrangente que possibilite uma padronização de diversas métricas, com o objetivo de se desenvolver um esquema de classificação e identificação padrão baseado nas métricas genômicas mais eficientes na discriminação de espécies bacterianas. A primeira parte da dissertação envolveu a avaliação de métricas genômicas em relação a diversos parâmetros, utilizando os resultados de ANIb como referência e genomas de Paenibacillus como conjunto de dados. Os resultados de tempo de execução indicam que o TETRA é a métrica mais rápida, seguido do MUMi e do ANIm, enquanto o GGD, ANIb, gANI e OrthoANI exigiram maior tempo de computação. Todas as métricas tiveram valores de coeficiente de correlação elevado (≥ 0.9), com exceção do TETRA (≈0.75). A especificidade, em relação aos resultados do ANIb, foi elevada para todas as métricas (≥0.9), enquanto a sensibilidade foi elevada para todas (≥0.9), exceto para o gANI, GGD e MUMi (entre 0.7 e 0.8). Em relação a testes de robustez, utilizando genomas artificialmente contaminados, houve uma variação mínima entre as métricas que utilizam cálculos baseados em alinhamento, exceto com o MUMi, que apresentou variação significativa nos resultados. O TETRA, em contrapartida, teve a maior variação das métricas testadas, resultados que poderiam comprometer a definição de espécie. Considerando todos os parâmetros e condições testadas, o ANIm foi uma das melhores métricas testadas, devido a sua robustez, seu tempo de execução e sua 8 elevada similaridade de resultados com o ANIb. As outras métricas que derivaram do ANIb — OrthoANI e gANI — tiveram pouca variação em termos de performance. Apesar da grande velocidade das análises do MUMi e do TETRA, eles não apresentam a mesma robustez que as outras métricas. A segunda parte da dissertação foi um estudo derivado dos dados gerados na primeira parte e envolveu a reclassificação das espécies bacterianas Paenibacillus durus e Paenibacillus azotofixans. Os resultados das métricas, aliados às análises filogenéticas — como MLSA e reconstrução do proteoma core — e características morfofisiológicas e quimiotáxicas, possibilitaram a reclassificação dessas espécies. Excetuando o resultado da análise de identidade do gene do rRNA 16S — que definia ambos como da mesma espécie —, todos resultados indicaram a separação desses dois micro-organismos em duas espécies independentes. A dissertação apresentou as qualidades e limitações de diversas métricas disponíveis atualmente e um exemplo prático de como esses dados quantitativos podem ser úteis na área de sistemática procariótica.DNA-DNA hybridization (DDH) is still considered the main method for genomic prokaryotic classification, despite having certain limitations and already being considered as an obsolete approach by several researchers. The significant reduction in genomic sequencing costs, on the other hand, allowed that several metrics based on comparative genomics were more utilized in prokaryotic taxonomy. The most utilized metric is ANI (average nucleotide identity), but besides it, many other genomic metrics were developed. Nevertheless, few studies compared these metrics among each other with respect to performance and interchangeability. Therefore, it is necessary a broad analysis that allows the standardization of these metrics, aiming the development of a classification and identification scheme based on efficient genomic metrics for the discrimination of prokaryotic species. The first part of our study is related to the evaluation of several parameters of genomic metrics, using ANIb results as reference and Paenibacillus genomes as dataset. Runtime results shows that TETRA is the fastest metric, followed by MUMi and ANIm, while GGD, ANIb, gANI and OrthoANI were significantly slower. All metrics had high correlation coefficients (≥0.9), except for TETRA (≈0.75). Specificity values, when comparing to ANIb results, were high for all metrics (≥0.9), while sensitivity 9 values were high for almost all metrics (≥0.9), apart from gANI, GGD and MUMi — that were between 0.7 and 0.8. When comparing artificially contaminated genomes for robustness evaluation, the variation on alignment-based had minimum variation between results, with the exception of. TETRA, on the other hand, had the highest variation of results on all tested metrics. Considering all parameters and tested conditions, ANIm was one of the most reliable and efficient metrics tested, due to its robustness, runtime and similarity to ANIb results. All other metrics derived from ANIb — OrthoANI and gANI — had little difference on performance compared to ANIb. Despite their fast runtime analysis, MUMi and TETRA do not have the same robustness as the other metrics. The second part of the study utilized the data derived from the first one, and it was the reclassification of the bacterial species Paenibacillus durus and Paenibacillus azotofixans. All metrics results, combined with phylogenetic analysis — like MLSA and core proteome reconstruction — and morphophysiological and chemiotaxis results, allowed the reclassification of P. durus and P. azotofixans. Excluding 16S rRNA gene phylogeny — that defined both bacteria as the same species —, all results indicate that both microorganisms belong to two independent species. Our study presented qualities and limitations of several metrics currently available, and a practical example of how these metrics can be useful in the prokaryotic systematic field.application/pdfporSorgoBactériasHibridizaçãoPaenibacillusBenchmarkingBenchmark de algoritmos para a computação de métricas de similaridade genômicainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de BiociênciasPrograma de Pós-Graduação em Genética e Biologia MolecularPorto Alegre, BR-RS2019mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001099756.pdf.txt001099756.pdf.txtExtracted Texttext/plain145896http://www.lume.ufrgs.br/bitstream/10183/203973/2/001099756.pdf.txt47548822942fb67191c89503de3a4691MD52ORIGINAL001099756.pdfTexto completoapplication/pdf1776583http://www.lume.ufrgs.br/bitstream/10183/203973/1/001099756.pdff3120203af7790acb99dc4e4331befbfMD5110183/2039732022-09-04 04:50:46.873495oai:www.lume.ufrgs.br:10183/203973Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-09-04T07:50:46Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Benchmark de algoritmos para a computação de métricas de similaridade genômica
title Benchmark de algoritmos para a computação de métricas de similaridade genômica
spellingShingle Benchmark de algoritmos para a computação de métricas de similaridade genômica
Guella, Felipe Lhywinskh
Sorgo
Bactérias
Hibridização
Paenibacillus
Benchmarking
title_short Benchmark de algoritmos para a computação de métricas de similaridade genômica
title_full Benchmark de algoritmos para a computação de métricas de similaridade genômica
title_fullStr Benchmark de algoritmos para a computação de métricas de similaridade genômica
title_full_unstemmed Benchmark de algoritmos para a computação de métricas de similaridade genômica
title_sort Benchmark de algoritmos para a computação de métricas de similaridade genômica
author Guella, Felipe Lhywinskh
author_facet Guella, Felipe Lhywinskh
author_role author
dc.contributor.author.fl_str_mv Guella, Felipe Lhywinskh
dc.contributor.advisor1.fl_str_mv Passaglia, Luciane Maria Pereira
dc.contributor.advisor-co1.fl_str_mv Sant'Anna, Fernando Hayashi
contributor_str_mv Passaglia, Luciane Maria Pereira
Sant'Anna, Fernando Hayashi
dc.subject.por.fl_str_mv Sorgo
Bactérias
Hibridização
Paenibacillus
Benchmarking
topic Sorgo
Bactérias
Hibridização
Paenibacillus
Benchmarking
description A hibridização de DNA-DNA (DDH) é ainda considerada a principal técnica para classificação procariótica, apesar de ter certas limitações e já ser considerada obsoleta por muitos pesquisadores. A redução significativa nos custos de sequenciamento genômico, por sua vez, está abrindo espaço para novas métricas baseadas na comparação in silico de sequências genômicas. A análise computacional de genomas não apresenta as mesmas limitações da DDH e, desde o desenvolvimento de métricas genômicas, houve um aumento paulatino e constante em seu uso na descrição e reclassificação de espécimes bacterianos. O paradigma da sistemática procariótica está mudando e a tendência é que métricas genômicas se tornem o padrão ouro da área. A métrica mais utilizada é o ANI (average nucleotide identity), mas, além dela, surgiram outras métricas que convergem para o mesmo objetivo de comparar genomas bacterianos para delimitação de espécie. Não obstante, poucos estudos de fato compararam essas métricas entre si em termos de performance e intercambialidade. É necessário, portanto, uma análise abrangente que possibilite uma padronização de diversas métricas, com o objetivo de se desenvolver um esquema de classificação e identificação padrão baseado nas métricas genômicas mais eficientes na discriminação de espécies bacterianas. A primeira parte da dissertação envolveu a avaliação de métricas genômicas em relação a diversos parâmetros, utilizando os resultados de ANIb como referência e genomas de Paenibacillus como conjunto de dados. Os resultados de tempo de execução indicam que o TETRA é a métrica mais rápida, seguido do MUMi e do ANIm, enquanto o GGD, ANIb, gANI e OrthoANI exigiram maior tempo de computação. Todas as métricas tiveram valores de coeficiente de correlação elevado (≥ 0.9), com exceção do TETRA (≈0.75). A especificidade, em relação aos resultados do ANIb, foi elevada para todas as métricas (≥0.9), enquanto a sensibilidade foi elevada para todas (≥0.9), exceto para o gANI, GGD e MUMi (entre 0.7 e 0.8). Em relação a testes de robustez, utilizando genomas artificialmente contaminados, houve uma variação mínima entre as métricas que utilizam cálculos baseados em alinhamento, exceto com o MUMi, que apresentou variação significativa nos resultados. O TETRA, em contrapartida, teve a maior variação das métricas testadas, resultados que poderiam comprometer a definição de espécie. Considerando todos os parâmetros e condições testadas, o ANIm foi uma das melhores métricas testadas, devido a sua robustez, seu tempo de execução e sua 8 elevada similaridade de resultados com o ANIb. As outras métricas que derivaram do ANIb — OrthoANI e gANI — tiveram pouca variação em termos de performance. Apesar da grande velocidade das análises do MUMi e do TETRA, eles não apresentam a mesma robustez que as outras métricas. A segunda parte da dissertação foi um estudo derivado dos dados gerados na primeira parte e envolveu a reclassificação das espécies bacterianas Paenibacillus durus e Paenibacillus azotofixans. Os resultados das métricas, aliados às análises filogenéticas — como MLSA e reconstrução do proteoma core — e características morfofisiológicas e quimiotáxicas, possibilitaram a reclassificação dessas espécies. Excetuando o resultado da análise de identidade do gene do rRNA 16S — que definia ambos como da mesma espécie —, todos resultados indicaram a separação desses dois micro-organismos em duas espécies independentes. A dissertação apresentou as qualidades e limitações de diversas métricas disponíveis atualmente e um exemplo prático de como esses dados quantitativos podem ser úteis na área de sistemática procariótica.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-12-28T04:01:43Z
dc.date.issued.fl_str_mv 2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/203973
dc.identifier.nrb.pt_BR.fl_str_mv 001099756
url http://hdl.handle.net/10183/203973
identifier_str_mv 001099756
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/203973/2/001099756.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/203973/1/001099756.pdf
bitstream.checksum.fl_str_mv 47548822942fb67191c89503de3a4691
f3120203af7790acb99dc4e4331befbf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1800309159862730752