Análise de ilhas genômicas a partir de clusterização de proteínas

Detalhes bibliográficos
Autor(a) principal: Augusto, Diônata Willian, 1987-
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/72255
Resumo: Orientadora: Dra. Jeroniza Nunes Marchaukoski
id UFPR_032ead9929608d06a817cf61859f17f0
oai_identifier_str oai:acervodigital.ufpr.br:1884/72255
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Augusto, Diônata Willian, 1987-Guizelini, Dieval, 1976-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaMarchaukoski, Jeroniza Nunes, 1973-2022-05-09T19:46:58Z2022-05-09T19:46:58Z2021https://hdl.handle.net/1884/72255Orientadora: Dra. Jeroniza Nunes MarchaukoskiCoorientador: Dr. Dieval GuizeliniDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 06/08/2018Inclui referências: p. 64-75Área de concentração: BioinformáticaResumo: A resistência antimicrobiana e reconhecida como uma das mais graves ameaças globais para a saúde humana no século 21. Um importante mecanismo na adaptação de microrganismos esta presente nas Ilhas Genômicas (GIs). Essas regiões desempenham diferentes papeis nos microrganismos e são compartilhadas por diferentes espécies. Ferramentas de predição de ilhas genômicas e bancos de dados estão possibilitando organizar e catalogar essas regiões. Entretanto, divergências de anotações entre os organismos e variabilidade genética inerente das sequencias genômicas estão impedindo uma visão mais sistêmica, organizada e estrutural desse conjunto de ilhas genômicas. Neste trabalho, propomos aplicar técnicas de clusterização como um meio de determinar a diversidade real presente nas Ilhas Genômicas e avaliar numericamente as ocorrências de regiões codificantes de proteínas dentro dessas regiões, estabelecendo como referenciais o banco criado através da técnica de clusterização das proteínas provenientes de bancos especializados em GI, 68 organismos de interesse do grupo de pesquisa e o banco de genes essenciais. Os dados foram obtidos nas bases públicas, tratadas, normalizadas e comparadas por processos de alinhamentos. Programas escritos em R e Matlab foram aplicados para filtrar, agrupar, construir matrizes de co-ocorrência e desenvolver arvores de similaridade e filogenéticas. Os resultados permitiram classificar mais de um milhão de sequencias de proteínas presentes nos bancos de dados de ilhas genômicas em noventa e cinco mil grupos, os alinhamentos indicaram que 34% das ilhas estão contidas em um único e maior grupo. As analises das arvores e matrizes de co-ocorrência indicam alta correlação entre a composição genica das ilhas e a distribuição filogenética. Os dados demostram que as transferências horizontais via ilhas genômicas são filogeneticamente conservadas. Concluímos que a variabilidade genética entre sequencias de GIs e 10 vezes menor que a relatada na literatura. Aproximadamente 30% dos genes presente em regiões de ilhas genômicas apresentam 50% ou mais de similaridade com sequencias de genes essenciais. Ilhas Genômicas com alta co-ocorrência de proteínas são compartilhadas por organismos patogênicos e não patógenos. O método de clusterização foi eficiente em agrupar sequencias genicas com alta similaridade e reduzir a redundância e divergência nas anotações presentes nas bases de dados de ilhas genômicas.Abstract: Antimicrobial resistance is recognized as one of the most serious global threats to human health in the 21st century. An important mechanism in adapting microorganisms is present in the Genomic Islands (GIs). These regions present different roles in microorganisms and are shared by different species. Prediction tools from genomic islands and databases are making it possible to organize and catalog these regions. However, the divergence of annotation between organisms and inherent genetic variability of genomic sequences is preventing a more systemic, organized and structural view of this set of genomic islands. In this work, we propose to apply clustering techniques as a means to intensify the real diversity present in the Genomic Islands and to numerically evaluate the occurrences of proteins inside and outside these regions, establishing as reference the group of proteins grouped from specialized banks in GI, 68 organisms, and the essential gene pool. The data were obtained in the public databases, treated, normalized and compared by alignment processes. Programs written in R and Matlab were applied to filter, group, construct co-occurrence matrices and to develop similarity and phylogenetic trees. Our results allowed us to reduce more than one million protein sequences present in the genomic island databases in ninety-five thousand groups; alignments indicated that 34% of the islands were aligned with the largest group. The analyzes of trees and co-occurrence matrices indicate a high correlation between the genetic composition of the islands and the presence of the islands with the phylogenetic distribution. The data show that horizontal transfers via genomic islands are phylogenetically conserved. We conclude that the genetic variability between sequences is 10 times lower than that reported in the literature. Approximately 30% of the genes present in regions of genomic islands have 50% or more of similarity with essential gene sequences. Genomic islands with high co-occurrence of proteins are shared by pathogenic and non-pathogenic organisms. The clustering method was efficient in grouping gene sequences with high similarity and reducing the redundancy and divergence in the annotations present in the databases of genomic islands.1 recurso online : PDF.application/pdfGenômicaBactériasProteínasBioinformáticaAnálise de ilhas genômicas a partir de clusterização de proteínasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DIONATA WILLIAN AUGUSTO.pdfapplication/pdf12930988https://acervodigital.ufpr.br/bitstream/1884/72255/1/R%20-%20D%20-%20DIONATA%20WILLIAN%20AUGUSTO.pdf68d91ca159f3baf2253738aa553c0d7bMD51open access1884/722552022-05-09 16:46:58.429open accessoai:acervodigital.ufpr.br:1884/72255Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-05-09T19:46:58Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Análise de ilhas genômicas a partir de clusterização de proteínas
title Análise de ilhas genômicas a partir de clusterização de proteínas
spellingShingle Análise de ilhas genômicas a partir de clusterização de proteínas
Augusto, Diônata Willian, 1987-
Genômica
Bactérias
Proteínas
Bioinformática
title_short Análise de ilhas genômicas a partir de clusterização de proteínas
title_full Análise de ilhas genômicas a partir de clusterização de proteínas
title_fullStr Análise de ilhas genômicas a partir de clusterização de proteínas
title_full_unstemmed Análise de ilhas genômicas a partir de clusterização de proteínas
title_sort Análise de ilhas genômicas a partir de clusterização de proteínas
author Augusto, Diônata Willian, 1987-
author_facet Augusto, Diônata Willian, 1987-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Guizelini, Dieval, 1976-
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv Augusto, Diônata Willian, 1987-
dc.contributor.advisor1.fl_str_mv Marchaukoski, Jeroniza Nunes, 1973-
contributor_str_mv Marchaukoski, Jeroniza Nunes, 1973-
dc.subject.por.fl_str_mv Genômica
Bactérias
Proteínas
Bioinformática
topic Genômica
Bactérias
Proteínas
Bioinformática
description Orientadora: Dra. Jeroniza Nunes Marchaukoski
publishDate 2021
dc.date.issued.fl_str_mv 2021
dc.date.accessioned.fl_str_mv 2022-05-09T19:46:58Z
dc.date.available.fl_str_mv 2022-05-09T19:46:58Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/72255
url https://hdl.handle.net/1884/72255
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/72255/1/R%20-%20D%20-%20DIONATA%20WILLIAN%20AUGUSTO.pdf
bitstream.checksum.fl_str_mv 68d91ca159f3baf2253738aa553c0d7b
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860682810916864