Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados

Detalhes bibliográficos
Autor(a) principal: Santos, Letícia Graziela Costa, 1995-
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/62174
Resumo: Orientador: Prof. Dr. Roberto Tadeu Raittz
id UFPR_4f9bc7d20f1953e53207f3dd07e93c49
oai_identifier_str oai:acervodigital.ufpr.br:1884/62174
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Santos, Letícia Graziela Costa, 1995-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaRaittz, Roberto Tadeu, 1966-2022-05-09T19:47:20Z2022-05-09T19:47:20Z2019https://hdl.handle.net/1884/62174Orientador: Prof. Dr. Roberto Tadeu RaittzDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 05/02/2019Inclui referências: p. 84-93Resumo: Nas últimas décadas com o rápido desenvolvimento de disciplinas como a genômica e a proteômica, a quantidade de informação biológica que é produzida e armazenada diariamente nos Bancos de Dados de proteínas tem aumentado de forma rápida e irregular, tornando a aplicação e o desenvolvimento de técnicas de mineração de dados cada vez mais importante. No caso dos bancos de dados de sequências biológicas, problemas na qualidade dos dados como alto nível de redundância e artefatos de anotação tornaram as técnicas de clusterização uma das formas mais rápidas e eficientes de solucionar problemas como armazenamento, curadoria e busca contra os bancos de dados. Entretanto, analisando criteriosamente o estado da arte na clusterização de bancos de dados de sequências biológicas percebe-se a necessidade de reprocessar os resultados quando se obtêm clusters muito grandes se comparado à média do banco. Assim, neste contexto, este trabalho propôs a criação de um pipeline para a aplicação de técnicas de mineração de dados com o objetivo de caracterizar grandes conjuntos de dados gerados após a clusterização de bancos de dados de sequências biológicas. Análises realizadas com base em um estudo de caso biológico permitiram a criação de um pipeline baseado em inferência de homologia, anotações funcionais de Gene Ontology e técnicas de mineração de texto desenvolvidas neste trabalho. Os resultados mostram que, de acordo com a consistência da anotação da função intracluster, os maiores clusters requerem reprocessamento quando o banco de dados foi clusterizado com o valor de corte de 50% de identidade. O algoritmo de clusterização de texto desenvolvido para o pipeline foi preciso e eficiente para reclusterizar os conjuntos de dados utilizados neste trabalho. Os resultados deste trabalho levam a recomendações práticas para usos mais eficazes dos resultados das ferramentas de clusterização de sequências biológicas. Palavras-chave: Clusterização. Bancos de Dados Biológicos. Mineração de Dados.Abstract: In the last years, the rapid development of disciplines such as genomics and proteomics generated an amount of biological information that is daily stored in protein databases. Thus, these biological databases have increased rapidly and irregularly, making primordial the application and development of data mining techniques. In the case of biological sequence databases, data quality problems such as high level of redundancy and annotation artifacts have made clustering techniques one of the fastest and most efficient ways of solving problems such as storage, curation and database search. However, by carefully analyzing the State of the Art in clustering of biological sequence databases, it's noticed that's necessary to reprocess the results when very large clusters are obtained, but the best way to do this reprocessing is yet an open question. Thus, in this context, this work proposed the creation of a pipeline for the application of data mining techniques with the aim of characterizing large proteins datasets generated after clustering biological sequence databases. Analyzes carried out based on a biological case study allowed the creation of a pipeline based on homology inference, functional annotations of Gene Ontology and text mining techniques developed in this work. Results show that according to intracluster function annotation consistency, clusters with large size require reprocessing when the database was clustered with self-score of 50% of identity. The text clustering algorithm developed for the pipeline was accurate and efficient in reclustering the datasets. This evaluation leads to practical recommendations for more effective uses of the sequence clustering tools results. Keywords: Clustering. Biological Databases. Data Mining.1 recurso online : PDF.application/pdfMineração de dados (Computação)Analise por conglomeradosBioinformáticaAnálise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - LETICIA GRAZIELA COSTA SANTOS DE MATTOS.pdfapplication/pdf3326502https://acervodigital.ufpr.br/bitstream/1884/62174/1/R%20-%20D%20-%20LETICIA%20GRAZIELA%20COSTA%20SANTOS%20DE%20MATTOS.pdf5e942a38d751a65ab2f3f89d5f29c2fdMD51open access1884/621742022-05-09 16:47:20.874open accessoai:acervodigital.ufpr.br:1884/62174Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-05-09T19:47:20Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
spellingShingle Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
Santos, Letícia Graziela Costa, 1995-
Mineração de dados (Computação)
Analise por conglomerados
Bioinformática
title_short Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_full Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_fullStr Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_full_unstemmed Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_sort Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
author Santos, Letícia Graziela Costa, 1995-
author_facet Santos, Letícia Graziela Costa, 1995-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv Santos, Letícia Graziela Costa, 1995-
dc.contributor.advisor1.fl_str_mv Raittz, Roberto Tadeu, 1966-
contributor_str_mv Raittz, Roberto Tadeu, 1966-
dc.subject.por.fl_str_mv Mineração de dados (Computação)
Analise por conglomerados
Bioinformática
topic Mineração de dados (Computação)
Analise por conglomerados
Bioinformática
description Orientador: Prof. Dr. Roberto Tadeu Raittz
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2022-05-09T19:47:20Z
dc.date.available.fl_str_mv 2022-05-09T19:47:20Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/62174
url https://hdl.handle.net/1884/62174
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/62174/1/R%20-%20D%20-%20LETICIA%20GRAZIELA%20COSTA%20SANTOS%20DE%20MATTOS.pdf
bitstream.checksum.fl_str_mv 5e942a38d751a65ab2f3f89d5f29c2fd
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860455283556352