Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados

Santos, Letícia Graziela Costa, 1995-

Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados

Detalhes bibliográficos
Autor(a) principal:	Santos, Letícia Graziela Costa, 1995-
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFPR
Texto Completo:	https://hdl.handle.net/1884/62174
Resumo:	Orientador: Prof. Dr. Roberto Tadeu Raittz

Metadados do item

id	UFPR_4f9bc7d20f1953e53207f3dd07e93c49
oai_identifier_str	oai:acervodigital.ufpr.br:1884/62174
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str	308
spelling	Santos, Letícia Graziela Costa, 1995-Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaRaittz, Roberto Tadeu, 1966-2022-05-09T19:47:20Z2022-05-09T19:47:20Z2019https://hdl.handle.net/1884/62174Orientador: Prof. Dr. Roberto Tadeu RaittzDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 05/02/2019Inclui referências: p. 84-93Resumo: Nas últimas décadas com o rápido desenvolvimento de disciplinas como a genômica e a proteômica, a quantidade de informação biológica que é produzida e armazenada diariamente nos Bancos de Dados de proteínas tem aumentado de forma rápida e irregular, tornando a aplicação e o desenvolvimento de técnicas de mineração de dados cada vez mais importante. No caso dos bancos de dados de sequências biológicas, problemas na qualidade dos dados como alto nível de redundância e artefatos de anotação tornaram as técnicas de clusterização uma das formas mais rápidas e eficientes de solucionar problemas como armazenamento, curadoria e busca contra os bancos de dados. Entretanto, analisando criteriosamente o estado da arte na clusterização de bancos de dados de sequências biológicas percebe-se a necessidade de reprocessar os resultados quando se obtêm clusters muito grandes se comparado à média do banco. Assim, neste contexto, este trabalho propôs a criação de um pipeline para a aplicação de técnicas de mineração de dados com o objetivo de caracterizar grandes conjuntos de dados gerados após a clusterização de bancos de dados de sequências biológicas. Análises realizadas com base em um estudo de caso biológico permitiram a criação de um pipeline baseado em inferência de homologia, anotações funcionais de Gene Ontology e técnicas de mineração de texto desenvolvidas neste trabalho. Os resultados mostram que, de acordo com a consistência da anotação da função intracluster, os maiores clusters requerem reprocessamento quando o banco de dados foi clusterizado com o valor de corte de 50% de identidade. O algoritmo de clusterização de texto desenvolvido para o pipeline foi preciso e eficiente para reclusterizar os conjuntos de dados utilizados neste trabalho. Os resultados deste trabalho levam a recomendações práticas para usos mais eficazes dos resultados das ferramentas de clusterização de sequências biológicas. Palavras-chave: Clusterização. Bancos de Dados Biológicos. Mineração de Dados.Abstract: In the last years, the rapid development of disciplines such as genomics and proteomics generated an amount of biological information that is daily stored in protein databases. Thus, these biological databases have increased rapidly and irregularly, making primordial the application and development of data mining techniques. In the case of biological sequence databases, data quality problems such as high level of redundancy and annotation artifacts have made clustering techniques one of the fastest and most efficient ways of solving problems such as storage, curation and database search. However, by carefully analyzing the State of the Art in clustering of biological sequence databases, it's noticed that's necessary to reprocess the results when very large clusters are obtained, but the best way to do this reprocessing is yet an open question. Thus, in this context, this work proposed the creation of a pipeline for the application of data mining techniques with the aim of characterizing large proteins datasets generated after clustering biological sequence databases. Analyzes carried out based on a biological case study allowed the creation of a pipeline based on homology inference, functional annotations of Gene Ontology and text mining techniques developed in this work. Results show that according to intracluster function annotation consistency, clusters with large size require reprocessing when the database was clustered with self-score of 50% of identity. The text clustering algorithm developed for the pipeline was accurate and efficient in reclustering the datasets. This evaluation leads to practical recommendations for more effective uses of the sequence clustering tools results. Keywords: Clustering. Biological Databases. Data Mining.1 recurso online : PDF.application/pdfMineração de dados (Computação)Analise por conglomeradosBioinformáticaAnálise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - LETICIA GRAZIELA COSTA SANTOS DE MATTOS.pdfapplication/pdf3326502https://acervodigital.ufpr.br/bitstream/1884/62174/1/R%20-%20D%20-%20LETICIA%20GRAZIELA%20COSTA%20SANTOS%20DE%20MATTOS.pdf5e942a38d751a65ab2f3f89d5f29c2fdMD51open access1884/621742022-05-09 16:47:20.874open accessoai:acervodigital.ufpr.br:1884/62174Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-05-09T19:47:20Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
spellingShingle	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados Santos, Letícia Graziela Costa, 1995- Mineração de dados (Computação) Analise por conglomerados Bioinformática
title_short	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_full	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_fullStr	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_full_unstemmed	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
title_sort	Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados
author	Santos, Letícia Graziela Costa, 1995-
author_facet	Santos, Letícia Graziela Costa, 1995-
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv	Santos, Letícia Graziela Costa, 1995-
dc.contributor.advisor1.fl_str_mv	Raittz, Roberto Tadeu, 1966-
contributor_str_mv	Raittz, Roberto Tadeu, 1966-
dc.subject.por.fl_str_mv	Mineração de dados (Computação) Analise por conglomerados Bioinformática
topic	Mineração de dados (Computação) Analise por conglomerados Bioinformática
description	Orientador: Prof. Dr. Roberto Tadeu Raittz
publishDate	2019
dc.date.issued.fl_str_mv	2019
dc.date.accessioned.fl_str_mv	2022-05-09T19:47:20Z
dc.date.available.fl_str_mv	2022-05-09T19:47:20Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1884/62174
url	https://hdl.handle.net/1884/62174
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	1 recurso online : PDF. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/62174/1/R%20-%20D%20-%20LETICIA%20GRAZIELA%20COSTA%20SANTOS%20DE%20MATTOS.pdf
bitstream.checksum.fl_str_mv	5e942a38d751a65ab2f3f89d5f29c2fd
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_	1801860455283556352

Análise e caracterização de grandes grupos de proteínas utilizando técnicas de mineração de dados

Registros relacionados