Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas

Detalhes bibliográficos
Autor(a) principal: Saulo Augusto de Paula Pinto
Data de Publicação: 2008
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/55791
Resumo: Os algoritmos de clustering estão entre os mais utilizados na análise de dados de expressão gêni-ca. Por ser uma técnica exploratória, o clustering permite aos pesquisadores encontrar padrões de expressão similares entre os diversos tecidos amostrados indicando quais condições amostra-das são mais similares. O presente trabalho apresenta duas metodologias para o cálculo da simi-laridade entre amostras inteiras de dados de expressão gênica utilizando uma fração das seqüên-cias mais expressas (MESs) em cada amostra, que originam duas métricas diferentes. Ambas as métricas são computadas com base na ordenação da expressão das várias seqüências presentes nas amostras, sendo que uma privilegia o compartilhamento entre seqüências mais expressas entre amostras (chamada de similaridade MESs) e a outra a manutenção da ordem de expressão das seqüências (chamada de conservação da ordenação MESs). O clustering hierárquico utilizan-do as métricas de similaridade propostas foi aplicado em 18 séries de dados de expressão gênica, totalizando 612 amostras, e os resultados foram comparados àqueles produzidos utilizando-se métricas tradicionais como a distância euclidiana e correlações de Pearson e Spearman. No ge-ral, a utilização das duas métricas propostas produziu resultados que superaram as demais: a si-milaridade MESs apresentou uma acurácia de cerca de 89% e a conservação da ordenação MESs de 80%, enquanto a melhor métrica tradicional para os dados utilizados foi a correlação de Pear-son que apresentou acurácia de 76%. Os resultados apresentados indicam que as métricas apre-sentadas são uma alternativa às métricas tradicionais, além de proverem dados que refletem características biologicamente significativas dos sistemas amostrados.
id UFMG_4cd5bccf14d70fb014b483fba84a1fa1
oai_identifier_str oai:repositorio.ufmg.br:1843/55791
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling José Miguel Ortegahttp://lattes.cnpq.br/1919128137338097Guilherme Correa OliveiraHelena Paula BrentaniRiva de Paula OliveiraGisele Lobo PappaJosé Miguel Ortegahttp://lattes.cnpq.br/5883363053237695Saulo Augusto de Paula Pinto2023-07-04T22:00:07Z2023-07-04T22:00:07Z2008-10-31http://hdl.handle.net/1843/55791Os algoritmos de clustering estão entre os mais utilizados na análise de dados de expressão gêni-ca. Por ser uma técnica exploratória, o clustering permite aos pesquisadores encontrar padrões de expressão similares entre os diversos tecidos amostrados indicando quais condições amostra-das são mais similares. O presente trabalho apresenta duas metodologias para o cálculo da simi-laridade entre amostras inteiras de dados de expressão gênica utilizando uma fração das seqüên-cias mais expressas (MESs) em cada amostra, que originam duas métricas diferentes. Ambas as métricas são computadas com base na ordenação da expressão das várias seqüências presentes nas amostras, sendo que uma privilegia o compartilhamento entre seqüências mais expressas entre amostras (chamada de similaridade MESs) e a outra a manutenção da ordem de expressão das seqüências (chamada de conservação da ordenação MESs). O clustering hierárquico utilizan-do as métricas de similaridade propostas foi aplicado em 18 séries de dados de expressão gênica, totalizando 612 amostras, e os resultados foram comparados àqueles produzidos utilizando-se métricas tradicionais como a distância euclidiana e correlações de Pearson e Spearman. No ge-ral, a utilização das duas métricas propostas produziu resultados que superaram as demais: a si-milaridade MESs apresentou uma acurácia de cerca de 89% e a conservação da ordenação MESs de 80%, enquanto a melhor métrica tradicional para os dados utilizados foi a correlação de Pear-son que apresentou acurácia de 76%. Os resultados apresentados indicam que as métricas apre-sentadas são uma alternativa às métricas tradicionais, além de proverem dados que refletem características biologicamente significativas dos sistemas amostrados.The clustering algorithms are among the most utilized techniques in gene expression data analy-sis. Being an exploratory technique, clustering allows researchers to find out similar expression patterns among the variety of sampled tissues pointing out which sampled conditions are more similar than others. This work presents two methodologies to compute the similarity among whole samples of gene expression data utilizing only a fraction of the most expressed sequences (MESs) in each sample. Both similarity metrics are computed considering the expression ordering of the various sequences present in the samples. One of them privileges the sharing of the most expressed sequences (named MESs similarity). The other privileges the keeping of the expression ordering of the sequences (named MESs ordering conservation). Hierarchical clustering utilizing the proposed similarity metrics was applied in 18 gene expression data series summing up 612 samples and the results compared to those produced by some traditional metrics like Euclidian distance, Pearson, and Spearman correlations. Overall, the use of the two proposed metrics out-performed the others: the MESs similarity showed 89% accuracy and the MESs ordering conserva-tion 80% whereas the best traditional metric for the same data was Pearson correlation that yielded 76% accuracy. The results presented here indicate that the proposed metrics are an alter-native to the traditional ones. Besides, they produce data that reflect biologically significant fea-tures of the sampled systems.FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em BioinformaticaUFMGBrasilICB - DEPARTAMENTO DE BIOQUÍMICA E IMUNOLOGIABioinformáticaAprendizado de máquina não supervisionadoExpresssão gêneticaMétricaAprendizagem não-supervisionadaClusteringMétricas de similaridadeAmostras de dados de expressão gênicaClustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradasClustering of gene expression data samples using two biologically inspired similarity metricsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese-corrigida-final.pdftese-corrigida-final.pdfapplication/pdf2073005https://repositorio.ufmg.br/bitstream/1843/55791/1/tese-corrigida-final.pdf0040f64b300384c5530008bfcb593b29MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/55791/2/license.txtcda590c95a0b51b4d15f60c9642ca272MD521843/557912023-07-04 19:00:08.122oai:repositorio.ufmg.br:1843/55791TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-07-04T22:00:08Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
dc.title.alternative.pt_BR.fl_str_mv Clustering of gene expression data samples using two biologically inspired similarity metrics
title Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
spellingShingle Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
Saulo Augusto de Paula Pinto
Aprendizagem não-supervisionada
Clustering
Métricas de similaridade
Amostras de dados de expressão gênica
Bioinformática
Aprendizado de máquina não supervisionado
Expresssão gênetica
Métrica
title_short Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
title_full Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
title_fullStr Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
title_full_unstemmed Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
title_sort Clustering de amostras de dados de expressão gênica utilizando duas métricas de similaridade biologicamente inspiradas
author Saulo Augusto de Paula Pinto
author_facet Saulo Augusto de Paula Pinto
author_role author
dc.contributor.advisor1.fl_str_mv José Miguel Ortega
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1919128137338097
dc.contributor.referee1.fl_str_mv Guilherme Correa Oliveira
dc.contributor.referee2.fl_str_mv Helena Paula Brentani
dc.contributor.referee3.fl_str_mv Riva de Paula Oliveira
dc.contributor.referee4.fl_str_mv Gisele Lobo Pappa
dc.contributor.referee5.fl_str_mv José Miguel Ortega
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5883363053237695
dc.contributor.author.fl_str_mv Saulo Augusto de Paula Pinto
contributor_str_mv José Miguel Ortega
Guilherme Correa Oliveira
Helena Paula Brentani
Riva de Paula Oliveira
Gisele Lobo Pappa
José Miguel Ortega
dc.subject.por.fl_str_mv Aprendizagem não-supervisionada
Clustering
Métricas de similaridade
Amostras de dados de expressão gênica
topic Aprendizagem não-supervisionada
Clustering
Métricas de similaridade
Amostras de dados de expressão gênica
Bioinformática
Aprendizado de máquina não supervisionado
Expresssão gênetica
Métrica
dc.subject.other.pt_BR.fl_str_mv Bioinformática
Aprendizado de máquina não supervisionado
Expresssão gênetica
Métrica
description Os algoritmos de clustering estão entre os mais utilizados na análise de dados de expressão gêni-ca. Por ser uma técnica exploratória, o clustering permite aos pesquisadores encontrar padrões de expressão similares entre os diversos tecidos amostrados indicando quais condições amostra-das são mais similares. O presente trabalho apresenta duas metodologias para o cálculo da simi-laridade entre amostras inteiras de dados de expressão gênica utilizando uma fração das seqüên-cias mais expressas (MESs) em cada amostra, que originam duas métricas diferentes. Ambas as métricas são computadas com base na ordenação da expressão das várias seqüências presentes nas amostras, sendo que uma privilegia o compartilhamento entre seqüências mais expressas entre amostras (chamada de similaridade MESs) e a outra a manutenção da ordem de expressão das seqüências (chamada de conservação da ordenação MESs). O clustering hierárquico utilizan-do as métricas de similaridade propostas foi aplicado em 18 séries de dados de expressão gênica, totalizando 612 amostras, e os resultados foram comparados àqueles produzidos utilizando-se métricas tradicionais como a distância euclidiana e correlações de Pearson e Spearman. No ge-ral, a utilização das duas métricas propostas produziu resultados que superaram as demais: a si-milaridade MESs apresentou uma acurácia de cerca de 89% e a conservação da ordenação MESs de 80%, enquanto a melhor métrica tradicional para os dados utilizados foi a correlação de Pear-son que apresentou acurácia de 76%. Os resultados apresentados indicam que as métricas apre-sentadas são uma alternativa às métricas tradicionais, além de proverem dados que refletem características biologicamente significativas dos sistemas amostrados.
publishDate 2008
dc.date.issued.fl_str_mv 2008-10-31
dc.date.accessioned.fl_str_mv 2023-07-04T22:00:07Z
dc.date.available.fl_str_mv 2023-07-04T22:00:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/55791
url http://hdl.handle.net/1843/55791
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Bioinformatica
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICB - DEPARTAMENTO DE BIOQUÍMICA E IMUNOLOGIA
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/55791/1/tese-corrigida-final.pdf
https://repositorio.ufmg.br/bitstream/1843/55791/2/license.txt
bitstream.checksum.fl_str_mv 0040f64b300384c5530008bfcb593b29
cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589150244339712