Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica

Ramos, Thaís de Almeida Ratis

Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica

Detalhes bibliográficos
Autor(a) principal:	Ramos, Thaís de Almeida Ratis
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFRN
Texto Completo:	https://repositorio.ufrn.br/jspui/handle/123456789/25581
Resumo:	A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.

Metadados do item

id	UFRN_83cb4a460446b491d30ce7c974262fde
oai_identifier_str	oai:https://repositorio.ufrn.br:123456789/25581
network_acronym_str	UFRN
network_name_str	Repositório Institucional da UFRN
repository_id_str
spelling	Ramos, Thaís de Almeida RatisRego, Thais Gaudêncio doEsteves, Gustavo HenriqueDalmolin, Rodrigo Juliani SiqueiraCoutinho, Vinicius Ramos Henriques MaracajáOrtega, José Miguel2018-07-11T13:58:20Z2018-07-11T13:58:20Z2018-05-11RAMOS, Thaís de Almeida Ratis. Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica. 2018. 157f. Dissertação (Mestrado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.https://repositorio.ufrn.br/jspui/handle/123456789/25581A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.The creation of gene expression encyclopedias possibilities the understanding of gene groups that are co-expressed in different tissues and comprehend gene clusters according to their functions and origin. Due to the huge amount of data generated in large-scale transcriptomics projects, an intense demand to use techniques provided by artificial intelligence became widely used in bioinformatics. Unsupervised learning is the machine learning task that analyzes the data provided and tries to determine if some objects can be grouped in some way, forming clusters. We developed an online tool called CORAZON (Correlation Analyses Zipper Online), which implements three unsupervised machine learning algorithms (mean shift, k-means and hierarchical) to cluster gene expression datasets, six normalization methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and normalization by the highest attribute value for each instance), and a strategy to observe the attributes influence, all in a friendly environment. The algorithms performances were evaluated through five models commonly used to validate clustering methodologies, each one composed by fifty randomly generated datasets. The algorithms presented accuracies ranging between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily knowledgement and functional insights, based on the Gene Ontology enrichment, and connect with transcription factors. To select the best number of clusters for k-means and hierarchical algorithms we used Bayesian information criterion (BIC), followed by the derivative of the discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total, we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the reproductive system and in all three groups are observed with a single tissue, such as testis, brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have specificities in their functions: detection of stimulus involved in sensory perception, reproduction, synaptic signaling, nervous system, immunological system, system development, and metabolics. We also observed that clusters with more than 80% of noncodings, more than 40% of their coding genes are recents appearing in mammalian class and the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding genes, have more than 40% of them appeared in eukaryota and the minority from mammalian. These results illustrate the potential of the methods in CORAZON tool, which can help in the large quantities analysis of genomic data, possibiliting the potential associations analyzes between non-coding RNAs and the biological processes of clustered together coding genes, as well as the possibility of evolutionary history study. CORAZON is freely available at http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.porCNPQ::OUTROS: BIOINFORMÁTICAExpressão gênicaAprendizagem de máquinaAgrupamentoDesenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênicainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICAUFRNBrasilinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALDesenvolvimentoUsoCorazon_Ramos_2018.pdfapplication/pdf5907109https://repositorio.ufrn.br/bitstream/123456789/25581/1/DesenvolvimentoUsoCorazon_Ramos_2018.pdf89a190289f7aa32aedb29f2dff662907MD51TEXTDesenvolvimentoUsoCorazon_Ramos_2018.pdf.txtDesenvolvimentoUsoCorazon_Ramos_2018.pdf.txtExtracted texttext/plain268398https://repositorio.ufrn.br/bitstream/123456789/25581/2/DesenvolvimentoUsoCorazon_Ramos_2018.pdf.txt3d468e40d20a28ed2719aea664be1524MD52THUMBNAILDesenvolvimentoUsoCorazon_Ramos_2018.pdf.jpgDesenvolvimentoUsoCorazon_Ramos_2018.pdf.jpgIM Thumbnailimage/jpeg2805https://repositorio.ufrn.br/bitstream/123456789/25581/3/DesenvolvimentoUsoCorazon_Ramos_2018.pdf.jpgddb4f8d0597bc8232266c14fec8e76f9MD53123456789/255812019-01-30 06:49:29.393oai:https://repositorio.ufrn.br:123456789/25581Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2019-01-30T09:49:29Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica
title	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica
spellingShingle	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica Ramos, Thaís de Almeida Ratis CNPQ::OUTROS: BIOINFORMÁTICA Expressão gênica Aprendizagem de máquina Agrupamento
title_short	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica
title_full	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica
title_fullStr	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica
title_full_unstemmed	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica
title_sort	Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica
author	Ramos, Thaís de Almeida Ratis
author_facet	Ramos, Thaís de Almeida Ratis
author_role	author
dc.contributor.authorID.pt_BR.fl_str_mv
dc.contributor.advisorID.pt_BR.fl_str_mv
dc.contributor.advisor-co1ID.pt_BR.fl_str_mv
dc.contributor.referees1.none.fl_str_mv	Esteves, Gustavo Henrique
dc.contributor.referees1ID.pt_BR.fl_str_mv
dc.contributor.referees2.none.fl_str_mv	Dalmolin, Rodrigo Juliani Siqueira
dc.contributor.referees2ID.pt_BR.fl_str_mv
dc.contributor.referees3.none.fl_str_mv	Coutinho, Vinicius Ramos Henriques Maracajá
dc.contributor.referees3ID.pt_BR.fl_str_mv
dc.contributor.author.fl_str_mv	Ramos, Thaís de Almeida Ratis
dc.contributor.advisor-co1.fl_str_mv	Rego, Thais Gaudêncio do
dc.contributor.advisor1.fl_str_mv	Ortega, José Miguel
contributor_str_mv	Rego, Thais Gaudêncio do Ortega, José Miguel
dc.subject.cnpq.fl_str_mv	CNPQ::OUTROS: BIOINFORMÁTICA
topic	CNPQ::OUTROS: BIOINFORMÁTICA Expressão gênica Aprendizagem de máquina Agrupamento
dc.subject.por.fl_str_mv	Expressão gênica Aprendizagem de máquina Agrupamento
description	A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.
publishDate	2018
dc.date.accessioned.fl_str_mv	2018-07-11T13:58:20Z
dc.date.available.fl_str_mv	2018-07-11T13:58:20Z
dc.date.issued.fl_str_mv	2018-05-11
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	RAMOS, Thaís de Almeida Ratis. Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica. 2018. 157f. Dissertação (Mestrado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.
dc.identifier.uri.fl_str_mv	https://repositorio.ufrn.br/jspui/handle/123456789/25581
identifier_str_mv	RAMOS, Thaís de Almeida Ratis. Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica. 2018. 157f. Dissertação (Mestrado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.
url	https://repositorio.ufrn.br/jspui/handle/123456789/25581
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.program.fl_str_mv	PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
dc.publisher.initials.fl_str_mv	UFRN
dc.publisher.country.fl_str_mv	Brasil
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN
instname_str	Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str	UFRN
institution	UFRN
reponame_str	Repositório Institucional da UFRN
collection	Repositório Institucional da UFRN
bitstream.url.fl_str_mv	https://repositorio.ufrn.br/bitstream/123456789/25581/1/DesenvolvimentoUsoCorazon_Ramos_2018.pdf https://repositorio.ufrn.br/bitstream/123456789/25581/2/DesenvolvimentoUsoCorazon_Ramos_2018.pdf.txt https://repositorio.ufrn.br/bitstream/123456789/25581/3/DesenvolvimentoUsoCorazon_Ramos_2018.pdf.jpg
bitstream.checksum.fl_str_mv	89a190289f7aa32aedb29f2dff662907 3d468e40d20a28ed2719aea664be1524 ddb4f8d0597bc8232266c14fec8e76f9
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_	1802117893369888768

Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica

Registros relacionados