Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações

Nunes, Itamar José Guimarães

Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações

Detalhes bibliográficos
Autor(a) principal:	Nunes, Itamar José Guimarães
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/233086
Resumo:	Transcritomas descrevem o perfil de expressão gênica de um organismo e oferecem uma quantidade considerável de informações sobre uma condição biológica, o que permite avaliar, por exemplo, todos os genes diferencialmente expressos no contexto de uma doença complexa. Além disso, dezenas de milhares de conjuntos de dados produzidos experimentalmente estão disponíveis publicamente, podendo ser analisados in silico com softwares especializados ou pela linguagem de programação R. No entanto, análises transcritômicas são efetuadas individualmente para cada condição experimental, onde cada comparação gera um resultado independente dos demais, e não há uma metodologia enquadrada a milhares de genes para comparar múltiplas condições biológicas entre si. Neste sentido, considerando a aplicabilidade da linguagem R para transcritomas, foi desenvolvido um pacote de métodos em R, denominado Gene Expression Variation Analysis (GEVA), para avaliar quais genes poderiam responder a diferentes condições experimentais. O pacote recebe múltiplos resultados de expressão diferencial como entrada e efetua uma sequência de operações estatísticas intermediárias, como sumarização ponderada, separação por quantis e clusterização, a fim de encontrar genes cuja expressão altera-se similarmente entre os experimentos. Essas operações levam todos os genes em conta para que se possa distinguir os transcritos relevantes daqueles que não demonstram diferença de expressão gênica. Além disso, se as condições experimentais forem divididas em grupos (denominados fatores), o módulo também utilizará testes ANOVA (Fisher e Levene) para identificar genes diferencialmente expressos em resposta a todos os fatores ou a um fator específico. Deste modo, três diferentes classificações para genes relevantes são definidas nos resultados finais: similar, fator-dependente, e fator-específico. Para validar esses resultados, após o desenvolvimento do GEVA, foram testados 28 conjuntos de dados transcritômicos utilizando 11 diferentes combinações de parâmetros disponíveis pelo pacote, incluindo uma variedade de métodos de clusterização, de quantis e de sumarização. As classificações finais foram avaliadas especialmente para condições de nocaute, onde a mudança na expressão dos genes modificados já é esperada. Neste sentido, embora as classificações finais fossem afetadas pela escolha de certos parâmetros, os resultados dos testes demonstraram coerência com os estudos experimentais referentes aos conjuntos testados com os parâmetros-padrão. Deste modo, conclui-se que o GEVA pode ser uma alternativa robusta para análises com múltiplas comparações, podendo ser utilizado para encontrar similaridades entre grupos de condições biológicas.

Metadados do item

id	URGS_442180c3de1d18ec1e9d3cb5677aa92e
oai_identifier_str	oai:www.lume.ufrgs.br:10183/233086
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Nunes, Itamar José GuimarãesDorn, MárcioFeltes, Bruno César2021-12-17T04:30:51Z2020http://hdl.handle.net/10183/233086001133163Transcritomas descrevem o perfil de expressão gênica de um organismo e oferecem uma quantidade considerável de informações sobre uma condição biológica, o que permite avaliar, por exemplo, todos os genes diferencialmente expressos no contexto de uma doença complexa. Além disso, dezenas de milhares de conjuntos de dados produzidos experimentalmente estão disponíveis publicamente, podendo ser analisados in silico com softwares especializados ou pela linguagem de programação R. No entanto, análises transcritômicas são efetuadas individualmente para cada condição experimental, onde cada comparação gera um resultado independente dos demais, e não há uma metodologia enquadrada a milhares de genes para comparar múltiplas condições biológicas entre si. Neste sentido, considerando a aplicabilidade da linguagem R para transcritomas, foi desenvolvido um pacote de métodos em R, denominado Gene Expression Variation Analysis (GEVA), para avaliar quais genes poderiam responder a diferentes condições experimentais. O pacote recebe múltiplos resultados de expressão diferencial como entrada e efetua uma sequência de operações estatísticas intermediárias, como sumarização ponderada, separação por quantis e clusterização, a fim de encontrar genes cuja expressão altera-se similarmente entre os experimentos. Essas operações levam todos os genes em conta para que se possa distinguir os transcritos relevantes daqueles que não demonstram diferença de expressão gênica. Além disso, se as condições experimentais forem divididas em grupos (denominados fatores), o módulo também utilizará testes ANOVA (Fisher e Levene) para identificar genes diferencialmente expressos em resposta a todos os fatores ou a um fator específico. Deste modo, três diferentes classificações para genes relevantes são definidas nos resultados finais: similar, fator-dependente, e fator-específico. Para validar esses resultados, após o desenvolvimento do GEVA, foram testados 28 conjuntos de dados transcritômicos utilizando 11 diferentes combinações de parâmetros disponíveis pelo pacote, incluindo uma variedade de métodos de clusterização, de quantis e de sumarização. As classificações finais foram avaliadas especialmente para condições de nocaute, onde a mudança na expressão dos genes modificados já é esperada. Neste sentido, embora as classificações finais fossem afetadas pela escolha de certos parâmetros, os resultados dos testes demonstraram coerência com os estudos experimentais referentes aos conjuntos testados com os parâmetros-padrão. Deste modo, conclui-se que o GEVA pode ser uma alternativa robusta para análises com múltiplas comparações, podendo ser utilizado para encontrar similaridades entre grupos de condições biológicas.Transcriptomes represent an organism’s gene expression profile and abound substantial information for a biological condition, by which it is possible to evaluate, for instance, an entire set of genes in the context of a complex disease. Furthermore, there are dozen of thousands of publicly available datasets from previous experiments which can be analyzed in silico using specialized software or the R programming language. However, transcriptomic analyses consider experimental conditions individually, giving one independent result per comparison, and there is no suitable methodology to compare within multiple biological conditions containing thousands of genes. In this sense, considering that R has been adopted for transcriptomic analyses, we developed a new R package named Gene Expression Variation Analysis (GEVA) to evaluate which genes would react in response to different experiments. This package gets multiple differential expression analysis results as input and performs an array of statistical steps such as weighted summarization, quantiles partition, and clustering, to find genes whose differential expression is similar among the experiments. These operations take all genes into account so that relevant transcripts are distinguished from those without differential expression. In addition, if the experimental conditions are divided into groups (i.e., factors), this module will also perform ANOVA (Fisher’s and Levene’s) tests to identify differentially expressed genes in response to every factor or to a single factor. This way, the final results present three possible classifications for relevant genes: similar, factor-dependent, and factor-specific. To validate these results subsequently to the GEVA’s development, 28 transcriptomic datasets were tested using 11 different combinations of the available parameters in this package, including several methods for clustering, quantiles and summarization. The validation regarding the final classifications was particularly performed using knockout studies, as these cases include modified genes whose differential expression is expected. In this sense, although some of the final classifications differed depending on the parameters’ choice, the test results from the default parameters corroborated with the published experimental studies regarding the selected datasets. Thus, we conclude that GEVA can effectively find similarities between groups of biological conditions, and therefore could be a robust alternative for multiple comparison analyses.application/pdfporGeneTranscriptomaExpressão gênicaTranscriptomicsGene expressionGene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparaçõesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulCentro de Biotecnologia do Estado do Rio Grande do SulPrograma de Pós-Graduação em Biologia Celular e MolecularPorto Alegre, BR-RS2020mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001133163.pdf.txt001133163.pdf.txtExtracted Texttext/plain217025http://www.lume.ufrgs.br/bitstream/10183/233086/2/001133163.pdf.txt1e6e9be7706cd8c243c146208fbfe589MD52ORIGINAL001133163.pdfTexto completoapplication/pdf6796448http://www.lume.ufrgs.br/bitstream/10183/233086/1/001133163.pdff32f5b0e70f64f9febe84ed08cabd833MD5110183/2330862022-01-07 05:31:49.583348oai:www.lume.ufrgs.br:10183/233086Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532022-01-07T07:31:49Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
title	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
spellingShingle	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações Nunes, Itamar José Guimarães Gene Transcriptoma Expressão gênica Transcriptomics Gene expression
title_short	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
title_full	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
title_fullStr	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
title_full_unstemmed	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
title_sort	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
author	Nunes, Itamar José Guimarães
author_facet	Nunes, Itamar José Guimarães
author_role	author
dc.contributor.author.fl_str_mv	Nunes, Itamar José Guimarães
dc.contributor.advisor1.fl_str_mv	Dorn, Márcio
dc.contributor.advisor-co1.fl_str_mv	Feltes, Bruno César
contributor_str_mv	Dorn, Márcio Feltes, Bruno César
dc.subject.por.fl_str_mv	Gene Transcriptoma Expressão gênica
topic	Gene Transcriptoma Expressão gênica Transcriptomics Gene expression
dc.subject.eng.fl_str_mv	Transcriptomics Gene expression
description	Transcritomas descrevem o perfil de expressão gênica de um organismo e oferecem uma quantidade considerável de informações sobre uma condição biológica, o que permite avaliar, por exemplo, todos os genes diferencialmente expressos no contexto de uma doença complexa. Além disso, dezenas de milhares de conjuntos de dados produzidos experimentalmente estão disponíveis publicamente, podendo ser analisados in silico com softwares especializados ou pela linguagem de programação R. No entanto, análises transcritômicas são efetuadas individualmente para cada condição experimental, onde cada comparação gera um resultado independente dos demais, e não há uma metodologia enquadrada a milhares de genes para comparar múltiplas condições biológicas entre si. Neste sentido, considerando a aplicabilidade da linguagem R para transcritomas, foi desenvolvido um pacote de métodos em R, denominado Gene Expression Variation Analysis (GEVA), para avaliar quais genes poderiam responder a diferentes condições experimentais. O pacote recebe múltiplos resultados de expressão diferencial como entrada e efetua uma sequência de operações estatísticas intermediárias, como sumarização ponderada, separação por quantis e clusterização, a fim de encontrar genes cuja expressão altera-se similarmente entre os experimentos. Essas operações levam todos os genes em conta para que se possa distinguir os transcritos relevantes daqueles que não demonstram diferença de expressão gênica. Além disso, se as condições experimentais forem divididas em grupos (denominados fatores), o módulo também utilizará testes ANOVA (Fisher e Levene) para identificar genes diferencialmente expressos em resposta a todos os fatores ou a um fator específico. Deste modo, três diferentes classificações para genes relevantes são definidas nos resultados finais: similar, fator-dependente, e fator-específico. Para validar esses resultados, após o desenvolvimento do GEVA, foram testados 28 conjuntos de dados transcritômicos utilizando 11 diferentes combinações de parâmetros disponíveis pelo pacote, incluindo uma variedade de métodos de clusterização, de quantis e de sumarização. As classificações finais foram avaliadas especialmente para condições de nocaute, onde a mudança na expressão dos genes modificados já é esperada. Neste sentido, embora as classificações finais fossem afetadas pela escolha de certos parâmetros, os resultados dos testes demonstraram coerência com os estudos experimentais referentes aos conjuntos testados com os parâmetros-padrão. Deste modo, conclui-se que o GEVA pode ser uma alternativa robusta para análises com múltiplas comparações, podendo ser utilizado para encontrar similaridades entre grupos de condições biológicas.
publishDate	2020
dc.date.issued.fl_str_mv	2020
dc.date.accessioned.fl_str_mv	2021-12-17T04:30:51Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/233086
dc.identifier.nrb.pt_BR.fl_str_mv	001133163
url	http://hdl.handle.net/10183/233086
identifier_str_mv	001133163
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/233086/2/001133163.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/233086/1/001133163.pdf
bitstream.checksum.fl_str_mv	1e6e9be7706cd8c243c146208fbfe589 f32f5b0e70f64f9febe84ed08cabd833
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1800309188892557312

Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações

Registros relacionados