Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/233086 |
Resumo: | Transcritomas descrevem o perfil de expressão gênica de um organismo e oferecem uma quantidade considerável de informações sobre uma condição biológica, o que permite avaliar, por exemplo, todos os genes diferencialmente expressos no contexto de uma doença complexa. Além disso, dezenas de milhares de conjuntos de dados produzidos experimentalmente estão disponíveis publicamente, podendo ser analisados in silico com softwares especializados ou pela linguagem de programação R. No entanto, análises transcritômicas são efetuadas individualmente para cada condição experimental, onde cada comparação gera um resultado independente dos demais, e não há uma metodologia enquadrada a milhares de genes para comparar múltiplas condições biológicas entre si. Neste sentido, considerando a aplicabilidade da linguagem R para transcritomas, foi desenvolvido um pacote de métodos em R, denominado Gene Expression Variation Analysis (GEVA), para avaliar quais genes poderiam responder a diferentes condições experimentais. O pacote recebe múltiplos resultados de expressão diferencial como entrada e efetua uma sequência de operações estatísticas intermediárias, como sumarização ponderada, separação por quantis e clusterização, a fim de encontrar genes cuja expressão altera-se similarmente entre os experimentos. Essas operações levam todos os genes em conta para que se possa distinguir os transcritos relevantes daqueles que não demonstram diferença de expressão gênica. Além disso, se as condições experimentais forem divididas em grupos (denominados fatores), o módulo também utilizará testes ANOVA (Fisher e Levene) para identificar genes diferencialmente expressos em resposta a todos os fatores ou a um fator específico. Deste modo, três diferentes classificações para genes relevantes são definidas nos resultados finais: similar, fator-dependente, e fator-específico. Para validar esses resultados, após o desenvolvimento do GEVA, foram testados 28 conjuntos de dados transcritômicos utilizando 11 diferentes combinações de parâmetros disponíveis pelo pacote, incluindo uma variedade de métodos de clusterização, de quantis e de sumarização. As classificações finais foram avaliadas especialmente para condições de nocaute, onde a mudança na expressão dos genes modificados já é esperada. Neste sentido, embora as classificações finais fossem afetadas pela escolha de certos parâmetros, os resultados dos testes demonstraram coerência com os estudos experimentais referentes aos conjuntos testados com os parâmetros-padrão. Deste modo, conclui-se que o GEVA pode ser uma alternativa robusta para análises com múltiplas comparações, podendo ser utilizado para encontrar similaridades entre grupos de condições biológicas. |
id |
URGS_442180c3de1d18ec1e9d3cb5677aa92e |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/233086 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Nunes, Itamar José GuimarãesDorn, MárcioFeltes, Bruno César2021-12-17T04:30:51Z2020http://hdl.handle.net/10183/233086001133163Transcritomas descrevem o perfil de expressão gênica de um organismo e oferecem uma quantidade considerável de informações sobre uma condição biológica, o que permite avaliar, por exemplo, todos os genes diferencialmente expressos no contexto de uma doença complexa. Além disso, dezenas de milhares de conjuntos de dados produzidos experimentalmente estão disponíveis publicamente, podendo ser analisados in silico com softwares especializados ou pela linguagem de programação R. No entanto, análises transcritômicas são efetuadas individualmente para cada condição experimental, onde cada comparação gera um resultado independente dos demais, e não há uma metodologia enquadrada a milhares de genes para comparar múltiplas condições biológicas entre si. Neste sentido, considerando a aplicabilidade da linguagem R para transcritomas, foi desenvolvido um pacote de métodos em R, denominado Gene Expression Variation Analysis (GEVA), para avaliar quais genes poderiam responder a diferentes condições experimentais. O pacote recebe múltiplos resultados de expressão diferencial como entrada e efetua uma sequência de operações estatísticas intermediárias, como sumarização ponderada, separação por quantis e clusterização, a fim de encontrar genes cuja expressão altera-se similarmente entre os experimentos. Essas operações levam todos os genes em conta para que se possa distinguir os transcritos relevantes daqueles que não demonstram diferença de expressão gênica. Além disso, se as condições experimentais forem divididas em grupos (denominados fatores), o módulo também utilizará testes ANOVA (Fisher e Levene) para identificar genes diferencialmente expressos em resposta a todos os fatores ou a um fator específico. Deste modo, três diferentes classificações para genes relevantes são definidas nos resultados finais: similar, fator-dependente, e fator-específico. Para validar esses resultados, após o desenvolvimento do GEVA, foram testados 28 conjuntos de dados transcritômicos utilizando 11 diferentes combinações de parâmetros disponíveis pelo pacote, incluindo uma variedade de métodos de clusterização, de quantis e de sumarização. As classificações finais foram avaliadas especialmente para condições de nocaute, onde a mudança na expressão dos genes modificados já é esperada. Neste sentido, embora as classificações finais fossem afetadas pela escolha de certos parâmetros, os resultados dos testes demonstraram coerência com os estudos experimentais referentes aos conjuntos testados com os parâmetros-padrão. Deste modo, conclui-se que o GEVA pode ser uma alternativa robusta para análises com múltiplas comparações, podendo ser utilizado para encontrar similaridades entre grupos de condições biológicas.Transcriptomes represent an organism’s gene expression profile and abound substantial information for a biological condition, by which it is possible to evaluate, for instance, an entire set of genes in the context of a complex disease. Furthermore, there are dozen of thousands of publicly available datasets from previous experiments which can be analyzed in silico using specialized software or the R programming language. However, transcriptomic analyses consider experimental conditions individually, giving one independent result per comparison, and there is no suitable methodology to compare within multiple biological conditions containing thousands of genes. In this sense, considering that R has been adopted for transcriptomic analyses, we developed a new R package named Gene Expression Variation Analysis (GEVA) to evaluate which genes would react in response to different experiments. This package gets multiple differential expression analysis results as input and performs an array of statistical steps such as weighted summarization, quantiles partition, and clustering, to find genes whose differential expression is similar among the experiments. These operations take all genes into account so that relevant transcripts are distinguished from those without differential expression. In addition, if the experimental conditions are divided into groups (i.e., factors), this module will also perform ANOVA (Fisher’s and Levene’s) tests to identify differentially expressed genes in response to every factor or to a single factor. This way, the final results present three possible classifications for relevant genes: similar, factor-dependent, and factor-specific. To validate these results subsequently to the GEVA’s development, 28 transcriptomic datasets were tested using 11 different combinations of the available parameters in this package, including several methods for clustering, quantiles and summarization. The validation regarding the final classifications was particularly performed using knockout studies, as these cases include modified genes whose differential expression is expected. In this sense, although some of the final classifications differed depending on the parameters’ choice, the test results from the default parameters corroborated with the published experimental studies regarding the selected datasets. Thus, we conclude that GEVA can effectively find similarities between groups of biological conditions, and therefore could be a robust alternative for multiple comparison analyses.application/pdfporGeneTranscriptomaExpressão gênicaTranscriptomicsGene expressionGene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparaçõesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulCentro de Biotecnologia do Estado do Rio Grande do SulPrograma de Pós-Graduação em Biologia Celular e MolecularPorto Alegre, BR-RS2020mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001133163.pdf.txt001133163.pdf.txtExtracted Texttext/plain217025http://www.lume.ufrgs.br/bitstream/10183/233086/2/001133163.pdf.txt1e6e9be7706cd8c243c146208fbfe589MD52ORIGINAL001133163.pdfTexto completoapplication/pdf6796448http://www.lume.ufrgs.br/bitstream/10183/233086/1/001133163.pdff32f5b0e70f64f9febe84ed08cabd833MD5110183/2330862022-01-07 05:31:49.583348oai:www.lume.ufrgs.br:10183/233086Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-01-07T07:31:49Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações |
title |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações |
spellingShingle |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações Nunes, Itamar José Guimarães Gene Transcriptoma Expressão gênica Transcriptomics Gene expression |
title_short |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações |
title_full |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações |
title_fullStr |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações |
title_full_unstemmed |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações |
title_sort |
Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações |
author |
Nunes, Itamar José Guimarães |
author_facet |
Nunes, Itamar José Guimarães |
author_role |
author |
dc.contributor.author.fl_str_mv |
Nunes, Itamar José Guimarães |
dc.contributor.advisor1.fl_str_mv |
Dorn, Márcio |
dc.contributor.advisor-co1.fl_str_mv |
Feltes, Bruno César |
contributor_str_mv |
Dorn, Márcio Feltes, Bruno César |
dc.subject.por.fl_str_mv |
Gene Transcriptoma Expressão gênica |
topic |
Gene Transcriptoma Expressão gênica Transcriptomics Gene expression |
dc.subject.eng.fl_str_mv |
Transcriptomics Gene expression |
description |
Transcritomas descrevem o perfil de expressão gênica de um organismo e oferecem uma quantidade considerável de informações sobre uma condição biológica, o que permite avaliar, por exemplo, todos os genes diferencialmente expressos no contexto de uma doença complexa. Além disso, dezenas de milhares de conjuntos de dados produzidos experimentalmente estão disponíveis publicamente, podendo ser analisados in silico com softwares especializados ou pela linguagem de programação R. No entanto, análises transcritômicas são efetuadas individualmente para cada condição experimental, onde cada comparação gera um resultado independente dos demais, e não há uma metodologia enquadrada a milhares de genes para comparar múltiplas condições biológicas entre si. Neste sentido, considerando a aplicabilidade da linguagem R para transcritomas, foi desenvolvido um pacote de métodos em R, denominado Gene Expression Variation Analysis (GEVA), para avaliar quais genes poderiam responder a diferentes condições experimentais. O pacote recebe múltiplos resultados de expressão diferencial como entrada e efetua uma sequência de operações estatísticas intermediárias, como sumarização ponderada, separação por quantis e clusterização, a fim de encontrar genes cuja expressão altera-se similarmente entre os experimentos. Essas operações levam todos os genes em conta para que se possa distinguir os transcritos relevantes daqueles que não demonstram diferença de expressão gênica. Além disso, se as condições experimentais forem divididas em grupos (denominados fatores), o módulo também utilizará testes ANOVA (Fisher e Levene) para identificar genes diferencialmente expressos em resposta a todos os fatores ou a um fator específico. Deste modo, três diferentes classificações para genes relevantes são definidas nos resultados finais: similar, fator-dependente, e fator-específico. Para validar esses resultados, após o desenvolvimento do GEVA, foram testados 28 conjuntos de dados transcritômicos utilizando 11 diferentes combinações de parâmetros disponíveis pelo pacote, incluindo uma variedade de métodos de clusterização, de quantis e de sumarização. As classificações finais foram avaliadas especialmente para condições de nocaute, onde a mudança na expressão dos genes modificados já é esperada. Neste sentido, embora as classificações finais fossem afetadas pela escolha de certos parâmetros, os resultados dos testes demonstraram coerência com os estudos experimentais referentes aos conjuntos testados com os parâmetros-padrão. Deste modo, conclui-se que o GEVA pode ser uma alternativa robusta para análises com múltiplas comparações, podendo ser utilizado para encontrar similaridades entre grupos de condições biológicas. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020 |
dc.date.accessioned.fl_str_mv |
2021-12-17T04:30:51Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/233086 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001133163 |
url |
http://hdl.handle.net/10183/233086 |
identifier_str_mv |
001133163 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/233086/2/001133163.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/233086/1/001133163.pdf |
bitstream.checksum.fl_str_mv |
1e6e9be7706cd8c243c146208fbfe589 f32f5b0e70f64f9febe84ed08cabd833 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1816737043622920192 |