Transformações em dados composicionais para a aplicação da análise de componentes principais

Detalhes bibliográficos
Autor(a) principal: Messias, Ricardo Matioli
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/45/45133/tde-12072016-211056/
Resumo: A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais.
id USP_f71430b0d02d3254ba15fdd5a291cb5f
oai_identifier_str oai:teses.usp.br:tde-12072016-211056
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Transformações em dados composicionais para a aplicação da análise de componentes principaisTransformations in compositional data for application of principal components analysisAdditive log-ratioAdditive log-ratioCenter log-ratioCenter log-ratioComponentes principaisCompositional dataDados composionaisLog transformationPrincipal component analysisSpherical transformationTransformação esféricaTransformação logA análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais.The compositional data analysis is being widely used in several areas of knowledge such as the analysis of rocky sediments, to compare different biological cells and even in forensic analysis to compare crimes evidences. During the history of the analysis of such data, to circumvent the problem of variable\'s constant sum were used many types of adjustments. Until now, we do not have a consensus in which is the best solution to be used in this cases. In this paper, we aim to enunciate seven transformations that most were used over time and their advantages and disadvantages. The principal component analysis was chosen for the comparison of these transformations. We applied this transformations in three real databases with different characteristics, we hope to compare the results and analyze which transformation have the best performance in each database. The comparison criteria were the percentage of explained variance, the variables that were most important to the first principal component,variable\'s loads in the most important principal components as well their correlation with the variables. We also simulated four compositional data bases structures to evaluate the performance of the transformations. For these comparisons and simulations were developed some functions, using the statistical software R, to facilitate comparison between the seven transformations, thus assisting in choosing which of the best transformation fits to the data. From the results we note that: for the real databases, the results of the variance explanation of all transformations are similar, thus Ref and Alr transformations show better performances than the others; in the four simulated structures the Ref and Alr transformations also have the best results in the variance explanation and interpretation of its main components are similar, as well as the transformations Trad, Log and Clr. Thus we note that independently of applying logarithm in and Log and Alr transformations they present very similar results as Ref and Trad transformations, respectively, both in variance explanation and in the interpretation of the principal components.Biblioteca Digitais de Teses e Dissertações da USPBarroso, Lucia PereiraMessias, Ricardo Matioli2016-04-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45133/tde-12072016-211056/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-15T15:59:02Zoai:teses.usp.br:tde-12072016-211056Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-15T15:59:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Transformações em dados composicionais para a aplicação da análise de componentes principais
Transformations in compositional data for application of principal components analysis
title Transformações em dados composicionais para a aplicação da análise de componentes principais
spellingShingle Transformações em dados composicionais para a aplicação da análise de componentes principais
Messias, Ricardo Matioli
Additive log-ratio
Additive log-ratio
Center log-ratio
Center log-ratio
Componentes principais
Compositional data
Dados composionais
Log transformation
Principal component analysis
Spherical transformation
Transformação esférica
Transformação log
title_short Transformações em dados composicionais para a aplicação da análise de componentes principais
title_full Transformações em dados composicionais para a aplicação da análise de componentes principais
title_fullStr Transformações em dados composicionais para a aplicação da análise de componentes principais
title_full_unstemmed Transformações em dados composicionais para a aplicação da análise de componentes principais
title_sort Transformações em dados composicionais para a aplicação da análise de componentes principais
author Messias, Ricardo Matioli
author_facet Messias, Ricardo Matioli
author_role author
dc.contributor.none.fl_str_mv Barroso, Lucia Pereira
dc.contributor.author.fl_str_mv Messias, Ricardo Matioli
dc.subject.por.fl_str_mv Additive log-ratio
Additive log-ratio
Center log-ratio
Center log-ratio
Componentes principais
Compositional data
Dados composionais
Log transformation
Principal component analysis
Spherical transformation
Transformação esférica
Transformação log
topic Additive log-ratio
Additive log-ratio
Center log-ratio
Center log-ratio
Componentes principais
Compositional data
Dados composionais
Log transformation
Principal component analysis
Spherical transformation
Transformação esférica
Transformação log
description A análise de dados composicionais está sendo amplamente utilizada nas diversas áreas do conhecimento como por exemplo na análise de sedimentos rochosos, na comparação de diferentes células e até na análise criminalística na comparação de evidências de crimes. Durante a história da análise deste tipo de dados existiram muitos tipos de ajustes utilizados para contornar o problema da soma constante das variáveis e ainda hoje não temos um consenso de qual a melhor solução a ser utilizada. Neste trabalho, temos como objetivo a enunciação das 7 transformações que mais foram utilizadas ao longo do tempo e suas vantagens e desvantagens. A análise de componentes principais foi escolhida para o comparativo destas transformações. Fizemos a aplicação destas transformações em três bancos de dados reais com características diferentes entre si, comparamos os resultados e analisamos qual das transformações apresentou o melhor desempenho em cada base de dados. Os critérios de comparação foram o percentual da variância explicada, as variáveis que foram mais importantes para a primeira componente principal, cargas das variáveis nas componentes principais mais importantes assim como suas correlações com as variáveis. Também, simulamos quatro estruturas de bases de dados composicionais para avaliar o desempenho das transformações. Para essas comparações e simulações, foram desenvolvidas algumas funções, utilizando o \\textit estatístico R, que visam facilitar a comparação entre as sete transformações, assim auxiliando na escolha de qual das transformações melhor se adapta aos dados. Pelos resultados obtidos notamos que: nas bases de dados reais, os resultados das explicações da variância das transformações são similares e as transformações Ref e Alr mostram melhores desempenhos que as demais; nas quatro estruturas simuladas as transformações Ref e Alr também possuem os melhores resultados na explicação da variância e a interpretação de suas componentes principais são parecidas, assim como as transformações Trad, Log e Clr. Com isso notamos que independentemente da aplicação do logaritmo nas transformações Alr e Log elas apresentaram resultados muitos similares às transformações Ref e Trad, respectivamente, tanto na explicação da variância como na interpretação das componentes principais.
publishDate 2016
dc.date.none.fl_str_mv 2016-04-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/45/45133/tde-12072016-211056/
url http://www.teses.usp.br/teses/disponiveis/45/45133/tde-12072016-211056/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090652716138496