Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais

Detalhes bibliográficos
Autor(a) principal: Almendra Filho, Geraldo Lima
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.2/11872
Resumo: Análise de Componentes Principais (Principal Component Analysis – PCA), é um método de Análise Multivariada que utiliza uma transformação linear para reduzir a dimensão de bancos de dados, transformando grandes conjuntos de variáveis com suas instâncias associadas (dados coletados), em subconjuntos não correlacionados com agrupamentos alternativos das variáveis originais, formando novas variáveis com os mesmos registros de entrada de dados visando analisar e explicar a variação total dos dados através de componentes ou fatores, que são definidos como combinações lineares das variáveis originais que mais influenciam o seu comportamento. O mérito da redução da dimensionalidade, é trocar um pouco de precisão por, principalmente, simplicidade, pela facilidade de explorar, visualizar, analisar e explicar, ao escolhermos poucos CPs (Componentes Principais) que explicam as maiores parcelas de variabilidade dos dados. A partir de uma base de dados que contém 1599 registros de vinhos tintos (Data Folder da fonte [1]), vamos reagrupar suas variáveis, eliminando as redundâncias ou semelhanças por força das correlações identificadas no conjunto de dados. O objetivo é formar subconjuntos não correlacionados, ou com mínimas correlações e alta dispersão o que, naturalmente, vem às custas relativas da precisão analítica pontual. Como o banco de dados não informa os nomes de rótulos (marcas dos vinhos) por decisão do autor da pesquisa, estes serão substituídos por “rótulos numéricos” em ordem crescente para melhor conduzir e auxiliar a Análise Multivariada através da PCA. A base citada tem como origem o estudo de P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis [1] e apresenta em arquivo csv os registros de dados associados a 12 variáveis - atributos químicos dos vinhos – e a uma variável categórica, no caso o tipo de vinho tinto. Nosso estudo contém, a par de avaliações estatísticas descritivas no contexto do PCA, uma abordagem das relações da qualidade com mudanças nas métricas dos atributos como um dos objetivos do projeto já que não podemos correlacionar “marcas formais” mas sim suas instâncias com as notas obtidas na avaliação sensorial. Veremos que a qualidade, sabor e outras características, caracterizadas através de avalição sensorial feita [3] por um grupo de provadores, estão correlacionados em maior ou menor grau com alterações métricas nos atributos – componentes químicos: (i) altamente correlacionados com o grau alcoólico e (ii), em menor escala, com os atributos cloretos, sulfatos, densidade, acidez fixa e ácido cítrico. Em termos dos CPs necessários para avaliar estatisticamente de forma multivariada a base de dados, será demonstrado que apenas 4 CPs resultantes do processo PCA detém cerca de 69 % das variações explicadas validando o uso do modelo PCA para analisar estatisticamente e de forma multivariada a base de dados. Todos os conceitos matemáticos e estatísticos necessários para o desenvolvimento deste trabalho foram expostos ao longo do texto, devendo-se enfatizar que os algoritmos (packages) da linguagem RStudio trazem embutidos as rotinas de cálculos necessárias para o desenvolvimento do processo PCA. Como será descrito nos Comentários Conclusivos, os objetivos da Dissertação foram atingidos pois foi possível desenvolver o processo PCA sobre a base de dados escolhida, para além da utilização detalhada do RStudio e seus “packages” para esta finalidade de Análise Multivariada, como pode ser visto no script do Anexo I.
id RCAP_a1d0e578824289321161e151e8f2d80a
oai_identifier_str oai:repositorioaberto.uab.pt:10400.2/11872
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principaisAnálise de componentes principaisAnálise estatística multivariadaWine QualityUCI Data SetRStudioÁlgebra linearPCAMultivariate analysisLinear algebraODS::04:Educação de QualidadeAnálise de Componentes Principais (Principal Component Analysis – PCA), é um método de Análise Multivariada que utiliza uma transformação linear para reduzir a dimensão de bancos de dados, transformando grandes conjuntos de variáveis com suas instâncias associadas (dados coletados), em subconjuntos não correlacionados com agrupamentos alternativos das variáveis originais, formando novas variáveis com os mesmos registros de entrada de dados visando analisar e explicar a variação total dos dados através de componentes ou fatores, que são definidos como combinações lineares das variáveis originais que mais influenciam o seu comportamento. O mérito da redução da dimensionalidade, é trocar um pouco de precisão por, principalmente, simplicidade, pela facilidade de explorar, visualizar, analisar e explicar, ao escolhermos poucos CPs (Componentes Principais) que explicam as maiores parcelas de variabilidade dos dados. A partir de uma base de dados que contém 1599 registros de vinhos tintos (Data Folder da fonte [1]), vamos reagrupar suas variáveis, eliminando as redundâncias ou semelhanças por força das correlações identificadas no conjunto de dados. O objetivo é formar subconjuntos não correlacionados, ou com mínimas correlações e alta dispersão o que, naturalmente, vem às custas relativas da precisão analítica pontual. Como o banco de dados não informa os nomes de rótulos (marcas dos vinhos) por decisão do autor da pesquisa, estes serão substituídos por “rótulos numéricos” em ordem crescente para melhor conduzir e auxiliar a Análise Multivariada através da PCA. A base citada tem como origem o estudo de P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis [1] e apresenta em arquivo csv os registros de dados associados a 12 variáveis - atributos químicos dos vinhos – e a uma variável categórica, no caso o tipo de vinho tinto. Nosso estudo contém, a par de avaliações estatísticas descritivas no contexto do PCA, uma abordagem das relações da qualidade com mudanças nas métricas dos atributos como um dos objetivos do projeto já que não podemos correlacionar “marcas formais” mas sim suas instâncias com as notas obtidas na avaliação sensorial. Veremos que a qualidade, sabor e outras características, caracterizadas através de avalição sensorial feita [3] por um grupo de provadores, estão correlacionados em maior ou menor grau com alterações métricas nos atributos – componentes químicos: (i) altamente correlacionados com o grau alcoólico e (ii), em menor escala, com os atributos cloretos, sulfatos, densidade, acidez fixa e ácido cítrico. Em termos dos CPs necessários para avaliar estatisticamente de forma multivariada a base de dados, será demonstrado que apenas 4 CPs resultantes do processo PCA detém cerca de 69 % das variações explicadas validando o uso do modelo PCA para analisar estatisticamente e de forma multivariada a base de dados. Todos os conceitos matemáticos e estatísticos necessários para o desenvolvimento deste trabalho foram expostos ao longo do texto, devendo-se enfatizar que os algoritmos (packages) da linguagem RStudio trazem embutidos as rotinas de cálculos necessárias para o desenvolvimento do processo PCA. Como será descrito nos Comentários Conclusivos, os objetivos da Dissertação foram atingidos pois foi possível desenvolver o processo PCA sobre a base de dados escolhida, para além da utilização detalhada do RStudio e seus “packages” para esta finalidade de Análise Multivariada, como pode ser visto no script do Anexo I.This work aims at the study of a database with 1599 red wine records through multivariate statistics using Principal Components Analysis (PCA), and an assessment of relations between wine components and quality measured by a sensory evaluation by tasting specialists. PCA is a method of multivariate analysis that uses a linear transformation to reduce the dimension of databases, transforming large sets of variables with its associated instances (data collected), in non-correlated subsets. These subsets will form alternative groups of the original variables defining new variables (main components) with the same data input records, to analyze and explain the data total variability through new components or factors, which are defined as linear combinations of the original variables that influence their behavior, this is the main objective of the PCA. The merit of dimensionality reduction is to change a little precision by mainly simplicity for the ease of explore, visualize, analyze, and explain, when we choose few variables that explain the largest parcels of data variability. The database does not have the names of the wine brands, these are substituted by numeral labels in an increasing order, which allows us to perform a multivariable analysis using PCA. The wine database is from the study of P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis [1] (csv file), containing de data associated with 12 variables – chemical wine attributes – and a categorical variable specifying the type of wine. Our study focusses on descriptive statistical evaluations (in a PCA context) and also explores the relation between the wine quality and changes in the metrics of the attributes. This is one of the objectives, since one cannot correlate the wine brands with the grades obtained by the sensorial evaluation. We shall see that the quality, taste and other wine characteristics from the sensorial evaluation [3] (Parts 8 and 9), are correlated in some degree with changes in the wine attributes metrics – chemical attributes: (i) are highly correlated with the alcohol level and (ii) are in a smaller extent correlated with chlorides, sulfates, density, fixed acidity and citric acid. Regarding the principal components (the new variables associated with the wine records) required to statistically evaluate the data base (on a multivariate perspective), this work demonstrates that only 4 principal components are responsible for 69% of the explained variability, which validates the use of PCA to analyze the data. All mathematical and statistics concepts required for the development of this work will be explained throughout the text, as necessary. However, we should emphasize that the algorithms (packages) of the software RStudio have embedded the necessary programs and calculations for the development of PCA. This dissertation achieves its objectives, since it was possible to develop a PCA with the proposed database and to use in detail the RStudio software (and its packages) in a multivariate analysis.Nunes, Catarina S.Repositório AbertoAlmendra Filho, Geraldo Lima2022-03-212022-03-302025-03-21T00:00:00Z2022-03-21T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.2/11872TID:202988325porinfo:eu-repo/semantics/embargoedAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-16T15:40:42Zoai:repositorioaberto.uab.pt:10400.2/11872Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:51:12.946194Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
title Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
spellingShingle Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
Almendra Filho, Geraldo Lima
Análise de componentes principais
Análise estatística multivariada
Wine Quality
UCI Data Set
RStudio
Álgebra linear
PCA
Multivariate analysis
Linear algebra
ODS::04:Educação de Qualidade
title_short Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
title_full Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
title_fullStr Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
title_full_unstemmed Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
title_sort Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais
author Almendra Filho, Geraldo Lima
author_facet Almendra Filho, Geraldo Lima
author_role author
dc.contributor.none.fl_str_mv Nunes, Catarina S.
Repositório Aberto
dc.contributor.author.fl_str_mv Almendra Filho, Geraldo Lima
dc.subject.por.fl_str_mv Análise de componentes principais
Análise estatística multivariada
Wine Quality
UCI Data Set
RStudio
Álgebra linear
PCA
Multivariate analysis
Linear algebra
ODS::04:Educação de Qualidade
topic Análise de componentes principais
Análise estatística multivariada
Wine Quality
UCI Data Set
RStudio
Álgebra linear
PCA
Multivariate analysis
Linear algebra
ODS::04:Educação de Qualidade
description Análise de Componentes Principais (Principal Component Analysis – PCA), é um método de Análise Multivariada que utiliza uma transformação linear para reduzir a dimensão de bancos de dados, transformando grandes conjuntos de variáveis com suas instâncias associadas (dados coletados), em subconjuntos não correlacionados com agrupamentos alternativos das variáveis originais, formando novas variáveis com os mesmos registros de entrada de dados visando analisar e explicar a variação total dos dados através de componentes ou fatores, que são definidos como combinações lineares das variáveis originais que mais influenciam o seu comportamento. O mérito da redução da dimensionalidade, é trocar um pouco de precisão por, principalmente, simplicidade, pela facilidade de explorar, visualizar, analisar e explicar, ao escolhermos poucos CPs (Componentes Principais) que explicam as maiores parcelas de variabilidade dos dados. A partir de uma base de dados que contém 1599 registros de vinhos tintos (Data Folder da fonte [1]), vamos reagrupar suas variáveis, eliminando as redundâncias ou semelhanças por força das correlações identificadas no conjunto de dados. O objetivo é formar subconjuntos não correlacionados, ou com mínimas correlações e alta dispersão o que, naturalmente, vem às custas relativas da precisão analítica pontual. Como o banco de dados não informa os nomes de rótulos (marcas dos vinhos) por decisão do autor da pesquisa, estes serão substituídos por “rótulos numéricos” em ordem crescente para melhor conduzir e auxiliar a Análise Multivariada através da PCA. A base citada tem como origem o estudo de P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis [1] e apresenta em arquivo csv os registros de dados associados a 12 variáveis - atributos químicos dos vinhos – e a uma variável categórica, no caso o tipo de vinho tinto. Nosso estudo contém, a par de avaliações estatísticas descritivas no contexto do PCA, uma abordagem das relações da qualidade com mudanças nas métricas dos atributos como um dos objetivos do projeto já que não podemos correlacionar “marcas formais” mas sim suas instâncias com as notas obtidas na avaliação sensorial. Veremos que a qualidade, sabor e outras características, caracterizadas através de avalição sensorial feita [3] por um grupo de provadores, estão correlacionados em maior ou menor grau com alterações métricas nos atributos – componentes químicos: (i) altamente correlacionados com o grau alcoólico e (ii), em menor escala, com os atributos cloretos, sulfatos, densidade, acidez fixa e ácido cítrico. Em termos dos CPs necessários para avaliar estatisticamente de forma multivariada a base de dados, será demonstrado que apenas 4 CPs resultantes do processo PCA detém cerca de 69 % das variações explicadas validando o uso do modelo PCA para analisar estatisticamente e de forma multivariada a base de dados. Todos os conceitos matemáticos e estatísticos necessários para o desenvolvimento deste trabalho foram expostos ao longo do texto, devendo-se enfatizar que os algoritmos (packages) da linguagem RStudio trazem embutidos as rotinas de cálculos necessárias para o desenvolvimento do processo PCA. Como será descrito nos Comentários Conclusivos, os objetivos da Dissertação foram atingidos pois foi possível desenvolver o processo PCA sobre a base de dados escolhida, para além da utilização detalhada do RStudio e seus “packages” para esta finalidade de Análise Multivariada, como pode ser visto no script do Anexo I.
publishDate 2022
dc.date.none.fl_str_mv 2022-03-21
2022-03-30
2022-03-21T00:00:00Z
2025-03-21T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.2/11872
TID:202988325
url http://hdl.handle.net/10400.2/11872
identifier_str_mv TID:202988325
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/embargoedAccess
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135102055219200