Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento

Detalhes bibliográficos
Autor(a) principal: Cotta, Higor Henrique Aranda
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
Texto Completo: http://repositorio.ufes.br/handle/10/1934
Resumo: Studies of data from air pollution originating from a network of air monitoring involve a large number of variables and observations. From the standpoint of statistical techniques, it is possible to analyze separately each variable of interest. However, this type of analysis can not contemplate the relationship dynamics between these variables. Because of this, it is necessary to use statistical techniques to handle, measure and analyze these data generated jointly. This branch of statistics known as Multivariate Statistics. One important multivariate technique in the area of air pollution is the Principal Component Analysis (PCA), which builds linear combinations of variables to explain the variance-covariance structure of the original data. Air pollution in the Principal Component Analysis is used for: creating indexes of air quality, identi cation of pollution sources, management of air quality monitoring network, preprocessor variables for generalized additive models, besides other applications. In this work PCA is used to study the management and scaling of the Network for Monitoring Air Quality in the Greater Vitoria Region. This work deals with the use of Principal Component Analysis (PCA) in time series with additive outliers. The PCA is one of the most important multivariate techniques which are linear combinations constructed to explain the variance-covariance structure of the original data. Although PCA assumes that the data are serially independent, this assumption is not found in practice situation in time series, e.g. Air Pollution data. PCs calculated from time series observations maintains their orthogonality property, but the components are found to be auto and cross-correlated, which depends on the correlation structure of the original series. These properties and their impact in the use of PCA are one of main objective of this work. Another contribution is related to the study of PCA time series under the presence of additive outliers by proposing a Robust PCA (RPCA) method. It is well known that additive outliers in time series destroys the correlation structure of the data. Since the PCs are computed by using the covariance matrix, the outliers also a ect the properties of PCs. Therefore the Robust PCA should be used in this context. The Robust PCA method proposed here is justi ed empirical and theoretically, and a real data set based on Air Pollution time serie is used to show the usefulness of the Robust PCA method in a real application.
id UFES_578e01a64285151983b65f4b767fb172
oai_identifier_str oai:repositorio.ufes.br:10/1934
network_acronym_str UFES
network_name_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository_id_str 2108
spelling Reisen, Valdério AnselmoCotta, Higor Henrique ArandaReis Junior, Neyval CostaIspany, Marton2016-06-14T18:14:39Z2016-06-24T06:00:06Z2014-10-302014-10-30Studies of data from air pollution originating from a network of air monitoring involve a large number of variables and observations. From the standpoint of statistical techniques, it is possible to analyze separately each variable of interest. However, this type of analysis can not contemplate the relationship dynamics between these variables. Because of this, it is necessary to use statistical techniques to handle, measure and analyze these data generated jointly. This branch of statistics known as Multivariate Statistics. One important multivariate technique in the area of air pollution is the Principal Component Analysis (PCA), which builds linear combinations of variables to explain the variance-covariance structure of the original data. Air pollution in the Principal Component Analysis is used for: creating indexes of air quality, identi cation of pollution sources, management of air quality monitoring network, preprocessor variables for generalized additive models, besides other applications. In this work PCA is used to study the management and scaling of the Network for Monitoring Air Quality in the Greater Vitoria Region. This work deals with the use of Principal Component Analysis (PCA) in time series with additive outliers. The PCA is one of the most important multivariate techniques which are linear combinations constructed to explain the variance-covariance structure of the original data. Although PCA assumes that the data are serially independent, this assumption is not found in practice situation in time series, e.g. Air Pollution data. PCs calculated from time series observations maintains their orthogonality property, but the components are found to be auto and cross-correlated, which depends on the correlation structure of the original series. These properties and their impact in the use of PCA are one of main objective of this work. Another contribution is related to the study of PCA time series under the presence of additive outliers by proposing a Robust PCA (RPCA) method. It is well known that additive outliers in time series destroys the correlation structure of the data. Since the PCs are computed by using the covariance matrix, the outliers also a ect the properties of PCs. Therefore the Robust PCA should be used in this context. The Robust PCA method proposed here is justi ed empirical and theoretically, and a real data set based on Air Pollution time serie is used to show the usefulness of the Robust PCA method in a real application.Os estudos de dados de Poluição do ar originados de uma rede de monitoramento envolvem um n úmero consider ável de vari áveis e observações. Do ponto de vista de técnicas estatísticas, e possível analisar separadamente cada vari ável de interesse. Entretanto, esse tipo de analise pode não contemplar as diversas dinâmicas de relacionamento existentes entre essas variáveis. Devido a isso, faz-se necessário o uso de tecnicas estatísticas capazes de lidar, medir e analisar conjuntamente esses dados gerados. Esse ramo da Estatística e conhecido como estatística multivariada. Na área da poluição do ar destaca-se a analise de componentes principais (ACP), que constroi combinações lineares das variáveis para explicar a estrutura de variância-covariância dos dados originais. Na poluição do ar, a analise de componentes principais e utilizada para: criação de Índices de Qualidade do Ar, Identificação de fontes de poluição, Redimensionamento de uma Rede de Monitoramento, Pre-processador de vari áveis para Modelos Aditivos Generalizados , alem de outras aplicações. Neste trabalho a Analise de Componentes Principais (ACP) e utilizada no estudo do redimensionamento da Rede de Monitoramento da Qualidade do Ar da Região da Grande Vitória (RAMQAr) para o poluente PM10. A ACP assume que os dados sejam não correlacionados no tempo, característica não observada nos dados de poluição do ar. As componentes obtidas de séries temporais mantém a propriedade de ortogonalidade, entretanto, essas componentes são autocorrelacionadas e correlacionadas temporalmente. Esse resultado e demonstrado teórica e empiricamente. A segunda contribuição deste trabalho e estudar a ACP no contexto de séries temporais com outliers aditivos por meio de metodologia robusta. Como já explorado na literatura, os outliers aditivos destroem a estrutura de correlação dos dados e, como as componentes são calculadas da matriz de covariância, os outliers também afetam as propriedades das componentes.CAPESTextCOTTA, Higor Henrique Aranda. Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento. 2014. 74 f. Dissertação (Mestrado em Engenharia Ambiental) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2014.http://repositorio.ufes.br/handle/10/1934porUniversidade Federal do Espírito SantoMestrado em Engenharia AmbientalPrograma de Pós-Graduação em Engenharia AmbientalUFESBRCentro TecnológicoPrincipal component analysisAir pollutionTime series analysisTime domainFrequency domainOutliersRobustezAnálise de componentes principaisAr - PoluiçãoAnálise de séries temporaisEngenharia Sanitária628Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramentoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFESCAPESORIGINALDissertacao Higor Cotta.pdfDissertacao Higor Cotta.pdfapplication/pdf2521368http://repositorio.ufes.br/bitstreams/b71c022a-c1ef-4bff-b80d-f65a294441e2/download52d861f2b58f881364f84b3a0a10ef45MD5110/19342024-07-17 16:57:16.838oai:repositorio.ufes.br:10/1934http://repositorio.ufes.brRepositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestopendoar:21082024-10-15T17:56:16.860036Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false
dc.title.none.fl_str_mv Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
title Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
spellingShingle Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
Cotta, Higor Henrique Aranda
Principal component analysis
Air pollution
Time series analysis
Time domain
Frequency domain
Outliers
Robustez
Engenharia Sanitária
Análise de componentes principais
Ar - Poluição
Análise de séries temporais
628
title_short Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
title_full Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
title_fullStr Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
title_full_unstemmed Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
title_sort Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento
author Cotta, Higor Henrique Aranda
author_facet Cotta, Higor Henrique Aranda
author_role author
dc.contributor.advisor1.fl_str_mv Reisen, Valdério Anselmo
dc.contributor.author.fl_str_mv Cotta, Higor Henrique Aranda
dc.contributor.referee1.fl_str_mv Reis Junior, Neyval Costa
dc.contributor.referee2.fl_str_mv Ispany, Marton
contributor_str_mv Reisen, Valdério Anselmo
Reis Junior, Neyval Costa
Ispany, Marton
dc.subject.eng.fl_str_mv Principal component analysis
Air pollution
Time series analysis
Time domain
Frequency domain
topic Principal component analysis
Air pollution
Time series analysis
Time domain
Frequency domain
Outliers
Robustez
Engenharia Sanitária
Análise de componentes principais
Ar - Poluição
Análise de séries temporais
628
dc.subject.por.fl_str_mv Outliers
Robustez
dc.subject.cnpq.fl_str_mv Engenharia Sanitária
dc.subject.br-rjbn.none.fl_str_mv Análise de componentes principais
Ar - Poluição
Análise de séries temporais
dc.subject.udc.none.fl_str_mv 628
description Studies of data from air pollution originating from a network of air monitoring involve a large number of variables and observations. From the standpoint of statistical techniques, it is possible to analyze separately each variable of interest. However, this type of analysis can not contemplate the relationship dynamics between these variables. Because of this, it is necessary to use statistical techniques to handle, measure and analyze these data generated jointly. This branch of statistics known as Multivariate Statistics. One important multivariate technique in the area of air pollution is the Principal Component Analysis (PCA), which builds linear combinations of variables to explain the variance-covariance structure of the original data. Air pollution in the Principal Component Analysis is used for: creating indexes of air quality, identi cation of pollution sources, management of air quality monitoring network, preprocessor variables for generalized additive models, besides other applications. In this work PCA is used to study the management and scaling of the Network for Monitoring Air Quality in the Greater Vitoria Region. This work deals with the use of Principal Component Analysis (PCA) in time series with additive outliers. The PCA is one of the most important multivariate techniques which are linear combinations constructed to explain the variance-covariance structure of the original data. Although PCA assumes that the data are serially independent, this assumption is not found in practice situation in time series, e.g. Air Pollution data. PCs calculated from time series observations maintains their orthogonality property, but the components are found to be auto and cross-correlated, which depends on the correlation structure of the original series. These properties and their impact in the use of PCA are one of main objective of this work. Another contribution is related to the study of PCA time series under the presence of additive outliers by proposing a Robust PCA (RPCA) method. It is well known that additive outliers in time series destroys the correlation structure of the data. Since the PCs are computed by using the covariance matrix, the outliers also a ect the properties of PCs. Therefore the Robust PCA should be used in this context. The Robust PCA method proposed here is justi ed empirical and theoretically, and a real data set based on Air Pollution time serie is used to show the usefulness of the Robust PCA method in a real application.
publishDate 2014
dc.date.submitted.none.fl_str_mv 2014-10-30
dc.date.issued.fl_str_mv 2014-10-30
dc.date.accessioned.fl_str_mv 2016-06-14T18:14:39Z
dc.date.available.fl_str_mv 2016-06-24T06:00:06Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COTTA, Higor Henrique Aranda. Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento. 2014. 74 f. Dissertação (Mestrado em Engenharia Ambiental) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2014.
dc.identifier.uri.fl_str_mv http://repositorio.ufes.br/handle/10/1934
identifier_str_mv COTTA, Higor Henrique Aranda. Análise de componentes principais robusta em dados de poluição do ar: aplicação à otimização de uma rede de monitoramento. 2014. 74 f. Dissertação (Mestrado em Engenharia Ambiental) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2014.
url http://repositorio.ufes.br/handle/10/1934
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv Text
dc.publisher.none.fl_str_mv Universidade Federal do Espírito Santo
Mestrado em Engenharia Ambiental
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Ambiental
dc.publisher.initials.fl_str_mv UFES
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Centro Tecnológico
publisher.none.fl_str_mv Universidade Federal do Espírito Santo
Mestrado em Engenharia Ambiental
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
instname:Universidade Federal do Espírito Santo (UFES)
instacron:UFES
instname_str Universidade Federal do Espírito Santo (UFES)
instacron_str UFES
institution UFES
reponame_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
collection Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
bitstream.url.fl_str_mv http://repositorio.ufes.br/bitstreams/b71c022a-c1ef-4bff-b80d-f65a294441e2/download
bitstream.checksum.fl_str_mv 52d861f2b58f881364f84b3a0a10ef45
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)
repository.mail.fl_str_mv
_version_ 1813022534060212224