Técnicas exploratórias na deteção de outliers em dados composicionais

Detalhes bibliográficos
Autor(a) principal: Leite, Letícia Cruz Costa
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/29792
Resumo: Dados multivariados que representam descrições quantitativas positivas das partes de um todo como, por exemplo proporções, transmitindo informação relativa em vez de absoluta, são designados por dados composicionais e são o alvo fulcral de estudo da presente dissertação. Em particular, estudam-se e aplicam-se técnicas estatísticas numéricas, baseadas em transformações de log-razões, e técnicas estatísticas gráficas sobre os dados transformados na deteção de composições (observações) atípicas (outliers) às quais correspondem as observações multivariadas que, por algum motivo, diferem das restantes composições do conjunto de dados. Os métodos estatísticos multivariados clássicos tendem a ignorar os outliers, tomando-os como observações “normais” e potenciando assim o enviesamento de resultados. Técnicas estatísticas robustas, que reduzem a influência de outliers, são de extrema importância para uma correta análise e interpretação dos dados. Um dos métodos estatísticos mais usuais na identificação de observações multivariadas atípicas baseia-se na distância de Mahalanobis calculada com estimativas robustas da média e da matriz de covariância populacionais obtidas através do estimador MCD (Minimum Covariance Determinant). Graficamente, o método biplot é uma ferramenta exploratória amplamente utilizada na visualização de observações multivariadas e, consequentemente, de outliers. Considerando o caso especial de dados composicionais, um dos propósitos do presente trabalho reside também em estudar propriedades da distância de Mahalanobis robusta e biplots robustos sobre este tipo de dados na deteção de composições outliers. Comoaplicaçãodestasmetodologiasestatísticasexploram-se, sobopontode vista relativo (isto é, composicional), três conjuntos de dados demográficos, extraídos dos Censos de 2011, baseados na migração interna em Portugal. Esses conjuntos dizem respeito a todos os 308 municípios e, para cada município, têm-se contagens de residentes que afirmaram que no período de 2005 a 2011 mudaram de residência passando a habitar no município em causa. A contagem dos residentes que mudaram de município tem em conta o grupo etário, a habilitação académica e a situação profissional. A análise estatística realizada conduziu à identificação de grupos distintos de municípios outliers entre os três conjuntos de dados. Relativamente à situação profissional as conclusões foram mais interpretáveis. Tendo em conta a distribuição do grupo etário, da habilitação académica e da situação profissional, este estudo denuncia a existência de municípios atípicos por serem mais ou menos atrativos. Usando cartogramas constata-se que muitos destes municípios outliers localizam-se em regiões do interior de Portugal Continental.
id RCAP_1205953c094c6b33da6f6ae741028ef0
oai_identifier_str oai:ria.ua.pt:10773/29792
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Técnicas exploratórias na deteção de outliers em dados composicionaisDados composicionaisTransformações log-razõesObservações atípicasDistância de mahalanobis robustaEstimador MCDBiplot composicional robustoDados multivariados que representam descrições quantitativas positivas das partes de um todo como, por exemplo proporções, transmitindo informação relativa em vez de absoluta, são designados por dados composicionais e são o alvo fulcral de estudo da presente dissertação. Em particular, estudam-se e aplicam-se técnicas estatísticas numéricas, baseadas em transformações de log-razões, e técnicas estatísticas gráficas sobre os dados transformados na deteção de composições (observações) atípicas (outliers) às quais correspondem as observações multivariadas que, por algum motivo, diferem das restantes composições do conjunto de dados. Os métodos estatísticos multivariados clássicos tendem a ignorar os outliers, tomando-os como observações “normais” e potenciando assim o enviesamento de resultados. Técnicas estatísticas robustas, que reduzem a influência de outliers, são de extrema importância para uma correta análise e interpretação dos dados. Um dos métodos estatísticos mais usuais na identificação de observações multivariadas atípicas baseia-se na distância de Mahalanobis calculada com estimativas robustas da média e da matriz de covariância populacionais obtidas através do estimador MCD (Minimum Covariance Determinant). Graficamente, o método biplot é uma ferramenta exploratória amplamente utilizada na visualização de observações multivariadas e, consequentemente, de outliers. Considerando o caso especial de dados composicionais, um dos propósitos do presente trabalho reside também em estudar propriedades da distância de Mahalanobis robusta e biplots robustos sobre este tipo de dados na deteção de composições outliers. Comoaplicaçãodestasmetodologiasestatísticasexploram-se, sobopontode vista relativo (isto é, composicional), três conjuntos de dados demográficos, extraídos dos Censos de 2011, baseados na migração interna em Portugal. Esses conjuntos dizem respeito a todos os 308 municípios e, para cada município, têm-se contagens de residentes que afirmaram que no período de 2005 a 2011 mudaram de residência passando a habitar no município em causa. A contagem dos residentes que mudaram de município tem em conta o grupo etário, a habilitação académica e a situação profissional. A análise estatística realizada conduziu à identificação de grupos distintos de municípios outliers entre os três conjuntos de dados. Relativamente à situação profissional as conclusões foram mais interpretáveis. Tendo em conta a distribuição do grupo etário, da habilitação académica e da situação profissional, este estudo denuncia a existência de municípios atípicos por serem mais ou menos atrativos. Usando cartogramas constata-se que muitos destes municípios outliers localizam-se em regiões do interior de Portugal Continental.Multivariate data of positive values which describe parts of a whole such as proportions, conveying relative rather than absolute information, are referred to as compositional data. This type of data is the main subject of the study of this dissertation. Numerical statistical techniques, based on log-ratios transformations, and graphical statistical techniques on transformed data in the detection of atypical compositions (multivariate observations outliers) are discussed. Outliers are observations that, for some reason, differ from the other observations belonging to the data set. Classic multivariate statistical methods tend to ignore outliers which are taking as “normal” observations and can produce results biased. Hence, robust statistical techniques, which reduce the influence of outliers, are of extreme importance for proper analysis and interpretation of the data. One of the most popular statistical methods for identifying outliers is based on the Mahalanobis distance calculated using robust estimates of the mean and covariance matrix obtained by the MCD (Minimum Covariance Determinant) estimator. On another hand, graphically, the biplot method is an exploratory tool widely used in the visualization of multivariate data and, consequently, outliers. Considering the special case of compositional data, properties of Mahalanobis robust distance and robust biplots on this type of data in the detection of outlier are also studied of this dissertation. The applications of these statistical methodologies on three demographic data sets, extracted from the 2011 Census and based on internal migration in Portugal, are explored from a relative point of view (i.e., compositional). These data sets concern the total set of 308 municipalities of Portugal. For each municipality, there are counts of residents who stated that in the period from 2005 to 2011 they changed their residence and began to live in the municipality in question. The count of the residents who changed the municipality considers the age group, the academic qualification and the occupational status. The statistical analysis performed led to the identification of distinct groups of outlier’s municipalities among the three datasets. Concerning the occupational status the conclusions were more interpretable. Considering the age distribution, academic qualification and occupational status, this study denounces the existence of atypical municipalities because they are more or less attractive. Using cartograms, it is found that many of these outlier’s municipalities are in regions of the interior of Portugal.2020-11-12T14:59:17Z2019-07-26T00:00:00Z2019-07-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/29792porLeite, Letícia Cruz Costainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-05-06T04:28:33Zoai:ria.ua.pt:10773/29792Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-05-06T04:28:33Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Técnicas exploratórias na deteção de outliers em dados composicionais
title Técnicas exploratórias na deteção de outliers em dados composicionais
spellingShingle Técnicas exploratórias na deteção de outliers em dados composicionais
Leite, Letícia Cruz Costa
Dados composicionais
Transformações log-razões
Observações atípicas
Distância de mahalanobis robusta
Estimador MCD
Biplot composicional robusto
title_short Técnicas exploratórias na deteção de outliers em dados composicionais
title_full Técnicas exploratórias na deteção de outliers em dados composicionais
title_fullStr Técnicas exploratórias na deteção de outliers em dados composicionais
title_full_unstemmed Técnicas exploratórias na deteção de outliers em dados composicionais
title_sort Técnicas exploratórias na deteção de outliers em dados composicionais
author Leite, Letícia Cruz Costa
author_facet Leite, Letícia Cruz Costa
author_role author
dc.contributor.author.fl_str_mv Leite, Letícia Cruz Costa
dc.subject.por.fl_str_mv Dados composicionais
Transformações log-razões
Observações atípicas
Distância de mahalanobis robusta
Estimador MCD
Biplot composicional robusto
topic Dados composicionais
Transformações log-razões
Observações atípicas
Distância de mahalanobis robusta
Estimador MCD
Biplot composicional robusto
description Dados multivariados que representam descrições quantitativas positivas das partes de um todo como, por exemplo proporções, transmitindo informação relativa em vez de absoluta, são designados por dados composicionais e são o alvo fulcral de estudo da presente dissertação. Em particular, estudam-se e aplicam-se técnicas estatísticas numéricas, baseadas em transformações de log-razões, e técnicas estatísticas gráficas sobre os dados transformados na deteção de composições (observações) atípicas (outliers) às quais correspondem as observações multivariadas que, por algum motivo, diferem das restantes composições do conjunto de dados. Os métodos estatísticos multivariados clássicos tendem a ignorar os outliers, tomando-os como observações “normais” e potenciando assim o enviesamento de resultados. Técnicas estatísticas robustas, que reduzem a influência de outliers, são de extrema importância para uma correta análise e interpretação dos dados. Um dos métodos estatísticos mais usuais na identificação de observações multivariadas atípicas baseia-se na distância de Mahalanobis calculada com estimativas robustas da média e da matriz de covariância populacionais obtidas através do estimador MCD (Minimum Covariance Determinant). Graficamente, o método biplot é uma ferramenta exploratória amplamente utilizada na visualização de observações multivariadas e, consequentemente, de outliers. Considerando o caso especial de dados composicionais, um dos propósitos do presente trabalho reside também em estudar propriedades da distância de Mahalanobis robusta e biplots robustos sobre este tipo de dados na deteção de composições outliers. Comoaplicaçãodestasmetodologiasestatísticasexploram-se, sobopontode vista relativo (isto é, composicional), três conjuntos de dados demográficos, extraídos dos Censos de 2011, baseados na migração interna em Portugal. Esses conjuntos dizem respeito a todos os 308 municípios e, para cada município, têm-se contagens de residentes que afirmaram que no período de 2005 a 2011 mudaram de residência passando a habitar no município em causa. A contagem dos residentes que mudaram de município tem em conta o grupo etário, a habilitação académica e a situação profissional. A análise estatística realizada conduziu à identificação de grupos distintos de municípios outliers entre os três conjuntos de dados. Relativamente à situação profissional as conclusões foram mais interpretáveis. Tendo em conta a distribuição do grupo etário, da habilitação académica e da situação profissional, este estudo denuncia a existência de municípios atípicos por serem mais ou menos atrativos. Usando cartogramas constata-se que muitos destes municípios outliers localizam-se em regiões do interior de Portugal Continental.
publishDate 2019
dc.date.none.fl_str_mv 2019-07-26T00:00:00Z
2019-07-26
2020-11-12T14:59:17Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/29792
url http://hdl.handle.net/10773/29792
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv mluisa.alvim@gmail.com
_version_ 1817543759550742528