Novas abordagens na deteção de outliers em dados composicionais

Detalhes bibliográficos
Autor(a) principal: Maltez, Marta Luísa Santos
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10773/30897
Resumo: Dados composicionais são um caso especial de dados multivariados que representam informação relativa na forma de log-razões entre as componentes. Os vetores são constituídos por componentes estritamente positivas, que têm como propriedades fundamentais a invariância de escala, a invariância de permutação e a coerência subcomposicional. As composições têm a sua representação num subespaço designado de simplex, sobre o qual se define a chamada Geometria de Aitchison. Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual este faz parte e sempre despertaram o interesse dos estatísticos. Os métodos de deteção de outliers são geralmente classificados em dois tipos: os métodos baseados em distância robusta e os métodos não tradicionais. Os primeiros baseiam-se em calcular estimativas para a média e covariância dos dados e depois calcular a distância robusta dessas observações e os segundos evitam o uso da distância e optam por fazer uma abordagem com mapas não lineares, uso dos vetores próprios ou projeções, entre outros. Até ao momento, os métodos numéricos e gráficos para detetar outliers em dados composicionais baseiam-se na distância de Mahalanobis robusta. Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados composicionais. O primeiro método é a Abordagem Comediana (Comedian Approach) e o segundo método é a Atipicidade Ajustada (Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos dados. Pretende-se então, aplicar esses métodos a dois conjuntos de dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se, numa perspetiva composicional, existem observações atípicas ou não.
id RCAP_f6c011564e9c8991a76b853a9b75c211
oai_identifier_str oai:ria.ua.pt:10773/30897
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Novas abordagens na deteção de outliers em dados composicionaisDados composicionaisObservações atípicasDistância de Mahalanobis robustaAbordagem comedianaEstimador de Stahel-DonohoAtipicidade ajustadaDados epidemiológicosQualidade dos solosDados composicionais são um caso especial de dados multivariados que representam informação relativa na forma de log-razões entre as componentes. Os vetores são constituídos por componentes estritamente positivas, que têm como propriedades fundamentais a invariância de escala, a invariância de permutação e a coerência subcomposicional. As composições têm a sua representação num subespaço designado de simplex, sobre o qual se define a chamada Geometria de Aitchison. Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual este faz parte e sempre despertaram o interesse dos estatísticos. Os métodos de deteção de outliers são geralmente classificados em dois tipos: os métodos baseados em distância robusta e os métodos não tradicionais. Os primeiros baseiam-se em calcular estimativas para a média e covariância dos dados e depois calcular a distância robusta dessas observações e os segundos evitam o uso da distância e optam por fazer uma abordagem com mapas não lineares, uso dos vetores próprios ou projeções, entre outros. Até ao momento, os métodos numéricos e gráficos para detetar outliers em dados composicionais baseiam-se na distância de Mahalanobis robusta. Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados composicionais. O primeiro método é a Abordagem Comediana (Comedian Approach) e o segundo método é a Atipicidade Ajustada (Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos dados. Pretende-se então, aplicar esses métodos a dois conjuntos de dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se, numa perspetiva composicional, existem observações atípicas ou não.Compositional data are a special case of multivariate data which represent relative information in the form of log-ratios between the components. The vectors are constituted by components strictly positive with fundamental properties the scale invariance, permutation invariance and subcompositional coherence. Compositions are repre sented in a Euclidian subspace named simplex where the so-called Aitchison Geometry is applied. Outliers, or atypical observations, are data which seems to be substantially deviated from the other observations in the same dataset. Outlier detection methods are usually classified into two types: robust distance-based methods and non-traditional methods. The former are based on the Mahalanobis distance calculated using robust estimates for the mean and the covariance matrix. The later avoid the use of distance and prefer to use non-linear maps, eigenvectors or projections, between others. Until now, outlier detection methods in compositional data are based on robust distance and Minimum Covariance Determinant for estimating the covariance matrix. Besides numerical approach, these methodologies are also depicted on the graphical representations. In this work, two other approaches are proposed to detect outliers in compositional data. The first method is the Comedian Approach and the second is the Adjusted Outlyingness. The last one is a modification of the Stahel-Donoho Estimator and any type of distribution about the data is assumed. These methods are applied on two real datasets: epidemiological data related to AIDS in Cape Verde and geochemical data related to soil quality in Lisbon (Portugal). Results show the existence of atypical observations, in a compositional perspective.2021-03-17T15:28:58Z2020-07-13T00:00:00Z2020-07-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/30897porMaltez, Marta Luísa Santosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:59:44Zoai:ria.ua.pt:10773/30897Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:02:55.489651Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Novas abordagens na deteção de outliers em dados composicionais
title Novas abordagens na deteção de outliers em dados composicionais
spellingShingle Novas abordagens na deteção de outliers em dados composicionais
Maltez, Marta Luísa Santos
Dados composicionais
Observações atípicas
Distância de Mahalanobis robusta
Abordagem comediana
Estimador de Stahel-Donoho
Atipicidade ajustada
Dados epidemiológicos
Qualidade dos solos
title_short Novas abordagens na deteção de outliers em dados composicionais
title_full Novas abordagens na deteção de outliers em dados composicionais
title_fullStr Novas abordagens na deteção de outliers em dados composicionais
title_full_unstemmed Novas abordagens na deteção de outliers em dados composicionais
title_sort Novas abordagens na deteção de outliers em dados composicionais
author Maltez, Marta Luísa Santos
author_facet Maltez, Marta Luísa Santos
author_role author
dc.contributor.author.fl_str_mv Maltez, Marta Luísa Santos
dc.subject.por.fl_str_mv Dados composicionais
Observações atípicas
Distância de Mahalanobis robusta
Abordagem comediana
Estimador de Stahel-Donoho
Atipicidade ajustada
Dados epidemiológicos
Qualidade dos solos
topic Dados composicionais
Observações atípicas
Distância de Mahalanobis robusta
Abordagem comediana
Estimador de Stahel-Donoho
Atipicidade ajustada
Dados epidemiológicos
Qualidade dos solos
description Dados composicionais são um caso especial de dados multivariados que representam informação relativa na forma de log-razões entre as componentes. Os vetores são constituídos por componentes estritamente positivas, que têm como propriedades fundamentais a invariância de escala, a invariância de permutação e a coerência subcomposicional. As composições têm a sua representação num subespaço designado de simplex, sobre o qual se define a chamada Geometria de Aitchison. Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual este faz parte e sempre despertaram o interesse dos estatísticos. Os métodos de deteção de outliers são geralmente classificados em dois tipos: os métodos baseados em distância robusta e os métodos não tradicionais. Os primeiros baseiam-se em calcular estimativas para a média e covariância dos dados e depois calcular a distância robusta dessas observações e os segundos evitam o uso da distância e optam por fazer uma abordagem com mapas não lineares, uso dos vetores próprios ou projeções, entre outros. Até ao momento, os métodos numéricos e gráficos para detetar outliers em dados composicionais baseiam-se na distância de Mahalanobis robusta. Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados composicionais. O primeiro método é a Abordagem Comediana (Comedian Approach) e o segundo método é a Atipicidade Ajustada (Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos dados. Pretende-se então, aplicar esses métodos a dois conjuntos de dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se, numa perspetiva composicional, existem observações atípicas ou não.
publishDate 2020
dc.date.none.fl_str_mv 2020-07-13T00:00:00Z
2020-07-13
2021-03-17T15:28:58Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10773/30897
url http://hdl.handle.net/10773/30897
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137684643381248