Novas abordagens na deteção de outliers em dados composicionais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10773/30897 |
Resumo: | Dados composicionais são um caso especial de dados multivariados que representam informação relativa na forma de log-razões entre as componentes. Os vetores são constituídos por componentes estritamente positivas, que têm como propriedades fundamentais a invariância de escala, a invariância de permutação e a coerência subcomposicional. As composições têm a sua representação num subespaço designado de simplex, sobre o qual se define a chamada Geometria de Aitchison. Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual este faz parte e sempre despertaram o interesse dos estatísticos. Os métodos de deteção de outliers são geralmente classificados em dois tipos: os métodos baseados em distância robusta e os métodos não tradicionais. Os primeiros baseiam-se em calcular estimativas para a média e covariância dos dados e depois calcular a distância robusta dessas observações e os segundos evitam o uso da distância e optam por fazer uma abordagem com mapas não lineares, uso dos vetores próprios ou projeções, entre outros. Até ao momento, os métodos numéricos e gráficos para detetar outliers em dados composicionais baseiam-se na distância de Mahalanobis robusta. Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados composicionais. O primeiro método é a Abordagem Comediana (Comedian Approach) e o segundo método é a Atipicidade Ajustada (Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos dados. Pretende-se então, aplicar esses métodos a dois conjuntos de dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se, numa perspetiva composicional, existem observações atípicas ou não. |
id |
RCAP_f6c011564e9c8991a76b853a9b75c211 |
---|---|
oai_identifier_str |
oai:ria.ua.pt:10773/30897 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Novas abordagens na deteção de outliers em dados composicionaisDados composicionaisObservações atípicasDistância de Mahalanobis robustaAbordagem comedianaEstimador de Stahel-DonohoAtipicidade ajustadaDados epidemiológicosQualidade dos solosDados composicionais são um caso especial de dados multivariados que representam informação relativa na forma de log-razões entre as componentes. Os vetores são constituídos por componentes estritamente positivas, que têm como propriedades fundamentais a invariância de escala, a invariância de permutação e a coerência subcomposicional. As composições têm a sua representação num subespaço designado de simplex, sobre o qual se define a chamada Geometria de Aitchison. Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual este faz parte e sempre despertaram o interesse dos estatísticos. Os métodos de deteção de outliers são geralmente classificados em dois tipos: os métodos baseados em distância robusta e os métodos não tradicionais. Os primeiros baseiam-se em calcular estimativas para a média e covariância dos dados e depois calcular a distância robusta dessas observações e os segundos evitam o uso da distância e optam por fazer uma abordagem com mapas não lineares, uso dos vetores próprios ou projeções, entre outros. Até ao momento, os métodos numéricos e gráficos para detetar outliers em dados composicionais baseiam-se na distância de Mahalanobis robusta. Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados composicionais. O primeiro método é a Abordagem Comediana (Comedian Approach) e o segundo método é a Atipicidade Ajustada (Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos dados. Pretende-se então, aplicar esses métodos a dois conjuntos de dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se, numa perspetiva composicional, existem observações atípicas ou não.Compositional data are a special case of multivariate data which represent relative information in the form of log-ratios between the components. The vectors are constituted by components strictly positive with fundamental properties the scale invariance, permutation invariance and subcompositional coherence. Compositions are repre sented in a Euclidian subspace named simplex where the so-called Aitchison Geometry is applied. Outliers, or atypical observations, are data which seems to be substantially deviated from the other observations in the same dataset. Outlier detection methods are usually classified into two types: robust distance-based methods and non-traditional methods. The former are based on the Mahalanobis distance calculated using robust estimates for the mean and the covariance matrix. The later avoid the use of distance and prefer to use non-linear maps, eigenvectors or projections, between others. Until now, outlier detection methods in compositional data are based on robust distance and Minimum Covariance Determinant for estimating the covariance matrix. Besides numerical approach, these methodologies are also depicted on the graphical representations. In this work, two other approaches are proposed to detect outliers in compositional data. The first method is the Comedian Approach and the second is the Adjusted Outlyingness. The last one is a modification of the Stahel-Donoho Estimator and any type of distribution about the data is assumed. These methods are applied on two real datasets: epidemiological data related to AIDS in Cape Verde and geochemical data related to soil quality in Lisbon (Portugal). Results show the existence of atypical observations, in a compositional perspective.2021-03-17T15:28:58Z2020-07-13T00:00:00Z2020-07-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/30897porMaltez, Marta Luísa Santosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:59:44Zoai:ria.ua.pt:10773/30897Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:02:55.489651Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Novas abordagens na deteção de outliers em dados composicionais |
title |
Novas abordagens na deteção de outliers em dados composicionais |
spellingShingle |
Novas abordagens na deteção de outliers em dados composicionais Maltez, Marta Luísa Santos Dados composicionais Observações atípicas Distância de Mahalanobis robusta Abordagem comediana Estimador de Stahel-Donoho Atipicidade ajustada Dados epidemiológicos Qualidade dos solos |
title_short |
Novas abordagens na deteção de outliers em dados composicionais |
title_full |
Novas abordagens na deteção de outliers em dados composicionais |
title_fullStr |
Novas abordagens na deteção de outliers em dados composicionais |
title_full_unstemmed |
Novas abordagens na deteção de outliers em dados composicionais |
title_sort |
Novas abordagens na deteção de outliers em dados composicionais |
author |
Maltez, Marta Luísa Santos |
author_facet |
Maltez, Marta Luísa Santos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Maltez, Marta Luísa Santos |
dc.subject.por.fl_str_mv |
Dados composicionais Observações atípicas Distância de Mahalanobis robusta Abordagem comediana Estimador de Stahel-Donoho Atipicidade ajustada Dados epidemiológicos Qualidade dos solos |
topic |
Dados composicionais Observações atípicas Distância de Mahalanobis robusta Abordagem comediana Estimador de Stahel-Donoho Atipicidade ajustada Dados epidemiológicos Qualidade dos solos |
description |
Dados composicionais são um caso especial de dados multivariados que representam informação relativa na forma de log-razões entre as componentes. Os vetores são constituídos por componentes estritamente positivas, que têm como propriedades fundamentais a invariância de escala, a invariância de permutação e a coerência subcomposicional. As composições têm a sua representação num subespaço designado de simplex, sobre o qual se define a chamada Geometria de Aitchison. Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual este faz parte e sempre despertaram o interesse dos estatísticos. Os métodos de deteção de outliers são geralmente classificados em dois tipos: os métodos baseados em distância robusta e os métodos não tradicionais. Os primeiros baseiam-se em calcular estimativas para a média e covariância dos dados e depois calcular a distância robusta dessas observações e os segundos evitam o uso da distância e optam por fazer uma abordagem com mapas não lineares, uso dos vetores próprios ou projeções, entre outros. Até ao momento, os métodos numéricos e gráficos para detetar outliers em dados composicionais baseiam-se na distância de Mahalanobis robusta. Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados composicionais. O primeiro método é a Abordagem Comediana (Comedian Approach) e o segundo método é a Atipicidade Ajustada (Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos dados. Pretende-se então, aplicar esses métodos a dois conjuntos de dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se, numa perspetiva composicional, existem observações atípicas ou não. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-07-13T00:00:00Z 2020-07-13 2021-03-17T15:28:58Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10773/30897 |
url |
http://hdl.handle.net/10773/30897 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799137684643381248 |