Observações atípicas em alta dimensão

Detalhes bibliográficos
Autor(a) principal: Hisatugu, Matheus Toshio
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/16903
Resumo: Outliers and heteroskedastic noise are two common situations in Statistics. Nowadays the amount of generated data is very high and for this reason it is possible to find high dimensional data (the dimension d is just as large or larger than the number of observations n). Furthermore, it is possible that the data have heteroskedastic noise, which means that the noise variance can be different entrywise. Principal component analysis is a technique that aims to create a subspace with lower dimension than the original space. The technique is used in different areas such as Statistics, Econometrics, Machine Learning and Applied Mathematics. Choi and Marron (2019) introduced a new notion of high dimensional outliers that embraces other types and also investigates the behaviour of these outliers in the subspace created by the principal components analysis. Most of the techniques used in this context are based on the assumption of homoskedastic noise. However, as mentioned before, it is known that this is not always the case. Therefore, Zhang, Cai and Wu (2022) proposed a new method called HeteroPCA, which main objective is to remove the bias of the main diagonal of the sample covariance matrix due to heteroskedasticity. In this work, the main objective is to combine the method proposed by Zhang, Cai and Wu (2022) and the methodology proposed by Choi and Marron (2019) to find a subspace capable of identifying the presence of outliers when heteroskedasticity noise is present.
id SCAR_9581239f4c623186ef964c334765be54
oai_identifier_str oai:repositorio.ufscar.br:ufscar/16903
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Hisatugu, Matheus ToshioAndrade Filho, Mario de Castrohttp://lattes.cnpq.br/6518161034709249http://lattes.cnpq.br/0565444239927400fa2a762b-dd1e-4074-94ad-64dddd03d8262022-10-19T16:49:58Z2022-10-19T16:49:58Z2022-09-15HISATUGU, Matheus Toshio. Observações atípicas em alta dimensão. 2022. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16903.https://repositorio.ufscar.br/handle/ufscar/16903Outliers and heteroskedastic noise are two common situations in Statistics. Nowadays the amount of generated data is very high and for this reason it is possible to find high dimensional data (the dimension d is just as large or larger than the number of observations n). Furthermore, it is possible that the data have heteroskedastic noise, which means that the noise variance can be different entrywise. Principal component analysis is a technique that aims to create a subspace with lower dimension than the original space. The technique is used in different areas such as Statistics, Econometrics, Machine Learning and Applied Mathematics. Choi and Marron (2019) introduced a new notion of high dimensional outliers that embraces other types and also investigates the behaviour of these outliers in the subspace created by the principal components analysis. Most of the techniques used in this context are based on the assumption of homoskedastic noise. However, as mentioned before, it is known that this is not always the case. Therefore, Zhang, Cai and Wu (2022) proposed a new method called HeteroPCA, which main objective is to remove the bias of the main diagonal of the sample covariance matrix due to heteroskedasticity. In this work, the main objective is to combine the method proposed by Zhang, Cai and Wu (2022) and the methodology proposed by Choi and Marron (2019) to find a subspace capable of identifying the presence of outliers when heteroskedasticity noise is present.Observações atípicas e ruído heteroscedástico são duas situações muito comuns em Estatística. Atualmente, a quantidade de dados gerada é muito alta e por essa razão é possível encontrar dados de alta dimensão (número de variáveis, ou dimensão, d tão grande ou maior do que o número de observações n). Além disso, é possível que os dados possuam ruído heteroscedástico, isto é, a variância do ruído pode variar de entrada para entrada. A análise de componentes principais (ACP) é uma técnica muito utilizada que tem como principal objetivo a redução da dimensionalidade. A técnica é utilizada em diversas áreas como a Estatística, Econometria, Aprendizado de Máquina e Matemática Aplicada. Choi e Marron (2019) apresentaram uma nova noção de valores atípicos em alta dimensão que engloba outros tipos e, além disso, investigaram o comportamento dessas observações atípicas no subespaço criado pela análise de componentes principais. Grande parte das técnicas utilizadas nesse contexto são utilizadas sob a suposição de homoscedasticidade, porém, como já mencionado, sabe-se que isso nem sempre acontece. Sendo assim, Zhang, Cai e Wu (2022) propuseram um novo método chamado HeteroPCA que tem como objetivo principal remover o viés da diagonal principal da matriz de covariâncias amostral sob o qual está sujeita devido à heteroscedasticidade. Este trabalho tem como objetivo combinar o método proposto por Zhang, Cai e Wu (2022) com a metodologia proposta por Choi e Marron (2019) para encontrar um subespaço capaz de identificar a presença de observações atípicas quando o ruído heteroscedástico está presenteNão recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessObservações atípicas em alta dimensãoAnálise de componentes principaisMaldição da dimensionalidadeRuído heteroscedásticoHeteroPCAHigh dimensional outliersPrincipal component analysisCurse of dimensionalityHeteroskedastic noiseCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSObservações atípicas em alta dimensãoOutliers in high dimensioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6006000b059848-1fa8-41fb-964e-7cdcf2c26f85reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDefesa_Matheus_Pos_Def_v3.pdfDefesa_Matheus_Pos_Def_v3.pdfapplication/pdf650372https://repositorio.ufscar.br/bitstream/ufscar/16903/3/Defesa_Matheus_Pos_Def_v3.pdf4c34d8fc880e282dc71839f225e023deMD53Modelo carta-comprovante PIPGEs_matheus.pdfModelo carta-comprovante PIPGEs_matheus.pdfapplication/pdf114763https://repositorio.ufscar.br/bitstream/ufscar/16903/5/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf9d54b3750557be23b6452047971d95baMD55CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/16903/6/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD56TEXTDefesa_Matheus_Pos_Def_v3.pdf.txtDefesa_Matheus_Pos_Def_v3.pdf.txtExtracted texttext/plain97902https://repositorio.ufscar.br/bitstream/ufscar/16903/7/Defesa_Matheus_Pos_Def_v3.pdf.txt82d18d57ced82fe13f96d73d4e2e8913MD57Modelo carta-comprovante PIPGEs_matheus.pdf.txtModelo carta-comprovante PIPGEs_matheus.pdf.txtExtracted texttext/plain1154https://repositorio.ufscar.br/bitstream/ufscar/16903/9/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.txt81ad2d598059bab00f7b26e5cc01beddMD59THUMBNAILDefesa_Matheus_Pos_Def_v3.pdf.jpgDefesa_Matheus_Pos_Def_v3.pdf.jpgIM Thumbnailimage/jpeg14904https://repositorio.ufscar.br/bitstream/ufscar/16903/8/Defesa_Matheus_Pos_Def_v3.pdf.jpgff9b9b62f11259459959295ffec74ef0MD58Modelo carta-comprovante PIPGEs_matheus.pdf.jpgModelo carta-comprovante PIPGEs_matheus.pdf.jpgIM Thumbnailimage/jpeg8408https://repositorio.ufscar.br/bitstream/ufscar/16903/10/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.jpg6629145556e4b048bb892449f1b04144MD510ufscar/169032023-09-18 18:32:34.392oai:repositorio.ufscar.br:ufscar/16903Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:34Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Observações atípicas em alta dimensão
dc.title.alternative.eng.fl_str_mv Outliers in high dimension
title Observações atípicas em alta dimensão
spellingShingle Observações atípicas em alta dimensão
Hisatugu, Matheus Toshio
Observações atípicas em alta dimensão
Análise de componentes principais
Maldição da dimensionalidade
Ruído heteroscedástico
HeteroPCA
High dimensional outliers
Principal component analysis
Curse of dimensionality
Heteroskedastic noise
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
title_short Observações atípicas em alta dimensão
title_full Observações atípicas em alta dimensão
title_fullStr Observações atípicas em alta dimensão
title_full_unstemmed Observações atípicas em alta dimensão
title_sort Observações atípicas em alta dimensão
author Hisatugu, Matheus Toshio
author_facet Hisatugu, Matheus Toshio
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/0565444239927400
dc.contributor.author.fl_str_mv Hisatugu, Matheus Toshio
dc.contributor.advisor1.fl_str_mv Andrade Filho, Mario de Castro
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6518161034709249
dc.contributor.authorID.fl_str_mv fa2a762b-dd1e-4074-94ad-64dddd03d826
contributor_str_mv Andrade Filho, Mario de Castro
dc.subject.por.fl_str_mv Observações atípicas em alta dimensão
Análise de componentes principais
Maldição da dimensionalidade
Ruído heteroscedástico
HeteroPCA
topic Observações atípicas em alta dimensão
Análise de componentes principais
Maldição da dimensionalidade
Ruído heteroscedástico
HeteroPCA
High dimensional outliers
Principal component analysis
Curse of dimensionality
Heteroskedastic noise
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
dc.subject.eng.fl_str_mv High dimensional outliers
Principal component analysis
Curse of dimensionality
Heteroskedastic noise
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
description Outliers and heteroskedastic noise are two common situations in Statistics. Nowadays the amount of generated data is very high and for this reason it is possible to find high dimensional data (the dimension d is just as large or larger than the number of observations n). Furthermore, it is possible that the data have heteroskedastic noise, which means that the noise variance can be different entrywise. Principal component analysis is a technique that aims to create a subspace with lower dimension than the original space. The technique is used in different areas such as Statistics, Econometrics, Machine Learning and Applied Mathematics. Choi and Marron (2019) introduced a new notion of high dimensional outliers that embraces other types and also investigates the behaviour of these outliers in the subspace created by the principal components analysis. Most of the techniques used in this context are based on the assumption of homoskedastic noise. However, as mentioned before, it is known that this is not always the case. Therefore, Zhang, Cai and Wu (2022) proposed a new method called HeteroPCA, which main objective is to remove the bias of the main diagonal of the sample covariance matrix due to heteroskedasticity. In this work, the main objective is to combine the method proposed by Zhang, Cai and Wu (2022) and the methodology proposed by Choi and Marron (2019) to find a subspace capable of identifying the presence of outliers when heteroskedasticity noise is present.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-10-19T16:49:58Z
dc.date.available.fl_str_mv 2022-10-19T16:49:58Z
dc.date.issued.fl_str_mv 2022-09-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv HISATUGU, Matheus Toshio. Observações atípicas em alta dimensão. 2022. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16903.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/16903
identifier_str_mv HISATUGU, Matheus Toshio. Observações atípicas em alta dimensão. 2022. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16903.
url https://repositorio.ufscar.br/handle/ufscar/16903
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 0b059848-1fa8-41fb-964e-7cdcf2c26f85
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/16903/3/Defesa_Matheus_Pos_Def_v3.pdf
https://repositorio.ufscar.br/bitstream/ufscar/16903/5/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf
https://repositorio.ufscar.br/bitstream/ufscar/16903/6/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/16903/7/Defesa_Matheus_Pos_Def_v3.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/16903/9/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/16903/8/Defesa_Matheus_Pos_Def_v3.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/16903/10/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.jpg
bitstream.checksum.fl_str_mv 4c34d8fc880e282dc71839f225e023de
9d54b3750557be23b6452047971d95ba
e39d27027a6cc9cb039ad269a5db8e34
82d18d57ced82fe13f96d73d4e2e8913
81ad2d598059bab00f7b26e5cc01bedd
ff9b9b62f11259459959295ffec74ef0
6629145556e4b048bb892449f1b04144
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136413446078464