Observações atípicas em alta dimensão
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/16903 |
Resumo: | Outliers and heteroskedastic noise are two common situations in Statistics. Nowadays the amount of generated data is very high and for this reason it is possible to find high dimensional data (the dimension d is just as large or larger than the number of observations n). Furthermore, it is possible that the data have heteroskedastic noise, which means that the noise variance can be different entrywise. Principal component analysis is a technique that aims to create a subspace with lower dimension than the original space. The technique is used in different areas such as Statistics, Econometrics, Machine Learning and Applied Mathematics. Choi and Marron (2019) introduced a new notion of high dimensional outliers that embraces other types and also investigates the behaviour of these outliers in the subspace created by the principal components analysis. Most of the techniques used in this context are based on the assumption of homoskedastic noise. However, as mentioned before, it is known that this is not always the case. Therefore, Zhang, Cai and Wu (2022) proposed a new method called HeteroPCA, which main objective is to remove the bias of the main diagonal of the sample covariance matrix due to heteroskedasticity. In this work, the main objective is to combine the method proposed by Zhang, Cai and Wu (2022) and the methodology proposed by Choi and Marron (2019) to find a subspace capable of identifying the presence of outliers when heteroskedasticity noise is present. |
id |
SCAR_9581239f4c623186ef964c334765be54 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/16903 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Hisatugu, Matheus ToshioAndrade Filho, Mario de Castrohttp://lattes.cnpq.br/6518161034709249http://lattes.cnpq.br/0565444239927400fa2a762b-dd1e-4074-94ad-64dddd03d8262022-10-19T16:49:58Z2022-10-19T16:49:58Z2022-09-15HISATUGU, Matheus Toshio. Observações atípicas em alta dimensão. 2022. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16903.https://repositorio.ufscar.br/handle/ufscar/16903Outliers and heteroskedastic noise are two common situations in Statistics. Nowadays the amount of generated data is very high and for this reason it is possible to find high dimensional data (the dimension d is just as large or larger than the number of observations n). Furthermore, it is possible that the data have heteroskedastic noise, which means that the noise variance can be different entrywise. Principal component analysis is a technique that aims to create a subspace with lower dimension than the original space. The technique is used in different areas such as Statistics, Econometrics, Machine Learning and Applied Mathematics. Choi and Marron (2019) introduced a new notion of high dimensional outliers that embraces other types and also investigates the behaviour of these outliers in the subspace created by the principal components analysis. Most of the techniques used in this context are based on the assumption of homoskedastic noise. However, as mentioned before, it is known that this is not always the case. Therefore, Zhang, Cai and Wu (2022) proposed a new method called HeteroPCA, which main objective is to remove the bias of the main diagonal of the sample covariance matrix due to heteroskedasticity. In this work, the main objective is to combine the method proposed by Zhang, Cai and Wu (2022) and the methodology proposed by Choi and Marron (2019) to find a subspace capable of identifying the presence of outliers when heteroskedasticity noise is present.Observações atípicas e ruído heteroscedástico são duas situações muito comuns em Estatística. Atualmente, a quantidade de dados gerada é muito alta e por essa razão é possível encontrar dados de alta dimensão (número de variáveis, ou dimensão, d tão grande ou maior do que o número de observações n). Além disso, é possível que os dados possuam ruído heteroscedástico, isto é, a variância do ruído pode variar de entrada para entrada. A análise de componentes principais (ACP) é uma técnica muito utilizada que tem como principal objetivo a redução da dimensionalidade. A técnica é utilizada em diversas áreas como a Estatística, Econometria, Aprendizado de Máquina e Matemática Aplicada. Choi e Marron (2019) apresentaram uma nova noção de valores atípicos em alta dimensão que engloba outros tipos e, além disso, investigaram o comportamento dessas observações atípicas no subespaço criado pela análise de componentes principais. Grande parte das técnicas utilizadas nesse contexto são utilizadas sob a suposição de homoscedasticidade, porém, como já mencionado, sabe-se que isso nem sempre acontece. Sendo assim, Zhang, Cai e Wu (2022) propuseram um novo método chamado HeteroPCA que tem como objetivo principal remover o viés da diagonal principal da matriz de covariâncias amostral sob o qual está sujeita devido à heteroscedasticidade. Este trabalho tem como objetivo combinar o método proposto por Zhang, Cai e Wu (2022) com a metodologia proposta por Choi e Marron (2019) para encontrar um subespaço capaz de identificar a presença de observações atípicas quando o ruído heteroscedástico está presenteNão recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessObservações atípicas em alta dimensãoAnálise de componentes principaisMaldição da dimensionalidadeRuído heteroscedásticoHeteroPCAHigh dimensional outliersPrincipal component analysisCurse of dimensionalityHeteroskedastic noiseCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSObservações atípicas em alta dimensãoOutliers in high dimensioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6006000b059848-1fa8-41fb-964e-7cdcf2c26f85reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDefesa_Matheus_Pos_Def_v3.pdfDefesa_Matheus_Pos_Def_v3.pdfapplication/pdf650372https://repositorio.ufscar.br/bitstream/ufscar/16903/3/Defesa_Matheus_Pos_Def_v3.pdf4c34d8fc880e282dc71839f225e023deMD53Modelo carta-comprovante PIPGEs_matheus.pdfModelo carta-comprovante PIPGEs_matheus.pdfapplication/pdf114763https://repositorio.ufscar.br/bitstream/ufscar/16903/5/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf9d54b3750557be23b6452047971d95baMD55CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/16903/6/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD56TEXTDefesa_Matheus_Pos_Def_v3.pdf.txtDefesa_Matheus_Pos_Def_v3.pdf.txtExtracted texttext/plain97902https://repositorio.ufscar.br/bitstream/ufscar/16903/7/Defesa_Matheus_Pos_Def_v3.pdf.txt82d18d57ced82fe13f96d73d4e2e8913MD57Modelo carta-comprovante PIPGEs_matheus.pdf.txtModelo carta-comprovante PIPGEs_matheus.pdf.txtExtracted texttext/plain1154https://repositorio.ufscar.br/bitstream/ufscar/16903/9/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.txt81ad2d598059bab00f7b26e5cc01beddMD59THUMBNAILDefesa_Matheus_Pos_Def_v3.pdf.jpgDefesa_Matheus_Pos_Def_v3.pdf.jpgIM Thumbnailimage/jpeg14904https://repositorio.ufscar.br/bitstream/ufscar/16903/8/Defesa_Matheus_Pos_Def_v3.pdf.jpgff9b9b62f11259459959295ffec74ef0MD58Modelo carta-comprovante PIPGEs_matheus.pdf.jpgModelo carta-comprovante PIPGEs_matheus.pdf.jpgIM Thumbnailimage/jpeg8408https://repositorio.ufscar.br/bitstream/ufscar/16903/10/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.jpg6629145556e4b048bb892449f1b04144MD510ufscar/169032023-09-18 18:32:34.392oai:repositorio.ufscar.br:ufscar/16903Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:34Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Observações atípicas em alta dimensão |
dc.title.alternative.eng.fl_str_mv |
Outliers in high dimension |
title |
Observações atípicas em alta dimensão |
spellingShingle |
Observações atípicas em alta dimensão Hisatugu, Matheus Toshio Observações atípicas em alta dimensão Análise de componentes principais Maldição da dimensionalidade Ruído heteroscedástico HeteroPCA High dimensional outliers Principal component analysis Curse of dimensionality Heteroskedastic noise CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS |
title_short |
Observações atípicas em alta dimensão |
title_full |
Observações atípicas em alta dimensão |
title_fullStr |
Observações atípicas em alta dimensão |
title_full_unstemmed |
Observações atípicas em alta dimensão |
title_sort |
Observações atípicas em alta dimensão |
author |
Hisatugu, Matheus Toshio |
author_facet |
Hisatugu, Matheus Toshio |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/0565444239927400 |
dc.contributor.author.fl_str_mv |
Hisatugu, Matheus Toshio |
dc.contributor.advisor1.fl_str_mv |
Andrade Filho, Mario de Castro |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6518161034709249 |
dc.contributor.authorID.fl_str_mv |
fa2a762b-dd1e-4074-94ad-64dddd03d826 |
contributor_str_mv |
Andrade Filho, Mario de Castro |
dc.subject.por.fl_str_mv |
Observações atípicas em alta dimensão Análise de componentes principais Maldição da dimensionalidade Ruído heteroscedástico HeteroPCA |
topic |
Observações atípicas em alta dimensão Análise de componentes principais Maldição da dimensionalidade Ruído heteroscedástico HeteroPCA High dimensional outliers Principal component analysis Curse of dimensionality Heteroskedastic noise CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS |
dc.subject.eng.fl_str_mv |
High dimensional outliers Principal component analysis Curse of dimensionality Heteroskedastic noise |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS |
description |
Outliers and heteroskedastic noise are two common situations in Statistics. Nowadays the amount of generated data is very high and for this reason it is possible to find high dimensional data (the dimension d is just as large or larger than the number of observations n). Furthermore, it is possible that the data have heteroskedastic noise, which means that the noise variance can be different entrywise. Principal component analysis is a technique that aims to create a subspace with lower dimension than the original space. The technique is used in different areas such as Statistics, Econometrics, Machine Learning and Applied Mathematics. Choi and Marron (2019) introduced a new notion of high dimensional outliers that embraces other types and also investigates the behaviour of these outliers in the subspace created by the principal components analysis. Most of the techniques used in this context are based on the assumption of homoskedastic noise. However, as mentioned before, it is known that this is not always the case. Therefore, Zhang, Cai and Wu (2022) proposed a new method called HeteroPCA, which main objective is to remove the bias of the main diagonal of the sample covariance matrix due to heteroskedasticity. In this work, the main objective is to combine the method proposed by Zhang, Cai and Wu (2022) and the methodology proposed by Choi and Marron (2019) to find a subspace capable of identifying the presence of outliers when heteroskedasticity noise is present. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-10-19T16:49:58Z |
dc.date.available.fl_str_mv |
2022-10-19T16:49:58Z |
dc.date.issued.fl_str_mv |
2022-09-15 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
HISATUGU, Matheus Toshio. Observações atípicas em alta dimensão. 2022. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16903. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/16903 |
identifier_str_mv |
HISATUGU, Matheus Toshio. Observações atípicas em alta dimensão. 2022. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16903. |
url |
https://repositorio.ufscar.br/handle/ufscar/16903 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
0b059848-1fa8-41fb-964e-7cdcf2c26f85 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/16903/3/Defesa_Matheus_Pos_Def_v3.pdf https://repositorio.ufscar.br/bitstream/ufscar/16903/5/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf https://repositorio.ufscar.br/bitstream/ufscar/16903/6/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/16903/7/Defesa_Matheus_Pos_Def_v3.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/16903/9/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/16903/8/Defesa_Matheus_Pos_Def_v3.pdf.jpg https://repositorio.ufscar.br/bitstream/ufscar/16903/10/Modelo%20carta-comprovante%20PIPGEs_matheus.pdf.jpg |
bitstream.checksum.fl_str_mv |
4c34d8fc880e282dc71839f225e023de 9d54b3750557be23b6452047971d95ba e39d27027a6cc9cb039ad269a5db8e34 82d18d57ced82fe13f96d73d4e2e8913 81ad2d598059bab00f7b26e5cc01bedd ff9b9b62f11259459959295ffec74ef0 6629145556e4b048bb892449f1b04144 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715654899924992 |