A atualização do valor crítico interfere na performance do procedimento Data Snooping?
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFU |
Texto Completo: | https://repositorio.ufu.br/handle/123456789/34337 http://doi.org/10.14393/ufu.di.2022.149 |
Resumo: | In the age of Big Data, detecting outlier in the data set has become one of the most important activities. In Geodesy, Data Snooping is the most widely used procedure for identifying outliers. To control the type I error rate, that is, false positives, critical values must be obtained using the Monte Carlo method. However, so far, studies have been conducted without considering the update of the critical value of the iterative process of Data Snooping. Since to effectively control the type I error rate the critical value must be updated every time an observation is identified as an outlier and removed from the data set. Here we investigate whether updating the critical value interferes with the performance of the Data Snooping procedure and calculate the critical value using the Monte Carlo, Artificial Neural Network and Šidák correction methods. For this experiment, we considered a closed leveling network with a maximum correlation between residuals of 41.46%. Considering significance levels less than or equal to 10% (α' ≤ 10%), updating the critical value does not show significant differences when compared to the non-updated critical values, presenting a maximum difference of ΔKSBPNN=0,0389 (α = 0,001), ΔKsid=0,0507(α = 0,001) e ΔKMC=0,0256 (α = 0,1) for the case of 1 exclusion, and a maximum difference of ΔKSBPNN=0,1023 (α = 0,001), ΔKsid=0,1353 (α = 0,001) e ΔKMC=0,0773 (α = 0,001) for the case of 2 exclusions. Updating the critical value also does not cause significant differences in the correct outlier identification rates showing a maximum ΔP_CI < 0,5%. In this way, the experiments showed that updating the critical value does not cause significant effects on the performance of Data Snooping for significance levels less than or equal to 10% (α' ≤ 10%). |
id |
UFU_177a110d6b29b3e40698e2e544fc2d72 |
---|---|
oai_identifier_str |
oai:repositorio.ufu.br:123456789/34337 |
network_acronym_str |
UFU |
network_name_str |
Repositório Institucional da UFU |
repository_id_str |
|
spelling |
A atualização do valor crítico interfere na performance do procedimento Data Snooping?Does updating the critical value interfere with the performance of the Data Snooping procedure?ConfiabilidadeControle de QualidadeData SnoopingDetecção de outliersMonte CarloRede Neural ArtificialArtificial Neural NetworkData SnoopingMonte CarloOutlier DetectionQuality ControlReliability.CNPQ::CIENCIAS AGRARIAS::AGRONOMIAAgronomiaRedes neurais (Computação)Monte Carlo, Método deIn the age of Big Data, detecting outlier in the data set has become one of the most important activities. In Geodesy, Data Snooping is the most widely used procedure for identifying outliers. To control the type I error rate, that is, false positives, critical values must be obtained using the Monte Carlo method. However, so far, studies have been conducted without considering the update of the critical value of the iterative process of Data Snooping. Since to effectively control the type I error rate the critical value must be updated every time an observation is identified as an outlier and removed from the data set. Here we investigate whether updating the critical value interferes with the performance of the Data Snooping procedure and calculate the critical value using the Monte Carlo, Artificial Neural Network and Šidák correction methods. For this experiment, we considered a closed leveling network with a maximum correlation between residuals of 41.46%. Considering significance levels less than or equal to 10% (α' ≤ 10%), updating the critical value does not show significant differences when compared to the non-updated critical values, presenting a maximum difference of ΔKSBPNN=0,0389 (α = 0,001), ΔKsid=0,0507(α = 0,001) e ΔKMC=0,0256 (α = 0,1) for the case of 1 exclusion, and a maximum difference of ΔKSBPNN=0,1023 (α = 0,001), ΔKsid=0,1353 (α = 0,001) e ΔKMC=0,0773 (α = 0,001) for the case of 2 exclusions. Updating the critical value also does not cause significant differences in the correct outlier identification rates showing a maximum ΔP_CI < 0,5%. In this way, the experiments showed that updating the critical value does not cause significant effects on the performance of Data Snooping for significance levels less than or equal to 10% (α' ≤ 10%).CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorDissertação (Mestrado)Na era do Big Data detectar outlier no conjunto de dados se tornou uma das atividades mais importantes. Na Geodésia o Data Snooping é o procedimento mais utilizado para identificação de outliers. Para o controle da taxa de erro tipo I, isto é, falsos positivos, os valores críticos devem ser obtidos por meio do método Monte Carlo. No entanto, até agora os estudos foram realizados sem considerar a atualização do valor crítico no processo iterativo do Data Snooping. Uma vez que para realizar o controle efetivo da taxa de erro tipo I o valor crítico deve ser atualizado todas as vezes que uma observação for identificada como outlier e removida do conjunto de dados. Aqui investigamos se a atualização do valor crítico interfere na performance do procedimento Data Snooping e calculamos o valor crítico por meio dos métodos Monte Carlo, Rede Neural Artificial e correção Šidák. Para esse experimento consideramos uma rede fechada de nivelamento com correlação máxima entre os resíduos de 41,46%. Considerando níveis de significância menores ou iguais a 10% (α’ ≤ 10%), a atualização do valor crítico não apresenta diferenças significativas quando comparados com os valores críticos não atualizados, apresentando uma diferença máxima de ΔKSBPNN=0,0389 (α = 0,001), ΔKsid=0,0507(α = 0,001) e ΔKMC=0,0256 (α = 0,1) para o caso de uma exclusão e uma diferença máxima de ΔKSBPNN=0,1023 (α = 0,001), ΔKsid=0,1353 (α = 0,001) e ΔKMC=0,0773 (α = 0,001) para o caso de 2 exclusões. A atualização do valor crítico também não causa diferenças significativas nas taxas de correta identificação de outliers apresentando um ΔPCI máximo de < 0,5%. Desta forma, os experimentos mostraram que a atualização do valor crítico não causa efeitos significativos na performance do Data Snooping para níveis de significância menores ou iguais a 10% (α’ ≤ 10%).Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em Agricultura e Informações GeoespaciaisRofatto, Vinicius Franciscohttp://lattes.cnpq.br/2034859873081330Matsuoka, Marcelo Tomiohttp://lattes.cnpq.br/5253571490697285Klein, Ivandrohttp://lattes.cnpq.br/6361473524695838x, xxBonimani, Maria Luisa Silva2022-03-23T16:37:06Z2022-03-23T16:37:06Z2022-02-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfBONIMANI, Maria Luisa Silva. A atualização do valor crítico interfere na performance do procedimento Data Snooping? 2022. 31 f. Dissertação (Mestrado em Agricultura e Informações Geoespaciais) – Universidade Federal de Uberlândia, Monte Carmelo, 2022. DOI: http://doi.org/10.14393/ufu.di.2022.149https://repositorio.ufu.br/handle/123456789/34337http://doi.org/10.14393/ufu.di.2022.149porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2022-03-24T06:30:39Zoai:repositorio.ufu.br:123456789/34337Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2022-03-24T06:30:39Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
dc.title.none.fl_str_mv |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? Does updating the critical value interfere with the performance of the Data Snooping procedure? |
title |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? |
spellingShingle |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? Bonimani, Maria Luisa Silva Confiabilidade Controle de Qualidade Data Snooping Detecção de outliers Monte Carlo Rede Neural Artificial Artificial Neural Network Data Snooping Monte Carlo Outlier Detection Quality Control Reliability. CNPQ::CIENCIAS AGRARIAS::AGRONOMIA Agronomia Redes neurais (Computação) Monte Carlo, Método de |
title_short |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? |
title_full |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? |
title_fullStr |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? |
title_full_unstemmed |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? |
title_sort |
A atualização do valor crítico interfere na performance do procedimento Data Snooping? |
author |
Bonimani, Maria Luisa Silva |
author_facet |
Bonimani, Maria Luisa Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rofatto, Vinicius Francisco http://lattes.cnpq.br/2034859873081330 Matsuoka, Marcelo Tomio http://lattes.cnpq.br/5253571490697285 Klein, Ivandro http://lattes.cnpq.br/6361473524695838 x, x x |
dc.contributor.author.fl_str_mv |
Bonimani, Maria Luisa Silva |
dc.subject.por.fl_str_mv |
Confiabilidade Controle de Qualidade Data Snooping Detecção de outliers Monte Carlo Rede Neural Artificial Artificial Neural Network Data Snooping Monte Carlo Outlier Detection Quality Control Reliability. CNPQ::CIENCIAS AGRARIAS::AGRONOMIA Agronomia Redes neurais (Computação) Monte Carlo, Método de |
topic |
Confiabilidade Controle de Qualidade Data Snooping Detecção de outliers Monte Carlo Rede Neural Artificial Artificial Neural Network Data Snooping Monte Carlo Outlier Detection Quality Control Reliability. CNPQ::CIENCIAS AGRARIAS::AGRONOMIA Agronomia Redes neurais (Computação) Monte Carlo, Método de |
description |
In the age of Big Data, detecting outlier in the data set has become one of the most important activities. In Geodesy, Data Snooping is the most widely used procedure for identifying outliers. To control the type I error rate, that is, false positives, critical values must be obtained using the Monte Carlo method. However, so far, studies have been conducted without considering the update of the critical value of the iterative process of Data Snooping. Since to effectively control the type I error rate the critical value must be updated every time an observation is identified as an outlier and removed from the data set. Here we investigate whether updating the critical value interferes with the performance of the Data Snooping procedure and calculate the critical value using the Monte Carlo, Artificial Neural Network and Šidák correction methods. For this experiment, we considered a closed leveling network with a maximum correlation between residuals of 41.46%. Considering significance levels less than or equal to 10% (α' ≤ 10%), updating the critical value does not show significant differences when compared to the non-updated critical values, presenting a maximum difference of ΔKSBPNN=0,0389 (α = 0,001), ΔKsid=0,0507(α = 0,001) e ΔKMC=0,0256 (α = 0,1) for the case of 1 exclusion, and a maximum difference of ΔKSBPNN=0,1023 (α = 0,001), ΔKsid=0,1353 (α = 0,001) e ΔKMC=0,0773 (α = 0,001) for the case of 2 exclusions. Updating the critical value also does not cause significant differences in the correct outlier identification rates showing a maximum ΔP_CI < 0,5%. In this way, the experiments showed that updating the critical value does not cause significant effects on the performance of Data Snooping for significance levels less than or equal to 10% (α' ≤ 10%). |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-03-23T16:37:06Z 2022-03-23T16:37:06Z 2022-02-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
BONIMANI, Maria Luisa Silva. A atualização do valor crítico interfere na performance do procedimento Data Snooping? 2022. 31 f. Dissertação (Mestrado em Agricultura e Informações Geoespaciais) – Universidade Federal de Uberlândia, Monte Carmelo, 2022. DOI: http://doi.org/10.14393/ufu.di.2022.149 https://repositorio.ufu.br/handle/123456789/34337 http://doi.org/10.14393/ufu.di.2022.149 |
identifier_str_mv |
BONIMANI, Maria Luisa Silva. A atualização do valor crítico interfere na performance do procedimento Data Snooping? 2022. 31 f. Dissertação (Mestrado em Agricultura e Informações Geoespaciais) – Universidade Federal de Uberlândia, Monte Carmelo, 2022. DOI: http://doi.org/10.14393/ufu.di.2022.149 |
url |
https://repositorio.ufu.br/handle/123456789/34337 http://doi.org/10.14393/ufu.di.2022.149 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Agricultura e Informações Geoespaciais |
publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Agricultura e Informações Geoespaciais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Repositório Institucional da UFU |
collection |
Repositório Institucional da UFU |
repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
_version_ |
1813711432015937536 |