Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados

Detalhes bibliográficos
Autor(a) principal: Barbosa, Josino José
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: https://locus.ufv.br//handle/123456789/28023
Resumo: Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM.
id UFV_21add8c7d5eb4ed9d9c56166546103bb
oai_identifier_str oai:locus.ufv.br:123456789/28023
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Duarte, Anderson RibeiroBarbosa, Josino Joséhttp://lattes.cnpq.br/1948800098593563Oliveira, Fernando Luiz Pereira de2021-07-29T13:14:59Z2021-07-29T13:14:59Z2021-04-20BARBOSA, Josino José. Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados. 2021. 77 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2021.https://locus.ufv.br//handle/123456789/28023Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM.Methodologies for identifying multivariate outliers are of great importance in statistical analysis. Aberrant observations can reveal relevant information for variables under investigation. Statistical applications without prior identification of possible extreme values can present controversial results and induce wrong decisions. In addition, in several contexts, outliers are points of great practical interest and their identification becomes the main objective. Therefore, this study aims to propose a new technique for detec- ting multivariate outliers based on cluster analysis. The technique consi- ders information inherent to the database itself and also information of the researcher’s prior knowledge about the populations under investigation. The evaluation of the methodology was carried out through calibration and comparison with three detection methods already disseminated through simulated data. The comparative investigation considers two detection tech- niques based on the classic Mahalanobis distance and one technique also based on cluster analysis. Sensitivity, specificity and accuracy measures are used to assess the quality of the methods, as well as an analysis of the computational time required to perform the procedures. In addition, the methods were used on a real data set. The proposed new technique revea- led a notorious superiority in relation to the others, both in the quality of detecting outliers through the simulated data, and in the suitability in the application of the real data set. Keywords: Multivariate Outliers. Simulation. Cluster analysis. DDCAM.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Conselho Nacional de Desenvolvimento Científico e TecnológicoFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisporUniversidade Federal de ViçosaOutlier (Estatística)Análise multivariadaAnálise de agrupamentosProbabilidade e Estatística AplicadasData-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariadosData-driven Cluster Analysis Method: a new methodology for detection outliers in multivariate datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de EstatísticaDoutor em Estatística Aplicada e BiometriaViçosa - MG2021-04-20Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1071857https://locus.ufv.br//bitstream/123456789/28023/1/texto%20completo.pdf73164dee9a3570cd5333663eaff3e1feMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/28023/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/280232021-08-10 14:16:10.277oai:locus.ufv.br:123456789/28023Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452021-08-10T17:16:10LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
dc.title.en.fl_str_mv Data-driven Cluster Analysis Method: a new methodology for detection outliers in multivariate data
title Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
spellingShingle Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
Barbosa, Josino José
Outlier (Estatística)
Análise multivariada
Análise de agrupamentos
Probabilidade e Estatística Aplicadas
title_short Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
title_full Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
title_fullStr Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
title_full_unstemmed Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
title_sort Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
author Barbosa, Josino José
author_facet Barbosa, Josino José
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/1948800098593563
dc.contributor.none.fl_str_mv Duarte, Anderson Ribeiro
dc.contributor.author.fl_str_mv Barbosa, Josino José
dc.contributor.advisor1.fl_str_mv Oliveira, Fernando Luiz Pereira de
contributor_str_mv Oliveira, Fernando Luiz Pereira de
dc.subject.pt-BR.fl_str_mv Outlier (Estatística)
Análise multivariada
Análise de agrupamentos
topic Outlier (Estatística)
Análise multivariada
Análise de agrupamentos
Probabilidade e Estatística Aplicadas
dc.subject.cnpq.fl_str_mv Probabilidade e Estatística Aplicadas
description Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-07-29T13:14:59Z
dc.date.available.fl_str_mv 2021-07-29T13:14:59Z
dc.date.issued.fl_str_mv 2021-04-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BARBOSA, Josino José. Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados. 2021. 77 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2021.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/28023
identifier_str_mv BARBOSA, Josino José. Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados. 2021. 77 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2021.
url https://locus.ufv.br//handle/123456789/28023
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/28023/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/28023/2/license.txt
bitstream.checksum.fl_str_mv 73164dee9a3570cd5333663eaff3e1fe
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801212994924838912