Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | https://locus.ufv.br//handle/123456789/28023 |
Resumo: | Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM. |
id |
UFV_21add8c7d5eb4ed9d9c56166546103bb |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/28023 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Duarte, Anderson RibeiroBarbosa, Josino Joséhttp://lattes.cnpq.br/1948800098593563Oliveira, Fernando Luiz Pereira de2021-07-29T13:14:59Z2021-07-29T13:14:59Z2021-04-20BARBOSA, Josino José. Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados. 2021. 77 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2021.https://locus.ufv.br//handle/123456789/28023Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM.Methodologies for identifying multivariate outliers are of great importance in statistical analysis. Aberrant observations can reveal relevant information for variables under investigation. Statistical applications without prior identification of possible extreme values can present controversial results and induce wrong decisions. In addition, in several contexts, outliers are points of great practical interest and their identification becomes the main objective. Therefore, this study aims to propose a new technique for detec- ting multivariate outliers based on cluster analysis. The technique consi- ders information inherent to the database itself and also information of the researcher’s prior knowledge about the populations under investigation. The evaluation of the methodology was carried out through calibration and comparison with three detection methods already disseminated through simulated data. The comparative investigation considers two detection tech- niques based on the classic Mahalanobis distance and one technique also based on cluster analysis. Sensitivity, specificity and accuracy measures are used to assess the quality of the methods, as well as an analysis of the computational time required to perform the procedures. In addition, the methods were used on a real data set. The proposed new technique revea- led a notorious superiority in relation to the others, both in the quality of detecting outliers through the simulated data, and in the suitability in the application of the real data set. Keywords: Multivariate Outliers. Simulation. Cluster analysis. DDCAM.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Conselho Nacional de Desenvolvimento Científico e TecnológicoFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisporUniversidade Federal de ViçosaOutlier (Estatística)Análise multivariadaAnálise de agrupamentosProbabilidade e Estatística AplicadasData-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariadosData-driven Cluster Analysis Method: a new methodology for detection outliers in multivariate datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal de ViçosaDepartamento de EstatísticaDoutor em Estatística Aplicada e BiometriaViçosa - MG2021-04-20Doutoradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1071857https://locus.ufv.br//bitstream/123456789/28023/1/texto%20completo.pdf73164dee9a3570cd5333663eaff3e1feMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/28023/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/280232021-08-10 14:16:10.277oai:locus.ufv.br:123456789/28023Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452021-08-10T17:16:10LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados |
dc.title.en.fl_str_mv |
Data-driven Cluster Analysis Method: a new methodology for detection outliers in multivariate data |
title |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados |
spellingShingle |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados Barbosa, Josino José Outlier (Estatística) Análise multivariada Análise de agrupamentos Probabilidade e Estatística Aplicadas |
title_short |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados |
title_full |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados |
title_fullStr |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados |
title_full_unstemmed |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados |
title_sort |
Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados |
author |
Barbosa, Josino José |
author_facet |
Barbosa, Josino José |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/1948800098593563 |
dc.contributor.none.fl_str_mv |
Duarte, Anderson Ribeiro |
dc.contributor.author.fl_str_mv |
Barbosa, Josino José |
dc.contributor.advisor1.fl_str_mv |
Oliveira, Fernando Luiz Pereira de |
contributor_str_mv |
Oliveira, Fernando Luiz Pereira de |
dc.subject.pt-BR.fl_str_mv |
Outlier (Estatística) Análise multivariada Análise de agrupamentos |
topic |
Outlier (Estatística) Análise multivariada Análise de agrupamentos Probabilidade e Estatística Aplicadas |
dc.subject.cnpq.fl_str_mv |
Probabilidade e Estatística Aplicadas |
description |
Metodologias para identificação de outliers multivariados são de grande importância em análise estatística. Observações aberrantes podem revelar informações relevantes para variáveis sob investigação. Aplicações estatís- ticas sem uma prévia identificação de possíveis valores extremos podem apresentar resultados controversos e induzir decisões equivocadas. Além disso, em diversos contextos, os outliers são pontos de grande interesse prático e sua identificação torna-se o principal objetivo. Diante disso, esse estudo tem por objetivo propor uma nova técnica de detecção de outliers multivariados baseada em análise de agrupamentos. A técnica considera informações inerentes ao próprio banco de dados e também informações de conhecimento prévio do pesquisador acerca das populações sob investigação. A avaliação da metodologia foi conduzida através de calibração e comparação com três métodos de detecção já difundidos por meio de dados simulados. A investigação comparativa considera duas técnicas de detecção baseadas na clássica distância de Mahalanobis e uma técnica também baseada em análise de agrupamentos. As medidas de sensibilidade, especificidade e acurácia são utilizadas para aferir a qualidade dos métodos, assim como uma análise quanto ao tempo computacional necessário para a execução dos procedimentos. Além disso, os métodos foram empregados num conjunto de dados reais. A nova técnica proposta revelou uma notória superioridade em relação às demais, tanto na qualidade de detecção de outliers através dos dados simulados, quanto na adequabilidade na aplicação do conjunto de dados reais. Palavras-chave: Outliers multivariados. Simulação. Análise de agrupamentos. DDCAM. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-07-29T13:14:59Z |
dc.date.available.fl_str_mv |
2021-07-29T13:14:59Z |
dc.date.issued.fl_str_mv |
2021-04-20 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
BARBOSA, Josino José. Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados. 2021. 77 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2021. |
dc.identifier.uri.fl_str_mv |
https://locus.ufv.br//handle/123456789/28023 |
identifier_str_mv |
BARBOSA, Josino José. Data-driven Cluster Analysis Method: uma nova metodologia para detecção de outliers em dados multivariados. 2021. 77 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2021. |
url |
https://locus.ufv.br//handle/123456789/28023 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/28023/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/28023/2/license.txt |
bitstream.checksum.fl_str_mv |
73164dee9a3570cd5333663eaff3e1fe 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212994924838912 |