Identificação de outliers multivariados - Uma aplicação em dados de saúde
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://www.locus.ufv.br/handle/123456789/10041 |
Resumo: | A identificação de outliers desempenha um papel importante na análise estatística, pois tais observações podem conter informações importantes em relação aos dados. Se modelos estatísticos clássicos são cegamente aplicados a dados contendo valores atípicos, os resultados podem ser enganosos e decisões equivocadas podem ser tornadas. Além disso, em situações práticas, os próprios outliers são muitas vezes os pontos especiais de interesse e sua identificação pode ser o principal objetivo da investigação. Por isso, a finalidade desse trabalho é propor uma técnica de detecção de outliers multivariados, baseada em análise agrupamento e comparar essa técnica com o método de identificação de outliers via Distância de Mahalanobis. Para geração dos dados utilizou-se simulação através do Método de Monte Carlo e a técnica de mistura de distribuições normais multivariadas. Os resultados apresentados nas simulações mostram que o método proposto foi superior ao método de Mahalanobis tanto para sensibilidade quanto para especificidade, ou seja, ele apresenta maior capacidade de diagnosticar corretamente os indivíduos outliers e os não outliers. Além disso, a metodologia proposta foi ilustrada com uma aplicação em dados reais provenientes da área de saúde. |
id |
UFV_9507910f55a3b45004f1f0674c737b5c |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/10041 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Pereira, Tiago MartinsBarbosa, Josino Joséhttp://lattes.cnpq.br/1948800098593563Oliveira, Fernando Luiz Pereira de2017-04-11T14:32:01Z2017-04-11T14:32:01Z2017-02-17BARBOSA, Josino José. Identificação de outliers multivariados - Uma aplicação em dados de saúde. 2017. 51 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017.http://www.locus.ufv.br/handle/123456789/10041A identificação de outliers desempenha um papel importante na análise estatística, pois tais observações podem conter informações importantes em relação aos dados. Se modelos estatísticos clássicos são cegamente aplicados a dados contendo valores atípicos, os resultados podem ser enganosos e decisões equivocadas podem ser tornadas. Além disso, em situações práticas, os próprios outliers são muitas vezes os pontos especiais de interesse e sua identificação pode ser o principal objetivo da investigação. Por isso, a finalidade desse trabalho é propor uma técnica de detecção de outliers multivariados, baseada em análise agrupamento e comparar essa técnica com o método de identificação de outliers via Distância de Mahalanobis. Para geração dos dados utilizou-se simulação através do Método de Monte Carlo e a técnica de mistura de distribuições normais multivariadas. Os resultados apresentados nas simulações mostram que o método proposto foi superior ao método de Mahalanobis tanto para sensibilidade quanto para especificidade, ou seja, ele apresenta maior capacidade de diagnosticar corretamente os indivíduos outliers e os não outliers. Além disso, a metodologia proposta foi ilustrada com uma aplicação em dados reais provenientes da área de saúde.The identification of outliers plays an important role in statistical analysis, as such observations may contain important information regarding the data. If classical statistical models are blindly applied to data containing atypical values, the results may be misleading and mistaken decisions can be made. Moreover, in practical situations, the outliers themselves are often the special points of interest and their identification may be the main objective of the investigation. Therefore, the purpose of this work is to propose a technique of detection of multivariate outliers based on cluster analysis and to compare this technique with the method of identifying outliers via Mahalanobis Distance. For data generation, the Monte Carlo method and the mixed-multivariate normal distribution technique were used. The results presented in the simulations show that the proposed method was superior to the Mahalanobis method for both sensitivity and specificity, that is, it presents greater capacity to correctly diagnose outliers and non-outliers individuals. In addition, the proposed methodology was illustrated with an application in real data from the health area.porUniversidade Federal de ViçosaAnálise multivariadaAnálise por agrupamentoMonte Carlo, Método deCiências AgráriasIdentificação de outliers multivariados - Uma aplicação em dados de saúdeOutlier identification multivariate - An application for health datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de EstatísticaMestre em Estatística Aplicada e BiometriaViçosa - MG2017-02-17Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1609406https://locus.ufv.br//bitstream/123456789/10041/1/texto%20completo.pdf9cedba288b402aa34f47d430c8a495cfMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/10041/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3462https://locus.ufv.br//bitstream/123456789/10041/3/texto%20completo.pdf.jpgbacceb6216323f4ecdae94b9c335cb55MD53123456789/100412017-04-11 23:00:30.601oai:locus.ufv.br:123456789/10041Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452017-04-12T02:00:30LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Identificação de outliers multivariados - Uma aplicação em dados de saúde |
dc.title.en.fl_str_mv |
Outlier identification multivariate - An application for health data |
title |
Identificação de outliers multivariados - Uma aplicação em dados de saúde |
spellingShingle |
Identificação de outliers multivariados - Uma aplicação em dados de saúde Barbosa, Josino José Análise multivariada Análise por agrupamento Monte Carlo, Método de Ciências Agrárias |
title_short |
Identificação de outliers multivariados - Uma aplicação em dados de saúde |
title_full |
Identificação de outliers multivariados - Uma aplicação em dados de saúde |
title_fullStr |
Identificação de outliers multivariados - Uma aplicação em dados de saúde |
title_full_unstemmed |
Identificação de outliers multivariados - Uma aplicação em dados de saúde |
title_sort |
Identificação de outliers multivariados - Uma aplicação em dados de saúde |
author |
Barbosa, Josino José |
author_facet |
Barbosa, Josino José |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/1948800098593563 |
dc.contributor.none.fl_str_mv |
Pereira, Tiago Martins |
dc.contributor.author.fl_str_mv |
Barbosa, Josino José |
dc.contributor.advisor1.fl_str_mv |
Oliveira, Fernando Luiz Pereira de |
contributor_str_mv |
Oliveira, Fernando Luiz Pereira de |
dc.subject.pt-BR.fl_str_mv |
Análise multivariada Análise por agrupamento Monte Carlo, Método de |
topic |
Análise multivariada Análise por agrupamento Monte Carlo, Método de Ciências Agrárias |
dc.subject.cnpq.fl_str_mv |
Ciências Agrárias |
description |
A identificação de outliers desempenha um papel importante na análise estatística, pois tais observações podem conter informações importantes em relação aos dados. Se modelos estatísticos clássicos são cegamente aplicados a dados contendo valores atípicos, os resultados podem ser enganosos e decisões equivocadas podem ser tornadas. Além disso, em situações práticas, os próprios outliers são muitas vezes os pontos especiais de interesse e sua identificação pode ser o principal objetivo da investigação. Por isso, a finalidade desse trabalho é propor uma técnica de detecção de outliers multivariados, baseada em análise agrupamento e comparar essa técnica com o método de identificação de outliers via Distância de Mahalanobis. Para geração dos dados utilizou-se simulação através do Método de Monte Carlo e a técnica de mistura de distribuições normais multivariadas. Os resultados apresentados nas simulações mostram que o método proposto foi superior ao método de Mahalanobis tanto para sensibilidade quanto para especificidade, ou seja, ele apresenta maior capacidade de diagnosticar corretamente os indivíduos outliers e os não outliers. Além disso, a metodologia proposta foi ilustrada com uma aplicação em dados reais provenientes da área de saúde. |
publishDate |
2017 |
dc.date.accessioned.fl_str_mv |
2017-04-11T14:32:01Z |
dc.date.available.fl_str_mv |
2017-04-11T14:32:01Z |
dc.date.issued.fl_str_mv |
2017-02-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
BARBOSA, Josino José. Identificação de outliers multivariados - Uma aplicação em dados de saúde. 2017. 51 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017. |
dc.identifier.uri.fl_str_mv |
http://www.locus.ufv.br/handle/123456789/10041 |
identifier_str_mv |
BARBOSA, Josino José. Identificação de outliers multivariados - Uma aplicação em dados de saúde. 2017. 51 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2017. |
url |
http://www.locus.ufv.br/handle/123456789/10041 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/10041/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/10041/2/license.txt https://locus.ufv.br//bitstream/123456789/10041/3/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
9cedba288b402aa34f47d430c8a495cf 8a4605be74aa9ea9d79846c1fba20a33 bacceb6216323f4ecdae94b9c335cb55 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212846632075264 |