Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados

Detalhes bibliográficos
Autor(a) principal: Freitas, Igor Wescley Silva de
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFERSA
Texto Completo: https://repositorio.ufersa.edu.br/handle/prefix/1093
Resumo: Outliers são objetos que se desviam consideravelmente dos demais em relação a alguma medida, e promovem grande influência na análise dos dados. Na estatística, essa influência pode induzir uma análise equívoca dos dados, neste caso, os outliers constituem dados que precisam ser removidos. Para outras aplicações, o outlier pode representar alguma informação valiosa, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalias em redes de computadores, falhas mecânicas e condição clinica crítica. Para todo caso, os outliers precisam ser identificados, independente de seu tratamento. A literatura fornece diversas técnicas para detecção de outliers, cada uma com suas características e especificidades, que por sua vez foram aplicadas em diversos domínios, tendo em vista resolver problemas singulares. Precisar qual técnica tem melhor desempenho para determinado domínio de dados, constitui um desafio ainda pouco explorado na literatura e provoca o desenvolvimento de estratégias, para mensurar a performance de técnicas de detecção de outliers. Nesse sentido, a proposta deste trabalho é apresentar um estudo comparativo de técnicas de detecção de outliers, através de uma metodologia que permita uma análise uniforme e objetiva. As técnicas utilizadas na análise comparativa estão distribuídas em técnicas baseadas em métodos estatísticos, proximidade e distância. Como parte da metodologia, elas são aplicadas no pré-processamento dos dados, onde seu desempenho é mensurado analisando o efeito desta aplicação na indução de classificadores. As métricas de avaliação de classificadores funcionam como indicadores de desempenho das técnicas. De acordo com os resultados dos experimentos realizados, foi possível analisar efetivamente o desempenho das técnicas de detecção de outliers para diferentes domínios, e confirmar a validade da metodologia
id UFER_457e0b3e2d6b769d5e165f61e390afab
oai_identifier_str oai:repositorio.ufersa.edu.br:prefix/1093
network_acronym_str UFER
network_name_str Biblioteca Digital de Teses e Dissertações da UFERSA
repository_id_str
spelling Araújo, Daniel Sabino Amorim dehttp://lattes.cnpq.br/4744754780165354Nunes, Isabel Dilmannhttp://lattes.cnpq.br/2087785677186785Santos, Araken de Medeiroshttp://lattes.cnpq.br/8059198436766378http://lattes.cnpq.br/4407361665783316Freitas, Igor Wescley Silva de2019-04-22T11:48:58Z2019-04-182019-04-22T11:48:58Z2019-01-25Citação com autor incluído no texto: Freitas (2019) Citação com autor não incluído no texto: (FREITAS, 2019)https://repositorio.ufersa.edu.br/handle/prefix/1093Outliers são objetos que se desviam consideravelmente dos demais em relação a alguma medida, e promovem grande influência na análise dos dados. Na estatística, essa influência pode induzir uma análise equívoca dos dados, neste caso, os outliers constituem dados que precisam ser removidos. Para outras aplicações, o outlier pode representar alguma informação valiosa, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalias em redes de computadores, falhas mecânicas e condição clinica crítica. Para todo caso, os outliers precisam ser identificados, independente de seu tratamento. A literatura fornece diversas técnicas para detecção de outliers, cada uma com suas características e especificidades, que por sua vez foram aplicadas em diversos domínios, tendo em vista resolver problemas singulares. Precisar qual técnica tem melhor desempenho para determinado domínio de dados, constitui um desafio ainda pouco explorado na literatura e provoca o desenvolvimento de estratégias, para mensurar a performance de técnicas de detecção de outliers. Nesse sentido, a proposta deste trabalho é apresentar um estudo comparativo de técnicas de detecção de outliers, através de uma metodologia que permita uma análise uniforme e objetiva. As técnicas utilizadas na análise comparativa estão distribuídas em técnicas baseadas em métodos estatísticos, proximidade e distância. Como parte da metodologia, elas são aplicadas no pré-processamento dos dados, onde seu desempenho é mensurado analisando o efeito desta aplicação na indução de classificadores. As métricas de avaliação de classificadores funcionam como indicadores de desempenho das técnicas. De acordo com os resultados dos experimentos realizados, foi possível analisar efetivamente o desempenho das técnicas de detecção de outliers para diferentes domínios, e confirmar a validade da metodologiaOutliers are objects that deviate considerably from others in relation to some measure, and promote great influence in the analysis of the data. In statistics, this influence may induce an equivocal analysis of the data, in which case the outliers constitute data that need to be removed. For other applications, the outlier may represent some valuable information, dealing with some type of fraud, system intrusion, computer network anomalies, mechanical failures and critical clinical condition. In any case, outliers need to be identified, regardless of their treatment. The literature provides several techniques for detection of outliers, each with its characteristics and specificities, which in turn have been applied in several domains, in order to solve singular problems. To specify which technique performs better for a particular data domain is a challenge that is still little explored in the literature and causes the development of strategies to measure the performance of outliers detection techniques. In this sense, the proposal of this work is to present a comparative study of outliers detection techniques, through a methodology that allows a uniform and objective analysis. The techniques used in the comparative analysis are distributed in techniques based on statistical methods, proximity and distance. As part of the methodology, they are applied in the pre-processing of the data, where their performance is measured by analyzing the effect of this application on the classifier induction. Classifier evaluation metrics serve as performance indicators for classifiers. According to the results of the experiments, it was possible to effectively analyze the performance of outliers detection techniques for different domains, and confirm the validity of the methodologyTrabalho não financiado por agência de fomento, ou autofinanciadoporUniversidade Federal Rural do Semi-ÁridoPrograma de Pós-Graduação em Ciência da ComputaçãoUFERSABrasilCentro de Ciências Exatas e Naturais - CCENFREITAS, Igor Wescley Silva de. Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados. 2019. 99 f. Dissertação (Mestrado em Ciência da Computação), Universidade Federal Rural do Semi-Árido, Mossoró, 2019.CC-BY-SAinfo:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOOutliersDetecção de OutliersClassificaçãoMetodologiaOutliersOutlier DetectionClassificationmethodologyUm estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações da UFERSAinstname:Universidade Federal Rural do Semi-Árido (UFERSA)instacron:UFERSATEXTIgorWSF_DISSERT.pdf.txtIgorWSF_DISSERT.pdf.txtExtracted texttext/plain241311https://repositorio.ufersa.edu.br//bitstream/prefix/1093/3/IgorWSF_DISSERT.pdf.txt244d7cdc38eedebb9a4af43fec4683c2MD53THUMBNAILIgorWSF_DISSERT.pdf.jpgIgorWSF_DISSERT.pdf.jpgGenerated Thumbnailimage/jpeg1274https://repositorio.ufersa.edu.br//bitstream/prefix/1093/4/IgorWSF_DISSERT.pdf.jpg30a6f0749f302a071c5ac614d3be6603MD54ORIGINALIgorWSF_DISSERT.pdfIgorWSF_DISSERT.pdfapplication/pdf1680011https://repositorio.ufersa.edu.br//bitstream/prefix/1093/1/IgorWSF_DISSERT.pdf9094e6e9ebf4eeac2cb152f3c4474294MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://repositorio.ufersa.edu.br//bitstream/prefix/1093/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52prefix/10932022-06-20 12:57:30.922oai:repositorio.ufersa.edu.br:prefix/1093TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufersa.edu.br/PUBhttp://bdtd.ufersa.edu.br/oai/requestdirecaosisbi@ufersa.edu.br|| direcaosisbi@ufersa.edu.bropendoar:2022-06-20T15:57:30Biblioteca Digital de Teses e Dissertações da UFERSA - Universidade Federal Rural do Semi-Árido (UFERSA)false
dc.title.pt_BR.fl_str_mv Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
title Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
spellingShingle Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
Freitas, Igor Wescley Silva de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Outliers
Detecção de Outliers
Classificação
Metodologia
Outliers
Outlier Detection
Classification
methodology
title_short Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
title_full Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
title_fullStr Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
title_full_unstemmed Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
title_sort Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados
author Freitas, Igor Wescley Silva de
author_facet Freitas, Igor Wescley Silva de
author_role author
dc.contributor.advisor1.fl_str_mv Araújo, Daniel Sabino Amorim de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4744754780165354
dc.contributor.referee1.fl_str_mv Nunes, Isabel Dilmann
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/2087785677186785
dc.contributor.referee2.fl_str_mv Santos, Araken de Medeiros
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/8059198436766378
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/4407361665783316
dc.contributor.author.fl_str_mv Freitas, Igor Wescley Silva de
contributor_str_mv Araújo, Daniel Sabino Amorim de
Nunes, Isabel Dilmann
Santos, Araken de Medeiros
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Outliers
Detecção de Outliers
Classificação
Metodologia
Outliers
Outlier Detection
Classification
methodology
dc.subject.por.fl_str_mv Outliers
Detecção de Outliers
Classificação
Metodologia
Outliers
Outlier Detection
Classification
methodology
description Outliers são objetos que se desviam consideravelmente dos demais em relação a alguma medida, e promovem grande influência na análise dos dados. Na estatística, essa influência pode induzir uma análise equívoca dos dados, neste caso, os outliers constituem dados que precisam ser removidos. Para outras aplicações, o outlier pode representar alguma informação valiosa, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalias em redes de computadores, falhas mecânicas e condição clinica crítica. Para todo caso, os outliers precisam ser identificados, independente de seu tratamento. A literatura fornece diversas técnicas para detecção de outliers, cada uma com suas características e especificidades, que por sua vez foram aplicadas em diversos domínios, tendo em vista resolver problemas singulares. Precisar qual técnica tem melhor desempenho para determinado domínio de dados, constitui um desafio ainda pouco explorado na literatura e provoca o desenvolvimento de estratégias, para mensurar a performance de técnicas de detecção de outliers. Nesse sentido, a proposta deste trabalho é apresentar um estudo comparativo de técnicas de detecção de outliers, através de uma metodologia que permita uma análise uniforme e objetiva. As técnicas utilizadas na análise comparativa estão distribuídas em técnicas baseadas em métodos estatísticos, proximidade e distância. Como parte da metodologia, elas são aplicadas no pré-processamento dos dados, onde seu desempenho é mensurado analisando o efeito desta aplicação na indução de classificadores. As métricas de avaliação de classificadores funcionam como indicadores de desempenho das técnicas. De acordo com os resultados dos experimentos realizados, foi possível analisar efetivamente o desempenho das técnicas de detecção de outliers para diferentes domínios, e confirmar a validade da metodologia
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-04-22T11:48:58Z
dc.date.available.fl_str_mv 2019-04-18
2019-04-22T11:48:58Z
dc.date.issued.fl_str_mv 2019-01-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Citação com autor incluído no texto: Freitas (2019) Citação com autor não incluído no texto: (FREITAS, 2019)
dc.identifier.uri.fl_str_mv https://repositorio.ufersa.edu.br/handle/prefix/1093
identifier_str_mv Citação com autor incluído no texto: Freitas (2019) Citação com autor não incluído no texto: (FREITAS, 2019)
url https://repositorio.ufersa.edu.br/handle/prefix/1093
dc.language.iso.fl_str_mv por
language por
dc.relation.references.pt_BR.fl_str_mv FREITAS, Igor Wescley Silva de. Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados. 2019. 99 f. Dissertação (Mestrado em Ciência da Computação), Universidade Federal Rural do Semi-Árido, Mossoró, 2019.
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal Rural do Semi-Árido
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFERSA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Ciências Exatas e Naturais - CCEN
publisher.none.fl_str_mv Universidade Federal Rural do Semi-Árido
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFERSA
instname:Universidade Federal Rural do Semi-Árido (UFERSA)
instacron:UFERSA
instname_str Universidade Federal Rural do Semi-Árido (UFERSA)
instacron_str UFERSA
institution UFERSA
reponame_str Biblioteca Digital de Teses e Dissertações da UFERSA
collection Biblioteca Digital de Teses e Dissertações da UFERSA
bitstream.url.fl_str_mv https://repositorio.ufersa.edu.br//bitstream/prefix/1093/3/IgorWSF_DISSERT.pdf.txt
https://repositorio.ufersa.edu.br//bitstream/prefix/1093/4/IgorWSF_DISSERT.pdf.jpg
https://repositorio.ufersa.edu.br//bitstream/prefix/1093/1/IgorWSF_DISSERT.pdf
https://repositorio.ufersa.edu.br//bitstream/prefix/1093/2/license.txt
bitstream.checksum.fl_str_mv 244d7cdc38eedebb9a4af43fec4683c2
30a6f0749f302a071c5ac614d3be6603
9094e6e9ebf4eeac2cb152f3c4474294
43cd690d6a359e86c1fe3d5b7cba0c9b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFERSA - Universidade Federal Rural do Semi-Árido (UFERSA)
repository.mail.fl_str_mv direcaosisbi@ufersa.edu.br|| direcaosisbi@ufersa.edu.br
_version_ 1766778972985622528