Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados

Detalhes bibliográficos
Autor(a) principal: CABRAL, Danilo Rafael de Lima
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/25233
Resumo: O aprendizado online objetiva a extração de informações a partir de fluxos de dados compostos de uma grande quantidade de exemplos. Esses fluxos frequentemente contêm mudanças de conceitos que na maioria dos casos são caracterizadas como modificações nas distribuições dos dados. Métodos detectores de mudanças de conceitos são algoritmos projetados para trabalharem conjuntamente com um – ou mais – classificador base, a fim de estimarem as posições das mudanças e quando necessário substituírem o preditor, com o objetivo de melhorar a sua acurácia. DDM, EDDM e STEPD são exemplos de detectores simples, eficientes e bem-conceituados. Apesar de sua eficácia em bases pequenas, o DDM tende a perder precisão quando apresentado a conjuntos de dados consideravelmente grandes. Por outro lado, o EDDM funciona bem com bases de dados graduais, porém alcança baixos índices de acurácia em bases com mudanças de conceitos abruptas. O STEPD, por sua vez, foi projetado para a detecção de mudanças de conceitos através do teste de hipóteses entre duas proporções, entretanto, estatisticamente, esse teste não é recomendado para amostras pequenas e/ou desbalanceadas. Este trabalho propõe quatro novos detectores (formando o total de sete versões) que objetivam melhorar o DDM, EDDM e STEPD. Todos os métodos propostos são baseados em testes estatísticos, sendo o EMZD baseado no teste de hipóteses entre médias de duas amostras independentes e, o FPDD, FSDD e FTDD baseados no teste exato de Fisher. Os experimentos realizados, com dois classificadores base, usando 36 conjuntos de dados artificiais e três bases de dados reais, demonstraram a eficácia e eficiência dos detectores propostos. No que diz respeito a avaliação dos detectores, uma das versões do EMZD obteve as melhores acurácias e o FPDD foi o mais preciso na análise das detecções de mudanças de conceitos.
id UFPE_36076d3ddae2aad0c1bf0c06d2bebf8a
oai_identifier_str oai:repositorio.ufpe.br:123456789/25233
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling CABRAL, Danilo Rafael de Limahttp://lattes.cnpq.br/3367418645053917http://lattes.cnpq.br/2153962690732683BARROS, Roberto Souto Maior de2018-07-27T16:53:15Z2018-07-27T16:53:15Z2017-02-03https://repositorio.ufpe.br/handle/123456789/25233O aprendizado online objetiva a extração de informações a partir de fluxos de dados compostos de uma grande quantidade de exemplos. Esses fluxos frequentemente contêm mudanças de conceitos que na maioria dos casos são caracterizadas como modificações nas distribuições dos dados. Métodos detectores de mudanças de conceitos são algoritmos projetados para trabalharem conjuntamente com um – ou mais – classificador base, a fim de estimarem as posições das mudanças e quando necessário substituírem o preditor, com o objetivo de melhorar a sua acurácia. DDM, EDDM e STEPD são exemplos de detectores simples, eficientes e bem-conceituados. Apesar de sua eficácia em bases pequenas, o DDM tende a perder precisão quando apresentado a conjuntos de dados consideravelmente grandes. Por outro lado, o EDDM funciona bem com bases de dados graduais, porém alcança baixos índices de acurácia em bases com mudanças de conceitos abruptas. O STEPD, por sua vez, foi projetado para a detecção de mudanças de conceitos através do teste de hipóteses entre duas proporções, entretanto, estatisticamente, esse teste não é recomendado para amostras pequenas e/ou desbalanceadas. Este trabalho propõe quatro novos detectores (formando o total de sete versões) que objetivam melhorar o DDM, EDDM e STEPD. Todos os métodos propostos são baseados em testes estatísticos, sendo o EMZD baseado no teste de hipóteses entre médias de duas amostras independentes e, o FPDD, FSDD e FTDD baseados no teste exato de Fisher. Os experimentos realizados, com dois classificadores base, usando 36 conjuntos de dados artificiais e três bases de dados reais, demonstraram a eficácia e eficiência dos detectores propostos. No que diz respeito a avaliação dos detectores, uma das versões do EMZD obteve as melhores acurácias e o FPDD foi o mais preciso na análise das detecções de mudanças de conceitos.Online learning aims to extract information from data streams composed of a large number of examples. These flows often contain concept drifts that in most cases are characterized as changes in data distributions. Concept drifts detectors are algorithms designed to work with one or more base classifier in order to estimate the change positions and, when necessary, replace the predictor to improve its accuracy. DDM, EDDM and STEPD are simple, efficient and well-known detectors. Despite its effectiveness on small bases, DDM tends to lose accuracy when faced with considerably large data sets. On the other hand, EDDM works well with gradual databases, but achieves low accuracy on bases with abrupt drifts. STEPD was designed to detect changes in distribution using a hypothesis test between two proportions, however, statistically this test is not recommended for small and/or imbalanced samples. This work proposes four new detectors (seven versions in total) that aim to improve DDM, EDDM and STEPD. All the proposed methods are inspired by statistical tests, where EMZD is based on hypothesis test between means of two independent samples and FPDD, FSDD and FTDD are based on Fisher’s exact test. Experiments with two base classifiers using 36 artificial data sets and three real-world datasets demonstrated the effectiveness and efficiency of the proposed detectors. Regarding the evaluation of detectors, one of the versions of the EMZD obtained the best accuracy and the FPDD was the most accurate in the analysis of the concept drifts detections.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCiência da computaçãoAprendizagem de máquinaTestes estatísticos e detecções de mudanças de conceitos em fluxos de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO Danilo Rafael de Lima Cabral.pdf.jpgDISSERTAÇÃO Danilo Rafael de Lima Cabral.pdf.jpgGenerated Thumbnailimage/jpeg1287https://repositorio.ufpe.br/bitstream/123456789/25233/6/DISSERTA%c3%87%c3%83O%20Danilo%20Rafael%20de%20Lima%20Cabral.pdf.jpgb9af1d97c5a4ee5e25b932a8a1434dfcMD56ORIGINALDISSERTAÇÃO Danilo Rafael de Lima Cabral.pdfDISSERTAÇÃO Danilo Rafael de Lima Cabral.pdfapplication/pdf1429893https://repositorio.ufpe.br/bitstream/123456789/25233/1/DISSERTA%c3%87%c3%83O%20Danilo%20Rafael%20de%20Lima%20Cabral.pdf5720dd51e613a82826c1577ad86a1adfMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/25233/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/25233/4/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD54TEXTDISSERTAÇÃO Danilo Rafael de Lima Cabral.pdf.txtDISSERTAÇÃO Danilo Rafael de Lima Cabral.pdf.txtExtracted texttext/plain224861https://repositorio.ufpe.br/bitstream/123456789/25233/5/DISSERTA%c3%87%c3%83O%20Danilo%20Rafael%20de%20Lima%20Cabral.pdf.txtb626110b00881fcfadf61db87c8f82f6MD55123456789/252332019-10-25 09:05:20.508oai:repositorio.ufpe.br:123456789/25233TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T12:05:20Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
title Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
spellingShingle Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
CABRAL, Danilo Rafael de Lima
Ciência da computação
Aprendizagem de máquina
title_short Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
title_full Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
title_fullStr Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
title_full_unstemmed Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
title_sort Testes estatísticos e detecções de mudanças de conceitos em fluxos de dados
author CABRAL, Danilo Rafael de Lima
author_facet CABRAL, Danilo Rafael de Lima
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3367418645053917
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2153962690732683
dc.contributor.author.fl_str_mv CABRAL, Danilo Rafael de Lima
dc.contributor.advisor1.fl_str_mv BARROS, Roberto Souto Maior de
contributor_str_mv BARROS, Roberto Souto Maior de
dc.subject.por.fl_str_mv Ciência da computação
Aprendizagem de máquina
topic Ciência da computação
Aprendizagem de máquina
description O aprendizado online objetiva a extração de informações a partir de fluxos de dados compostos de uma grande quantidade de exemplos. Esses fluxos frequentemente contêm mudanças de conceitos que na maioria dos casos são caracterizadas como modificações nas distribuições dos dados. Métodos detectores de mudanças de conceitos são algoritmos projetados para trabalharem conjuntamente com um – ou mais – classificador base, a fim de estimarem as posições das mudanças e quando necessário substituírem o preditor, com o objetivo de melhorar a sua acurácia. DDM, EDDM e STEPD são exemplos de detectores simples, eficientes e bem-conceituados. Apesar de sua eficácia em bases pequenas, o DDM tende a perder precisão quando apresentado a conjuntos de dados consideravelmente grandes. Por outro lado, o EDDM funciona bem com bases de dados graduais, porém alcança baixos índices de acurácia em bases com mudanças de conceitos abruptas. O STEPD, por sua vez, foi projetado para a detecção de mudanças de conceitos através do teste de hipóteses entre duas proporções, entretanto, estatisticamente, esse teste não é recomendado para amostras pequenas e/ou desbalanceadas. Este trabalho propõe quatro novos detectores (formando o total de sete versões) que objetivam melhorar o DDM, EDDM e STEPD. Todos os métodos propostos são baseados em testes estatísticos, sendo o EMZD baseado no teste de hipóteses entre médias de duas amostras independentes e, o FPDD, FSDD e FTDD baseados no teste exato de Fisher. Os experimentos realizados, com dois classificadores base, usando 36 conjuntos de dados artificiais e três bases de dados reais, demonstraram a eficácia e eficiência dos detectores propostos. No que diz respeito a avaliação dos detectores, uma das versões do EMZD obteve as melhores acurácias e o FPDD foi o mais preciso na análise das detecções de mudanças de conceitos.
publishDate 2017
dc.date.issued.fl_str_mv 2017-02-03
dc.date.accessioned.fl_str_mv 2018-07-27T16:53:15Z
dc.date.available.fl_str_mv 2018-07-27T16:53:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/25233
url https://repositorio.ufpe.br/handle/123456789/25233
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/25233/6/DISSERTA%c3%87%c3%83O%20Danilo%20Rafael%20de%20Lima%20Cabral.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/25233/1/DISSERTA%c3%87%c3%83O%20Danilo%20Rafael%20de%20Lima%20Cabral.pdf
https://repositorio.ufpe.br/bitstream/123456789/25233/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/25233/4/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/25233/5/DISSERTA%c3%87%c3%83O%20Danilo%20Rafael%20de%20Lima%20Cabral.pdf.txt
bitstream.checksum.fl_str_mv b9af1d97c5a4ee5e25b932a8a1434dfc
5720dd51e613a82826c1577ad86a1adf
4b8a02c7f2818eaf00dcf2260dd5eb08
e39d27027a6cc9cb039ad269a5db8e34
b626110b00881fcfadf61db87c8f82f6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310615553802240