Comitê de métodos estatísticos para detecção de mudanças de conceito

Detalhes bibliográficos
Autor(a) principal: PERÉZ, José Luis Martínez
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/29990
Resumo: O notável aumento da quantidade de informação proveniente das tecnologias nos impossibilita de continuar usando os sistemas de aprendizagem tradicionais (batch). Por isso, precisa-se de algoritmos online, que devem ser atualizados constantemente, adaptando-se rapidamente às novas instâncias (dados). Além disto, os dados chegam em grande velocidade (fluxo de dados) e suas distribuições podem mudar com o tempo, gerando um evento chamado de mudança de conceito (Concept drift), o qual degrada o modelo de aprendizagem. A extração de conhecimento (KDD) em fluxos de dados com a presença de mudanças de conceito é uma das tarefas mais desafiadoras nas áreas de mineração de dados e aprendizado de máquina. Muitos algoritmos de aprendizagem de máquina, conhecidos como classificadores base, utilizam o aprendizado indutivo supervisionado e, para melhorar sua acurácia, são usados com detectores de mudanças de conceito, também chamados de métodos adaptativos. O algoritmo de aprendizagem ideal combina a robustez ao ruído com a sensibilidade às mudanças de conceito. Fundamentando-se nas alegações acima colocadas, nesta investigação foi implementado um algoritmo para detecção de mudanças de conceito (ANOVA_C), cujo objetivo constitui prover e demonstrar empiricamente que a metodologia de construção de um detector baseado na combinação de vários testes estatísticos para notificar as mudanças de conceitos é uma boa alternativa para melhorar os resultados. O comitê de métodos estatísticos ANOVA_C utiliza no processo de notificação das mudanças os resultados de três provas estatísticas (ANOVA padrão, Brown_Forysthe, e O’Brien) combinadas mediante dois sistemas de votação: para o estado de alerta (warning) é usado o voto majoritário com a informação fornecida pelos três testes estatísticos e para as mudanças de conceito usa-se a regra "O primeiro que encontra é o primeiro que reporta", usando somente a informação fornecida pelos métodos estatísticos de Brown-Forysthe e O’Brien. A experimentação realizada com os classificadores bases Hoeffding Tree (HT) e Naive Bayes (NB) usando 24 bases de dados artificiais e nove reais demonstraram a eficiência da proposta. No que se refere à avaliação da proposta, ANOVA_C atingiu os melhores valores de acurácia e foi o mais balanceado na análise das detecções de mudanças de conceitos, o que foi confirmado por ser o melhor posicionado na avaliação utilizando a métrica Matthews Correlation Coefficient (MCC).
id UFPE_3825c25775ed1faf3e3a4a5cdb5de51d
oai_identifier_str oai:repositorio.ufpe.br:123456789/29990
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling PERÉZ, José Luis Martínezhttp://lattes.cnpq.br/8314525910631589http://lattes.cnpq.br/2153962690732683BARROS, Roberto Souto Maior de2019-04-02T20:38:27Z2019-04-02T20:38:27Z2018-02-28https://repositorio.ufpe.br/handle/123456789/29990O notável aumento da quantidade de informação proveniente das tecnologias nos impossibilita de continuar usando os sistemas de aprendizagem tradicionais (batch). Por isso, precisa-se de algoritmos online, que devem ser atualizados constantemente, adaptando-se rapidamente às novas instâncias (dados). Além disto, os dados chegam em grande velocidade (fluxo de dados) e suas distribuições podem mudar com o tempo, gerando um evento chamado de mudança de conceito (Concept drift), o qual degrada o modelo de aprendizagem. A extração de conhecimento (KDD) em fluxos de dados com a presença de mudanças de conceito é uma das tarefas mais desafiadoras nas áreas de mineração de dados e aprendizado de máquina. Muitos algoritmos de aprendizagem de máquina, conhecidos como classificadores base, utilizam o aprendizado indutivo supervisionado e, para melhorar sua acurácia, são usados com detectores de mudanças de conceito, também chamados de métodos adaptativos. O algoritmo de aprendizagem ideal combina a robustez ao ruído com a sensibilidade às mudanças de conceito. Fundamentando-se nas alegações acima colocadas, nesta investigação foi implementado um algoritmo para detecção de mudanças de conceito (ANOVA_C), cujo objetivo constitui prover e demonstrar empiricamente que a metodologia de construção de um detector baseado na combinação de vários testes estatísticos para notificar as mudanças de conceitos é uma boa alternativa para melhorar os resultados. O comitê de métodos estatísticos ANOVA_C utiliza no processo de notificação das mudanças os resultados de três provas estatísticas (ANOVA padrão, Brown_Forysthe, e O’Brien) combinadas mediante dois sistemas de votação: para o estado de alerta (warning) é usado o voto majoritário com a informação fornecida pelos três testes estatísticos e para as mudanças de conceito usa-se a regra "O primeiro que encontra é o primeiro que reporta", usando somente a informação fornecida pelos métodos estatísticos de Brown-Forysthe e O’Brien. A experimentação realizada com os classificadores bases Hoeffding Tree (HT) e Naive Bayes (NB) usando 24 bases de dados artificiais e nove reais demonstraram a eficiência da proposta. No que se refere à avaliação da proposta, ANOVA_C atingiu os melhores valores de acurácia e foi o mais balanceado na análise das detecções de mudanças de conceitos, o que foi confirmado por ser o melhor posicionado na avaliação utilizando a métrica Matthews Correlation Coefficient (MCC).CAPESThe remarkable increase in the amount of information coming from technology makes it impossible to continue using the traditional learning systems (batch). Therefore, we need online algorithms, which must be updated constantly, adapting quickly to new instances (data). In addition, the data arrives at high speed (data streams) and their distributions may change over time, generating an event called concept drift, which degrades the learning model. Knowledge Discovery from databases (KDD) in data streams with the presence of concept drift is one of the most challenging tasks in the areas of data mining and machine learning. Many machine learning algorithms, known as base classifiers, use supervised inductive learning and, to improve their accuracy, they are used with concept drift detectors, also called adaptive methods. The ideal learning algorithm combines the robustness to noise with sensitivity to the concept drift. Based on the above claims, in this investigation an algorithm was implemented to detect concept drifts (ANOVA_C). Its purpose is to provide and demonstrate empirically that the methodology of constructing a detector based on a combination of several statistical tests to notify concept drift is a good alternative to improve the results. The statistical methods committee ANOVA_C uses in the process of notification of changes the results of three statistical tests (Standard ANOVA, Brown_Forysthe, and O’Brien) combined by two voting systems: to warning status the majority vote is used with the information provided by the three statistical tests and for concept drift the "Early-find-early-report" rule is adopted, using only the information provided by the Brown-Forysthe and O’Brien statistical methods. The experimentation results with Hoeffding Tree (HT) and Naive Bayes (NB) as bases classifiers using 24 artificial and nine real-world databases demonstrated the efficiency of the proposal. Regarding the evaluation of the proposal, ANOVA_C achieved the best accuracy values and was the most balanced in the analysis of concept drift detections, which was confirmed as it was the best positioned in the evaluation using the Matthews Correlation Coefficient (MCC).porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCiência da computaçãoAprendizagem onlineComitê de métodos estatísticos para detecção de mudanças de conceitoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO José Luis Martínez Pérez.pdf.jpgDISSERTAÇÃO José Luis Martínez Pérez.pdf.jpgGenerated Thumbnailimage/jpeg1337https://repositorio.ufpe.br/bitstream/123456789/29990/5/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.jpg18e1c60a2a8625699ced03eaa9b7d7aaMD55ORIGINALDISSERTAÇÃO José Luis Martínez Pérez.pdfDISSERTAÇÃO José Luis Martínez Pérez.pdfapplication/pdf1240395https://repositorio.ufpe.br/bitstream/123456789/29990/1/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf1ca351c561d7dd8f3230d9a5600c3f84MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/29990/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/29990/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO José Luis Martínez Pérez.pdf.txtDISSERTAÇÃO José Luis Martínez Pérez.pdf.txtExtracted texttext/plain241349https://repositorio.ufpe.br/bitstream/123456789/29990/4/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.txt518a245d4b498a6b205ae47c0ce367f9MD54123456789/299902019-10-25 09:03:21.665oai:repositorio.ufpe.br:123456789/29990TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T12:03:21Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Comitê de métodos estatísticos para detecção de mudanças de conceito
title Comitê de métodos estatísticos para detecção de mudanças de conceito
spellingShingle Comitê de métodos estatísticos para detecção de mudanças de conceito
PERÉZ, José Luis Martínez
Ciência da computação
Aprendizagem online
title_short Comitê de métodos estatísticos para detecção de mudanças de conceito
title_full Comitê de métodos estatísticos para detecção de mudanças de conceito
title_fullStr Comitê de métodos estatísticos para detecção de mudanças de conceito
title_full_unstemmed Comitê de métodos estatísticos para detecção de mudanças de conceito
title_sort Comitê de métodos estatísticos para detecção de mudanças de conceito
author PERÉZ, José Luis Martínez
author_facet PERÉZ, José Luis Martínez
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8314525910631589
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2153962690732683
dc.contributor.author.fl_str_mv PERÉZ, José Luis Martínez
dc.contributor.advisor1.fl_str_mv BARROS, Roberto Souto Maior de
contributor_str_mv BARROS, Roberto Souto Maior de
dc.subject.por.fl_str_mv Ciência da computação
Aprendizagem online
topic Ciência da computação
Aprendizagem online
description O notável aumento da quantidade de informação proveniente das tecnologias nos impossibilita de continuar usando os sistemas de aprendizagem tradicionais (batch). Por isso, precisa-se de algoritmos online, que devem ser atualizados constantemente, adaptando-se rapidamente às novas instâncias (dados). Além disto, os dados chegam em grande velocidade (fluxo de dados) e suas distribuições podem mudar com o tempo, gerando um evento chamado de mudança de conceito (Concept drift), o qual degrada o modelo de aprendizagem. A extração de conhecimento (KDD) em fluxos de dados com a presença de mudanças de conceito é uma das tarefas mais desafiadoras nas áreas de mineração de dados e aprendizado de máquina. Muitos algoritmos de aprendizagem de máquina, conhecidos como classificadores base, utilizam o aprendizado indutivo supervisionado e, para melhorar sua acurácia, são usados com detectores de mudanças de conceito, também chamados de métodos adaptativos. O algoritmo de aprendizagem ideal combina a robustez ao ruído com a sensibilidade às mudanças de conceito. Fundamentando-se nas alegações acima colocadas, nesta investigação foi implementado um algoritmo para detecção de mudanças de conceito (ANOVA_C), cujo objetivo constitui prover e demonstrar empiricamente que a metodologia de construção de um detector baseado na combinação de vários testes estatísticos para notificar as mudanças de conceitos é uma boa alternativa para melhorar os resultados. O comitê de métodos estatísticos ANOVA_C utiliza no processo de notificação das mudanças os resultados de três provas estatísticas (ANOVA padrão, Brown_Forysthe, e O’Brien) combinadas mediante dois sistemas de votação: para o estado de alerta (warning) é usado o voto majoritário com a informação fornecida pelos três testes estatísticos e para as mudanças de conceito usa-se a regra "O primeiro que encontra é o primeiro que reporta", usando somente a informação fornecida pelos métodos estatísticos de Brown-Forysthe e O’Brien. A experimentação realizada com os classificadores bases Hoeffding Tree (HT) e Naive Bayes (NB) usando 24 bases de dados artificiais e nove reais demonstraram a eficiência da proposta. No que se refere à avaliação da proposta, ANOVA_C atingiu os melhores valores de acurácia e foi o mais balanceado na análise das detecções de mudanças de conceitos, o que foi confirmado por ser o melhor posicionado na avaliação utilizando a métrica Matthews Correlation Coefficient (MCC).
publishDate 2018
dc.date.issued.fl_str_mv 2018-02-28
dc.date.accessioned.fl_str_mv 2019-04-02T20:38:27Z
dc.date.available.fl_str_mv 2019-04-02T20:38:27Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/29990
url https://repositorio.ufpe.br/handle/123456789/29990
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/29990/5/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/29990/1/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf
https://repositorio.ufpe.br/bitstream/123456789/29990/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/29990/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/29990/4/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.txt
bitstream.checksum.fl_str_mv 18e1c60a2a8625699ced03eaa9b7d7aa
1ca351c561d7dd8f3230d9a5600c3f84
e39d27027a6cc9cb039ad269a5db8e34
4b8a02c7f2818eaf00dcf2260dd5eb08
518a245d4b498a6b205ae47c0ce367f9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310744974295040