Comitê de métodos estatísticos para detecção de mudanças de conceito
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/29990 |
Resumo: | O notável aumento da quantidade de informação proveniente das tecnologias nos impossibilita de continuar usando os sistemas de aprendizagem tradicionais (batch). Por isso, precisa-se de algoritmos online, que devem ser atualizados constantemente, adaptando-se rapidamente às novas instâncias (dados). Além disto, os dados chegam em grande velocidade (fluxo de dados) e suas distribuições podem mudar com o tempo, gerando um evento chamado de mudança de conceito (Concept drift), o qual degrada o modelo de aprendizagem. A extração de conhecimento (KDD) em fluxos de dados com a presença de mudanças de conceito é uma das tarefas mais desafiadoras nas áreas de mineração de dados e aprendizado de máquina. Muitos algoritmos de aprendizagem de máquina, conhecidos como classificadores base, utilizam o aprendizado indutivo supervisionado e, para melhorar sua acurácia, são usados com detectores de mudanças de conceito, também chamados de métodos adaptativos. O algoritmo de aprendizagem ideal combina a robustez ao ruído com a sensibilidade às mudanças de conceito. Fundamentando-se nas alegações acima colocadas, nesta investigação foi implementado um algoritmo para detecção de mudanças de conceito (ANOVA_C), cujo objetivo constitui prover e demonstrar empiricamente que a metodologia de construção de um detector baseado na combinação de vários testes estatísticos para notificar as mudanças de conceitos é uma boa alternativa para melhorar os resultados. O comitê de métodos estatísticos ANOVA_C utiliza no processo de notificação das mudanças os resultados de três provas estatísticas (ANOVA padrão, Brown_Forysthe, e O’Brien) combinadas mediante dois sistemas de votação: para o estado de alerta (warning) é usado o voto majoritário com a informação fornecida pelos três testes estatísticos e para as mudanças de conceito usa-se a regra "O primeiro que encontra é o primeiro que reporta", usando somente a informação fornecida pelos métodos estatísticos de Brown-Forysthe e O’Brien. A experimentação realizada com os classificadores bases Hoeffding Tree (HT) e Naive Bayes (NB) usando 24 bases de dados artificiais e nove reais demonstraram a eficiência da proposta. No que se refere à avaliação da proposta, ANOVA_C atingiu os melhores valores de acurácia e foi o mais balanceado na análise das detecções de mudanças de conceitos, o que foi confirmado por ser o melhor posicionado na avaliação utilizando a métrica Matthews Correlation Coefficient (MCC). |
id |
UFPE_3825c25775ed1faf3e3a4a5cdb5de51d |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/29990 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
PERÉZ, José Luis Martínezhttp://lattes.cnpq.br/8314525910631589http://lattes.cnpq.br/2153962690732683BARROS, Roberto Souto Maior de2019-04-02T20:38:27Z2019-04-02T20:38:27Z2018-02-28https://repositorio.ufpe.br/handle/123456789/29990O notável aumento da quantidade de informação proveniente das tecnologias nos impossibilita de continuar usando os sistemas de aprendizagem tradicionais (batch). Por isso, precisa-se de algoritmos online, que devem ser atualizados constantemente, adaptando-se rapidamente às novas instâncias (dados). Além disto, os dados chegam em grande velocidade (fluxo de dados) e suas distribuições podem mudar com o tempo, gerando um evento chamado de mudança de conceito (Concept drift), o qual degrada o modelo de aprendizagem. A extração de conhecimento (KDD) em fluxos de dados com a presença de mudanças de conceito é uma das tarefas mais desafiadoras nas áreas de mineração de dados e aprendizado de máquina. Muitos algoritmos de aprendizagem de máquina, conhecidos como classificadores base, utilizam o aprendizado indutivo supervisionado e, para melhorar sua acurácia, são usados com detectores de mudanças de conceito, também chamados de métodos adaptativos. O algoritmo de aprendizagem ideal combina a robustez ao ruído com a sensibilidade às mudanças de conceito. Fundamentando-se nas alegações acima colocadas, nesta investigação foi implementado um algoritmo para detecção de mudanças de conceito (ANOVA_C), cujo objetivo constitui prover e demonstrar empiricamente que a metodologia de construção de um detector baseado na combinação de vários testes estatísticos para notificar as mudanças de conceitos é uma boa alternativa para melhorar os resultados. O comitê de métodos estatísticos ANOVA_C utiliza no processo de notificação das mudanças os resultados de três provas estatísticas (ANOVA padrão, Brown_Forysthe, e O’Brien) combinadas mediante dois sistemas de votação: para o estado de alerta (warning) é usado o voto majoritário com a informação fornecida pelos três testes estatísticos e para as mudanças de conceito usa-se a regra "O primeiro que encontra é o primeiro que reporta", usando somente a informação fornecida pelos métodos estatísticos de Brown-Forysthe e O’Brien. A experimentação realizada com os classificadores bases Hoeffding Tree (HT) e Naive Bayes (NB) usando 24 bases de dados artificiais e nove reais demonstraram a eficiência da proposta. No que se refere à avaliação da proposta, ANOVA_C atingiu os melhores valores de acurácia e foi o mais balanceado na análise das detecções de mudanças de conceitos, o que foi confirmado por ser o melhor posicionado na avaliação utilizando a métrica Matthews Correlation Coefficient (MCC).CAPESThe remarkable increase in the amount of information coming from technology makes it impossible to continue using the traditional learning systems (batch). Therefore, we need online algorithms, which must be updated constantly, adapting quickly to new instances (data). In addition, the data arrives at high speed (data streams) and their distributions may change over time, generating an event called concept drift, which degrades the learning model. Knowledge Discovery from databases (KDD) in data streams with the presence of concept drift is one of the most challenging tasks in the areas of data mining and machine learning. Many machine learning algorithms, known as base classifiers, use supervised inductive learning and, to improve their accuracy, they are used with concept drift detectors, also called adaptive methods. The ideal learning algorithm combines the robustness to noise with sensitivity to the concept drift. Based on the above claims, in this investigation an algorithm was implemented to detect concept drifts (ANOVA_C). Its purpose is to provide and demonstrate empirically that the methodology of constructing a detector based on a combination of several statistical tests to notify concept drift is a good alternative to improve the results. The statistical methods committee ANOVA_C uses in the process of notification of changes the results of three statistical tests (Standard ANOVA, Brown_Forysthe, and O’Brien) combined by two voting systems: to warning status the majority vote is used with the information provided by the three statistical tests and for concept drift the "Early-find-early-report" rule is adopted, using only the information provided by the Brown-Forysthe and O’Brien statistical methods. The experimentation results with Hoeffding Tree (HT) and Naive Bayes (NB) as bases classifiers using 24 artificial and nine real-world databases demonstrated the efficiency of the proposal. Regarding the evaluation of the proposal, ANOVA_C achieved the best accuracy values and was the most balanced in the analysis of concept drift detections, which was confirmed as it was the best positioned in the evaluation using the Matthews Correlation Coefficient (MCC).porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCiência da computaçãoAprendizagem onlineComitê de métodos estatísticos para detecção de mudanças de conceitoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILDISSERTAÇÃO José Luis Martínez Pérez.pdf.jpgDISSERTAÇÃO José Luis Martínez Pérez.pdf.jpgGenerated Thumbnailimage/jpeg1337https://repositorio.ufpe.br/bitstream/123456789/29990/5/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.jpg18e1c60a2a8625699ced03eaa9b7d7aaMD55ORIGINALDISSERTAÇÃO José Luis Martínez Pérez.pdfDISSERTAÇÃO José Luis Martínez Pérez.pdfapplication/pdf1240395https://repositorio.ufpe.br/bitstream/123456789/29990/1/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf1ca351c561d7dd8f3230d9a5600c3f84MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/29990/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/29990/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTDISSERTAÇÃO José Luis Martínez Pérez.pdf.txtDISSERTAÇÃO José Luis Martínez Pérez.pdf.txtExtracted texttext/plain241349https://repositorio.ufpe.br/bitstream/123456789/29990/4/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.txt518a245d4b498a6b205ae47c0ce367f9MD54123456789/299902019-10-25 09:03:21.665oai:repositorio.ufpe.br:123456789/29990TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T12:03:21Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Comitê de métodos estatísticos para detecção de mudanças de conceito |
title |
Comitê de métodos estatísticos para detecção de mudanças de conceito |
spellingShingle |
Comitê de métodos estatísticos para detecção de mudanças de conceito PERÉZ, José Luis Martínez Ciência da computação Aprendizagem online |
title_short |
Comitê de métodos estatísticos para detecção de mudanças de conceito |
title_full |
Comitê de métodos estatísticos para detecção de mudanças de conceito |
title_fullStr |
Comitê de métodos estatísticos para detecção de mudanças de conceito |
title_full_unstemmed |
Comitê de métodos estatísticos para detecção de mudanças de conceito |
title_sort |
Comitê de métodos estatísticos para detecção de mudanças de conceito |
author |
PERÉZ, José Luis Martínez |
author_facet |
PERÉZ, José Luis Martínez |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8314525910631589 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/2153962690732683 |
dc.contributor.author.fl_str_mv |
PERÉZ, José Luis Martínez |
dc.contributor.advisor1.fl_str_mv |
BARROS, Roberto Souto Maior de |
contributor_str_mv |
BARROS, Roberto Souto Maior de |
dc.subject.por.fl_str_mv |
Ciência da computação Aprendizagem online |
topic |
Ciência da computação Aprendizagem online |
description |
O notável aumento da quantidade de informação proveniente das tecnologias nos impossibilita de continuar usando os sistemas de aprendizagem tradicionais (batch). Por isso, precisa-se de algoritmos online, que devem ser atualizados constantemente, adaptando-se rapidamente às novas instâncias (dados). Além disto, os dados chegam em grande velocidade (fluxo de dados) e suas distribuições podem mudar com o tempo, gerando um evento chamado de mudança de conceito (Concept drift), o qual degrada o modelo de aprendizagem. A extração de conhecimento (KDD) em fluxos de dados com a presença de mudanças de conceito é uma das tarefas mais desafiadoras nas áreas de mineração de dados e aprendizado de máquina. Muitos algoritmos de aprendizagem de máquina, conhecidos como classificadores base, utilizam o aprendizado indutivo supervisionado e, para melhorar sua acurácia, são usados com detectores de mudanças de conceito, também chamados de métodos adaptativos. O algoritmo de aprendizagem ideal combina a robustez ao ruído com a sensibilidade às mudanças de conceito. Fundamentando-se nas alegações acima colocadas, nesta investigação foi implementado um algoritmo para detecção de mudanças de conceito (ANOVA_C), cujo objetivo constitui prover e demonstrar empiricamente que a metodologia de construção de um detector baseado na combinação de vários testes estatísticos para notificar as mudanças de conceitos é uma boa alternativa para melhorar os resultados. O comitê de métodos estatísticos ANOVA_C utiliza no processo de notificação das mudanças os resultados de três provas estatísticas (ANOVA padrão, Brown_Forysthe, e O’Brien) combinadas mediante dois sistemas de votação: para o estado de alerta (warning) é usado o voto majoritário com a informação fornecida pelos três testes estatísticos e para as mudanças de conceito usa-se a regra "O primeiro que encontra é o primeiro que reporta", usando somente a informação fornecida pelos métodos estatísticos de Brown-Forysthe e O’Brien. A experimentação realizada com os classificadores bases Hoeffding Tree (HT) e Naive Bayes (NB) usando 24 bases de dados artificiais e nove reais demonstraram a eficiência da proposta. No que se refere à avaliação da proposta, ANOVA_C atingiu os melhores valores de acurácia e foi o mais balanceado na análise das detecções de mudanças de conceitos, o que foi confirmado por ser o melhor posicionado na avaliação utilizando a métrica Matthews Correlation Coefficient (MCC). |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-02-28 |
dc.date.accessioned.fl_str_mv |
2019-04-02T20:38:27Z |
dc.date.available.fl_str_mv |
2019-04-02T20:38:27Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/29990 |
url |
https://repositorio.ufpe.br/handle/123456789/29990 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/29990/5/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/29990/1/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf https://repositorio.ufpe.br/bitstream/123456789/29990/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/29990/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/29990/4/DISSERTA%c3%87%c3%83O%20Jos%c3%a9%20Luis%20Mart%c3%adnez%20P%c3%a9rez.pdf.txt |
bitstream.checksum.fl_str_mv |
18e1c60a2a8625699ced03eaa9b7d7aa 1ca351c561d7dd8f3230d9a5600c3f84 e39d27027a6cc9cb039ad269a5db8e34 4b8a02c7f2818eaf00dcf2260dd5eb08 518a245d4b498a6b205ae47c0ce367f9 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310744974295040 |