Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/49433 |
Resumo: | No contexto de fluxo contínuo de dados, no qual os dados são gerados em tempo real, é comum a existência de dados sem rótulos, por exemplo, devido ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo propostas estratégias de aprendizagem semi-supervisionada em que são utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio típico dos fluxos contínuos de dados é a presença das chamadas mudanças de conceito (concept drift): neste cenário, a distribuição de probabilidade dos dados muda com o tempo, o que causa uma diminuição da precisão das classificações. Essa dissertação apresenta três novos métodos baseados na técnica de nossa autoria o Co-op Training, nos quais são utilizados dois classificadores que cooperam entre si para realizar predições em fluxo contínuos de dados. Estes algoritmos foram adaptados com o objetivo de obter uma melhor acurácia de classificação quando comparados ao método original e aos seus concorrentes. O primeiro método proposto é o Co-op Training V2, uma versão menos rigorosa do método original; o segundo é o Co- op Training V3, que utiliza apenas o nível de confiança de ambos os classificadores para rotular dados sem rótulo; e o último é o Co-op Training V4, que também utiliza apenas o nível de confiança na rotulação de dados, tendo o treinamento de ambos os classificadores como principal diferença para o V3. Os métodos propostos foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do Massive Online Analysis (MOA) framework que foi utilizada para realizar os testes. Os experimentos utilizaram bases de dados artificiais e reais, tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram melhor em cada um dos cenários testados utilizando como métrica a acurácia e o teste pos-hoc Bonferroni-Dunn, tendo o Co-op Training como a melhor opção para ser utilizado sem detector de mudança de conceito. |
id |
UFPE_635a0cf8d3cf1cd8ddd35eb317b56adf |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/49433 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
MONTEIRO, Paulo Martinshttp://lattes.cnpq.br/5335921616330986http://lattes.cnpq.br/2153962690732683BARROS, Roberto Souto Maior de2023-03-22T14:38:22Z2023-03-22T14:38:22Z2022-10-28MONTEIRO, Paulo Martins. Propostas de métodos baseados em Co-op training para aprendizado semi- supervisionado em fluxos contínuos de dados. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.https://repositorio.ufpe.br/handle/123456789/49433No contexto de fluxo contínuo de dados, no qual os dados são gerados em tempo real, é comum a existência de dados sem rótulos, por exemplo, devido ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo propostas estratégias de aprendizagem semi-supervisionada em que são utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio típico dos fluxos contínuos de dados é a presença das chamadas mudanças de conceito (concept drift): neste cenário, a distribuição de probabilidade dos dados muda com o tempo, o que causa uma diminuição da precisão das classificações. Essa dissertação apresenta três novos métodos baseados na técnica de nossa autoria o Co-op Training, nos quais são utilizados dois classificadores que cooperam entre si para realizar predições em fluxo contínuos de dados. Estes algoritmos foram adaptados com o objetivo de obter uma melhor acurácia de classificação quando comparados ao método original e aos seus concorrentes. O primeiro método proposto é o Co-op Training V2, uma versão menos rigorosa do método original; o segundo é o Co- op Training V3, que utiliza apenas o nível de confiança de ambos os classificadores para rotular dados sem rótulo; e o último é o Co-op Training V4, que também utiliza apenas o nível de confiança na rotulação de dados, tendo o treinamento de ambos os classificadores como principal diferença para o V3. Os métodos propostos foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do Massive Online Analysis (MOA) framework que foi utilizada para realizar os testes. Os experimentos utilizaram bases de dados artificiais e reais, tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram melhor em cada um dos cenários testados utilizando como métrica a acurácia e o teste pos-hoc Bonferroni-Dunn, tendo o Co-op Training como a melhor opção para ser utilizado sem detector de mudança de conceito.CAPESIn the context of continuous data flow, in which data is generated in real time, it is common to have unlabeled data, for example, due to the high cost of labeling it. To deal with such data, semi-supervised learning strategies are being proposed in which labeled and unlabeled data are used at the same time. Another typical challenge of continuous data stream is the presence of so-called concept drift: in this scenario, the probability distribution of the data changes over time, which causes a decrease in classification accuracy. This paper presents three new methods based on our technique, Co-op Training, in which two cooperating classifiers are used to make predictions on a continuous data stream. These algorithms have been adapted with the goal of obtaining better classification accuracy when compared to the original method and its competitors. The first proposed method is Co-op Training V2, a less rigorous version of the original method; the second is Co-op Training V3, which uses only the confidence threshold of both classifiers to label unlabeled data; and the last is Co-op Training V4, which also uses only the confidence threshold in labeling data, with the training of both classifiers as the main difference to V3. The proposed methods were compared to the algorithms available in MOA-SS, the extension of the Massive Online Analysis (MOA) framework that was used to perform the tests. The experiments used artificial and real databases, both in datasets without concept changes and in scenarios with concept changes. Finally, we analyze which algorithms did better in each of the tested scenarios using accuracy metrics and the Bonferroni-Dunn post hoc test, with Co-op Training as the best option to be used without a concept change detector.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalFluxo contínuo de dadosPropostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/49433/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82362https://repositorio.ufpe.br/bitstream/123456789/49433/3/license.txt5e89a1613ddc8510c6576f4b23a78973MD53ORIGINALDISSERTAÇÃO Paulo Martins Monteiro.pdfDISSERTAÇÃO Paulo Martins Monteiro.pdfapplication/pdf1235585https://repositorio.ufpe.br/bitstream/123456789/49433/1/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf963b88e03ce51ec2baec92f6e64af04bMD51TEXTDISSERTAÇÃO Paulo Martins Monteiro.pdf.txtDISSERTAÇÃO Paulo Martins Monteiro.pdf.txtExtracted texttext/plain153523https://repositorio.ufpe.br/bitstream/123456789/49433/4/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.txt7a8338b669f3b22c82e17a7a486695beMD54THUMBNAILDISSERTAÇÃO Paulo Martins Monteiro.pdf.jpgDISSERTAÇÃO Paulo Martins Monteiro.pdf.jpgGenerated Thumbnailimage/jpeg1226https://repositorio.ufpe.br/bitstream/123456789/49433/5/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.jpg89594e1f72a6fd0c351ea12751e17322MD55123456789/494332023-03-23 02:17:00.016oai:repositorio.ufpe.br:123456789/49433VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2l6YcOnw6NvIGRlIERvY3VtZW50b3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKCkRlY2xhcm8gZXN0YXIgY2llbnRlIGRlIHF1ZSBlc3RlIFRlcm1vIGRlIERlcMOzc2l0byBMZWdhbCBlIEF1dG9yaXphw6fDo28gdGVtIG8gb2JqZXRpdm8gZGUgZGl2dWxnYcOnw6NvIGRvcyBkb2N1bWVudG9zIGRlcG9zaXRhZG9zIG5vIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgZSBkZWNsYXJvIHF1ZToKCkkgLSBvcyBkYWRvcyBwcmVlbmNoaWRvcyBubyBmb3JtdWzDoXJpbyBkZSBkZXDDs3NpdG8gc8OjbyB2ZXJkYWRlaXJvcyBlIGF1dMOqbnRpY29zOwoKSUkgLSAgbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIHJlc3BvbnNhYmlsaWRhZGUgZGUgc3VhIGF1dG9yaWE7CgpJSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwoKSVYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIG9icmEgY29sZXRpdmEgKG1haXMgZGUgdW0gYXV0b3IpOiB0b2RvcyBvcyBhdXRvcmVzIGVzdMOjbyBjaWVudGVzIGRvIGRlcMOzc2l0byBlIGRlIGFjb3JkbyBjb20gZXN0ZSB0ZXJtbzsKClYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIFRyYWJhbGhvIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28sIERpc3NlcnRhw6fDo28gb3UgVGVzZTogbyBhcnF1aXZvIGRlcG9zaXRhZG8gY29ycmVzcG9uZGUgw6AgdmVyc8OjbyBmaW5hbCBkbyB0cmFiYWxobzsKClZJIC0gcXVhbmRvIHRyYXRhci1zZSBkZSBUcmFiYWxobyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvLCBEaXNzZXJ0YcOnw6NvIG91IFRlc2U6IGVzdG91IGNpZW50ZSBkZSBxdWUgYSBhbHRlcmHDp8OjbyBkYSBtb2RhbGlkYWRlIGRlIGFjZXNzbyBhbyBkb2N1bWVudG8gYXDDs3MgbyBkZXDDs3NpdG8gZSBhbnRlcyBkZSBmaW5kYXIgbyBwZXLDrW9kbyBkZSBlbWJhcmdvLCBxdWFuZG8gZm9yIGVzY29saGlkbyBhY2Vzc28gcmVzdHJpdG8sIHNlcsOhIHBlcm1pdGlkYSBtZWRpYW50ZSBzb2xpY2l0YcOnw6NvIGRvIChhKSBhdXRvciAoYSkgYW8gU2lzdGVtYSBJbnRlZ3JhZG8gZGUgQmlibGlvdGVjYXMgZGEgVUZQRSAoU0lCL1VGUEUpLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gQWJlcnRvOgoKTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRlIGF1dG9yIHF1ZSByZWNhZW0gc29icmUgZXN0ZSBkb2N1bWVudG8sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuNjEwLCBkZSAxOSBkZSBmZXZlcmVpcm8gZGUgMTk5OCwgYXJ0LiAyOSwgaW5jaXNvIElJSSwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIGEgZGlzcG9uaWJpbGl6YXIgZ3JhdHVpdGFtZW50ZSwgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkIChhcXVpc2nDp8OjbykgYXRyYXbDqXMgZG8gc2l0ZSBkbyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIG5vIGVuZGVyZcOnbyBodHRwOi8vd3d3LnJlcG9zaXRvcmlvLnVmcGUuYnIsIGEgcGFydGlyIGRhIGRhdGEgZGUgZGVww7NzaXRvLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gUmVzdHJpdG86CgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIGRvY3VtZW50bywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS42MTAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbyBjb25kaXplbnRlIGFvIHRpcG8gZGUgZG9jdW1lbnRvLCBjb25mb3JtZSBpbmRpY2FkbyBubyBjYW1wbyBEYXRhIGRlIEVtYmFyZ28uCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212023-03-23T05:17Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados |
title |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados |
spellingShingle |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados MONTEIRO, Paulo Martins Inteligência computacional Fluxo contínuo de dados |
title_short |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados |
title_full |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados |
title_fullStr |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados |
title_full_unstemmed |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados |
title_sort |
Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados |
author |
MONTEIRO, Paulo Martins |
author_facet |
MONTEIRO, Paulo Martins |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/5335921616330986 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/2153962690732683 |
dc.contributor.author.fl_str_mv |
MONTEIRO, Paulo Martins |
dc.contributor.advisor1.fl_str_mv |
BARROS, Roberto Souto Maior de |
contributor_str_mv |
BARROS, Roberto Souto Maior de |
dc.subject.por.fl_str_mv |
Inteligência computacional Fluxo contínuo de dados |
topic |
Inteligência computacional Fluxo contínuo de dados |
description |
No contexto de fluxo contínuo de dados, no qual os dados são gerados em tempo real, é comum a existência de dados sem rótulos, por exemplo, devido ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo propostas estratégias de aprendizagem semi-supervisionada em que são utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio típico dos fluxos contínuos de dados é a presença das chamadas mudanças de conceito (concept drift): neste cenário, a distribuição de probabilidade dos dados muda com o tempo, o que causa uma diminuição da precisão das classificações. Essa dissertação apresenta três novos métodos baseados na técnica de nossa autoria o Co-op Training, nos quais são utilizados dois classificadores que cooperam entre si para realizar predições em fluxo contínuos de dados. Estes algoritmos foram adaptados com o objetivo de obter uma melhor acurácia de classificação quando comparados ao método original e aos seus concorrentes. O primeiro método proposto é o Co-op Training V2, uma versão menos rigorosa do método original; o segundo é o Co- op Training V3, que utiliza apenas o nível de confiança de ambos os classificadores para rotular dados sem rótulo; e o último é o Co-op Training V4, que também utiliza apenas o nível de confiança na rotulação de dados, tendo o treinamento de ambos os classificadores como principal diferença para o V3. Os métodos propostos foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do Massive Online Analysis (MOA) framework que foi utilizada para realizar os testes. Os experimentos utilizaram bases de dados artificiais e reais, tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram melhor em cada um dos cenários testados utilizando como métrica a acurácia e o teste pos-hoc Bonferroni-Dunn, tendo o Co-op Training como a melhor opção para ser utilizado sem detector de mudança de conceito. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022-10-28 |
dc.date.accessioned.fl_str_mv |
2023-03-22T14:38:22Z |
dc.date.available.fl_str_mv |
2023-03-22T14:38:22Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MONTEIRO, Paulo Martins. Propostas de métodos baseados em Co-op training para aprendizado semi- supervisionado em fluxos contínuos de dados. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/49433 |
identifier_str_mv |
MONTEIRO, Paulo Martins. Propostas de métodos baseados em Co-op training para aprendizado semi- supervisionado em fluxos contínuos de dados. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022. |
url |
https://repositorio.ufpe.br/handle/123456789/49433 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/49433/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/49433/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/49433/1/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf https://repositorio.ufpe.br/bitstream/123456789/49433/4/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/49433/5/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.jpg |
bitstream.checksum.fl_str_mv |
e39d27027a6cc9cb039ad269a5db8e34 5e89a1613ddc8510c6576f4b23a78973 963b88e03ce51ec2baec92f6e64af04b 7a8338b669f3b22c82e17a7a486695be 89594e1f72a6fd0c351ea12751e17322 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310880628572160 |