Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados

Detalhes bibliográficos
Autor(a) principal: MONTEIRO, Paulo Martins
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/49433
Resumo: No contexto de fluxo contínuo de dados, no qual os dados são gerados em tempo real, é comum a existência de dados sem rótulos, por exemplo, devido ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo propostas estratégias de aprendizagem semi-supervisionada em que são utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio típico dos fluxos contínuos de dados é a presença das chamadas mudanças de conceito (concept drift): neste cenário, a distribuição de probabilidade dos dados muda com o tempo, o que causa uma diminuição da precisão das classificações. Essa dissertação apresenta três novos métodos baseados na técnica de nossa autoria o Co-op Training, nos quais são utilizados dois classificadores que cooperam entre si para realizar predições em fluxo contínuos de dados. Estes algoritmos foram adaptados com o objetivo de obter uma melhor acurácia de classificação quando comparados ao método original e aos seus concorrentes. O primeiro método proposto é o Co-op Training V2, uma versão menos rigorosa do método original; o segundo é o Co- op Training V3, que utiliza apenas o nível de confiança de ambos os classificadores para rotular dados sem rótulo; e o último é o Co-op Training V4, que também utiliza apenas o nível de confiança na rotulação de dados, tendo o treinamento de ambos os classificadores como principal diferença para o V3. Os métodos propostos foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do Massive Online Analysis (MOA) framework que foi utilizada para realizar os testes. Os experimentos utilizaram bases de dados artificiais e reais, tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram melhor em cada um dos cenários testados utilizando como métrica a acurácia e o teste pos-hoc Bonferroni-Dunn, tendo o Co-op Training como a melhor opção para ser utilizado sem detector de mudança de conceito.
id UFPE_635a0cf8d3cf1cd8ddd35eb317b56adf
oai_identifier_str oai:repositorio.ufpe.br:123456789/49433
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling MONTEIRO, Paulo Martinshttp://lattes.cnpq.br/5335921616330986http://lattes.cnpq.br/2153962690732683BARROS, Roberto Souto Maior de2023-03-22T14:38:22Z2023-03-22T14:38:22Z2022-10-28MONTEIRO, Paulo Martins. Propostas de métodos baseados em Co-op training para aprendizado semi- supervisionado em fluxos contínuos de dados. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.https://repositorio.ufpe.br/handle/123456789/49433No contexto de fluxo contínuo de dados, no qual os dados são gerados em tempo real, é comum a existência de dados sem rótulos, por exemplo, devido ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo propostas estratégias de aprendizagem semi-supervisionada em que são utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio típico dos fluxos contínuos de dados é a presença das chamadas mudanças de conceito (concept drift): neste cenário, a distribuição de probabilidade dos dados muda com o tempo, o que causa uma diminuição da precisão das classificações. Essa dissertação apresenta três novos métodos baseados na técnica de nossa autoria o Co-op Training, nos quais são utilizados dois classificadores que cooperam entre si para realizar predições em fluxo contínuos de dados. Estes algoritmos foram adaptados com o objetivo de obter uma melhor acurácia de classificação quando comparados ao método original e aos seus concorrentes. O primeiro método proposto é o Co-op Training V2, uma versão menos rigorosa do método original; o segundo é o Co- op Training V3, que utiliza apenas o nível de confiança de ambos os classificadores para rotular dados sem rótulo; e o último é o Co-op Training V4, que também utiliza apenas o nível de confiança na rotulação de dados, tendo o treinamento de ambos os classificadores como principal diferença para o V3. Os métodos propostos foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do Massive Online Analysis (MOA) framework que foi utilizada para realizar os testes. Os experimentos utilizaram bases de dados artificiais e reais, tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram melhor em cada um dos cenários testados utilizando como métrica a acurácia e o teste pos-hoc Bonferroni-Dunn, tendo o Co-op Training como a melhor opção para ser utilizado sem detector de mudança de conceito.CAPESIn the context of continuous data flow, in which data is generated in real time, it is common to have unlabeled data, for example, due to the high cost of labeling it. To deal with such data, semi-supervised learning strategies are being proposed in which labeled and unlabeled data are used at the same time. Another typical challenge of continuous data stream is the presence of so-called concept drift: in this scenario, the probability distribution of the data changes over time, which causes a decrease in classification accuracy. This paper presents three new methods based on our technique, Co-op Training, in which two cooperating classifiers are used to make predictions on a continuous data stream. These algorithms have been adapted with the goal of obtaining better classification accuracy when compared to the original method and its competitors. The first proposed method is Co-op Training V2, a less rigorous version of the original method; the second is Co-op Training V3, which uses only the confidence threshold of both classifiers to label unlabeled data; and the last is Co-op Training V4, which also uses only the confidence threshold in labeling data, with the training of both classifiers as the main difference to V3. The proposed methods were compared to the algorithms available in MOA-SS, the extension of the Massive Online Analysis (MOA) framework that was used to perform the tests. The experiments used artificial and real databases, both in datasets without concept changes and in scenarios with concept changes. Finally, we analyze which algorithms did better in each of the tested scenarios using accuracy metrics and the Bonferroni-Dunn post hoc test, with Co-op Training as the best option to be used without a concept change detector.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalFluxo contínuo de dadosPropostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/49433/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82362https://repositorio.ufpe.br/bitstream/123456789/49433/3/license.txt5e89a1613ddc8510c6576f4b23a78973MD53ORIGINALDISSERTAÇÃO Paulo Martins Monteiro.pdfDISSERTAÇÃO Paulo Martins Monteiro.pdfapplication/pdf1235585https://repositorio.ufpe.br/bitstream/123456789/49433/1/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf963b88e03ce51ec2baec92f6e64af04bMD51TEXTDISSERTAÇÃO Paulo Martins Monteiro.pdf.txtDISSERTAÇÃO Paulo Martins Monteiro.pdf.txtExtracted texttext/plain153523https://repositorio.ufpe.br/bitstream/123456789/49433/4/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.txt7a8338b669f3b22c82e17a7a486695beMD54THUMBNAILDISSERTAÇÃO Paulo Martins Monteiro.pdf.jpgDISSERTAÇÃO Paulo Martins Monteiro.pdf.jpgGenerated Thumbnailimage/jpeg1226https://repositorio.ufpe.br/bitstream/123456789/49433/5/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.jpg89594e1f72a6fd0c351ea12751e17322MD55123456789/494332023-03-23 02:17:00.016oai:repositorio.ufpe.br:123456789/49433VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2l6YcOnw6NvIGRlIERvY3VtZW50b3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKCkRlY2xhcm8gZXN0YXIgY2llbnRlIGRlIHF1ZSBlc3RlIFRlcm1vIGRlIERlcMOzc2l0byBMZWdhbCBlIEF1dG9yaXphw6fDo28gdGVtIG8gb2JqZXRpdm8gZGUgZGl2dWxnYcOnw6NvIGRvcyBkb2N1bWVudG9zIGRlcG9zaXRhZG9zIG5vIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgZSBkZWNsYXJvIHF1ZToKCkkgLSBvcyBkYWRvcyBwcmVlbmNoaWRvcyBubyBmb3JtdWzDoXJpbyBkZSBkZXDDs3NpdG8gc8OjbyB2ZXJkYWRlaXJvcyBlIGF1dMOqbnRpY29zOwoKSUkgLSAgbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIHJlc3BvbnNhYmlsaWRhZGUgZGUgc3VhIGF1dG9yaWE7CgpJSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwoKSVYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIG9icmEgY29sZXRpdmEgKG1haXMgZGUgdW0gYXV0b3IpOiB0b2RvcyBvcyBhdXRvcmVzIGVzdMOjbyBjaWVudGVzIGRvIGRlcMOzc2l0byBlIGRlIGFjb3JkbyBjb20gZXN0ZSB0ZXJtbzsKClYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIFRyYWJhbGhvIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28sIERpc3NlcnRhw6fDo28gb3UgVGVzZTogbyBhcnF1aXZvIGRlcG9zaXRhZG8gY29ycmVzcG9uZGUgw6AgdmVyc8OjbyBmaW5hbCBkbyB0cmFiYWxobzsKClZJIC0gcXVhbmRvIHRyYXRhci1zZSBkZSBUcmFiYWxobyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvLCBEaXNzZXJ0YcOnw6NvIG91IFRlc2U6IGVzdG91IGNpZW50ZSBkZSBxdWUgYSBhbHRlcmHDp8OjbyBkYSBtb2RhbGlkYWRlIGRlIGFjZXNzbyBhbyBkb2N1bWVudG8gYXDDs3MgbyBkZXDDs3NpdG8gZSBhbnRlcyBkZSBmaW5kYXIgbyBwZXLDrW9kbyBkZSBlbWJhcmdvLCBxdWFuZG8gZm9yIGVzY29saGlkbyBhY2Vzc28gcmVzdHJpdG8sIHNlcsOhIHBlcm1pdGlkYSBtZWRpYW50ZSBzb2xpY2l0YcOnw6NvIGRvIChhKSBhdXRvciAoYSkgYW8gU2lzdGVtYSBJbnRlZ3JhZG8gZGUgQmlibGlvdGVjYXMgZGEgVUZQRSAoU0lCL1VGUEUpLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gQWJlcnRvOgoKTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRlIGF1dG9yIHF1ZSByZWNhZW0gc29icmUgZXN0ZSBkb2N1bWVudG8sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuNjEwLCBkZSAxOSBkZSBmZXZlcmVpcm8gZGUgMTk5OCwgYXJ0LiAyOSwgaW5jaXNvIElJSSwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIGEgZGlzcG9uaWJpbGl6YXIgZ3JhdHVpdGFtZW50ZSwgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkIChhcXVpc2nDp8OjbykgYXRyYXbDqXMgZG8gc2l0ZSBkbyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIG5vIGVuZGVyZcOnbyBodHRwOi8vd3d3LnJlcG9zaXRvcmlvLnVmcGUuYnIsIGEgcGFydGlyIGRhIGRhdGEgZGUgZGVww7NzaXRvLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gUmVzdHJpdG86CgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIGRvY3VtZW50bywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS42MTAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbyBjb25kaXplbnRlIGFvIHRpcG8gZGUgZG9jdW1lbnRvLCBjb25mb3JtZSBpbmRpY2FkbyBubyBjYW1wbyBEYXRhIGRlIEVtYmFyZ28uCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212023-03-23T05:17Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
title Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
spellingShingle Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
MONTEIRO, Paulo Martins
Inteligência computacional
Fluxo contínuo de dados
title_short Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
title_full Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
title_fullStr Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
title_full_unstemmed Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
title_sort Propostas de métodos baseados em Co-op training para aprendizado semi-supervisionado em fluxos contínuos de dados
author MONTEIRO, Paulo Martins
author_facet MONTEIRO, Paulo Martins
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5335921616330986
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2153962690732683
dc.contributor.author.fl_str_mv MONTEIRO, Paulo Martins
dc.contributor.advisor1.fl_str_mv BARROS, Roberto Souto Maior de
contributor_str_mv BARROS, Roberto Souto Maior de
dc.subject.por.fl_str_mv Inteligência computacional
Fluxo contínuo de dados
topic Inteligência computacional
Fluxo contínuo de dados
description No contexto de fluxo contínuo de dados, no qual os dados são gerados em tempo real, é comum a existência de dados sem rótulos, por exemplo, devido ao alto custo para rotulá-los. Para lidar com estes dados, estão sendo propostas estratégias de aprendizagem semi-supervisionada em que são utilizados dados rotulados e não rotulados ao mesmo tempo. Outro desafio típico dos fluxos contínuos de dados é a presença das chamadas mudanças de conceito (concept drift): neste cenário, a distribuição de probabilidade dos dados muda com o tempo, o que causa uma diminuição da precisão das classificações. Essa dissertação apresenta três novos métodos baseados na técnica de nossa autoria o Co-op Training, nos quais são utilizados dois classificadores que cooperam entre si para realizar predições em fluxo contínuos de dados. Estes algoritmos foram adaptados com o objetivo de obter uma melhor acurácia de classificação quando comparados ao método original e aos seus concorrentes. O primeiro método proposto é o Co-op Training V2, uma versão menos rigorosa do método original; o segundo é o Co- op Training V3, que utiliza apenas o nível de confiança de ambos os classificadores para rotular dados sem rótulo; e o último é o Co-op Training V4, que também utiliza apenas o nível de confiança na rotulação de dados, tendo o treinamento de ambos os classificadores como principal diferença para o V3. Os métodos propostos foram comparados aos algoritmos disponíveis no MOA-SS, a extensão do Massive Online Analysis (MOA) framework que foi utilizada para realizar os testes. Os experimentos utilizaram bases de dados artificiais e reais, tanto em conjuntos de dados sem mudanças de conceito quanto em cenários com mudanças de conceito. Finalmente, analisamos quais algoritmos se saíram melhor em cada um dos cenários testados utilizando como métrica a acurácia e o teste pos-hoc Bonferroni-Dunn, tendo o Co-op Training como a melhor opção para ser utilizado sem detector de mudança de conceito.
publishDate 2022
dc.date.issued.fl_str_mv 2022-10-28
dc.date.accessioned.fl_str_mv 2023-03-22T14:38:22Z
dc.date.available.fl_str_mv 2023-03-22T14:38:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MONTEIRO, Paulo Martins. Propostas de métodos baseados em Co-op training para aprendizado semi- supervisionado em fluxos contínuos de dados. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/49433
identifier_str_mv MONTEIRO, Paulo Martins. Propostas de métodos baseados em Co-op training para aprendizado semi- supervisionado em fluxos contínuos de dados. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.
url https://repositorio.ufpe.br/handle/123456789/49433
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/49433/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/49433/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/49433/1/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf
https://repositorio.ufpe.br/bitstream/123456789/49433/4/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/49433/5/DISSERTA%c3%87%c3%83O%20Paulo%20Martins%20Monteiro.pdf.jpg
bitstream.checksum.fl_str_mv e39d27027a6cc9cb039ad269a5db8e34
5e89a1613ddc8510c6576f4b23a78973
963b88e03ce51ec2baec92f6e64af04b
7a8338b669f3b22c82e17a7a486695be
89594e1f72a6fd0c351ea12751e17322
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310880628572160