Um framework semissupervisionado para classificação de dados em fluxos contínuos

Detalhes bibliográficos
Autor(a) principal: Gorgônio, Arthur Costa
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/46790
Resumo: Aplicações no domínio de fluxos contínuos de dados (do inglês, Data Streams) recebem um grande volume de dados rapidamente e, existe a necessidade de processá-los sequencialmente. Uma característica destas aplicações é que os dados podem sofrer mudanças durante o processo da utilização do modelo, ademais a quantidade de instâncias cujo rótulo é conhecido pode não ser suficiente para gerar um modelo eficaz. A fim de suprimir a dificuldade da pouca quantidade de instâncias rotulada, pode-se utilizar o aprendizado semissupervisionado. Além disso, o uso de comitês de classificadores pode auxiliar na detecção da mudança de contexto. Assim, neste trabalho, é proposto um framework para realizar a classificação semissupervisionada em tarefas com fluxos contínuos de dados, utilizando uma abordagem baseada em comitês de classificadores. Este framework utiliza o comitê para se auto avaliar e determinar quando treinar um novo classificador durante o processo de classificação. Para avaliar a eficácia da proposta, foram realizados testes empíricos com onze bases de dados utilizando dois diferentes tamanhos de batch, nove abordagens supervisionadas , por meio das métricas acurácia, precision, recall e f-score. Ao avaliar a quantidade de instâncias processadas, as abordagens supervisionadas obtiveram um desempenho praticamente constantes, enquanto que a proposta apresentou uma melhora de 8,28% e 3,81% utilizando 5% e 10% de instâncias rotuladas, respectivamente. Por fim, os resultados desta pesquisa são promissores, o framework proposto obteve resultados semelhantes ou superiores em 118 dos 198 (60%) casos, em termos estatísticos.
id UFRN_c2eefc023343cce756fb21499beecbdd
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/46790
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Gorgônio, Arthur Costahttp://lattes.cnpq.br/8213279977425231http://lattes.cnpq.br/1357887401899097Vale, Karliane Medeiros Ovidio02973877407http://lattes.cnpq.br/7907570677010860Abreu, Marjory Cristiany da Costahttp://lattes.cnpq.br/2234040548103596Xavier Júnior, João Carloshttp://lattes.cnpq.br/5088238300241110Santos, Araken de Medeiroshttp://lattes.cnpq.br/8059198436766378Canuto, Anne Magaly de Paula2022-04-04T23:49:33Z2022-04-04T23:49:33Z2021-06-25GORGÔNIO, Arthur Costa. Um framework semissupervisionado para classificação de dados em fluxos contínuos. 2021. 123f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2021.https://repositorio.ufrn.br/handle/123456789/46790Aplicações no domínio de fluxos contínuos de dados (do inglês, Data Streams) recebem um grande volume de dados rapidamente e, existe a necessidade de processá-los sequencialmente. Uma característica destas aplicações é que os dados podem sofrer mudanças durante o processo da utilização do modelo, ademais a quantidade de instâncias cujo rótulo é conhecido pode não ser suficiente para gerar um modelo eficaz. A fim de suprimir a dificuldade da pouca quantidade de instâncias rotulada, pode-se utilizar o aprendizado semissupervisionado. Além disso, o uso de comitês de classificadores pode auxiliar na detecção da mudança de contexto. Assim, neste trabalho, é proposto um framework para realizar a classificação semissupervisionada em tarefas com fluxos contínuos de dados, utilizando uma abordagem baseada em comitês de classificadores. Este framework utiliza o comitê para se auto avaliar e determinar quando treinar um novo classificador durante o processo de classificação. Para avaliar a eficácia da proposta, foram realizados testes empíricos com onze bases de dados utilizando dois diferentes tamanhos de batch, nove abordagens supervisionadas , por meio das métricas acurácia, precision, recall e f-score. Ao avaliar a quantidade de instâncias processadas, as abordagens supervisionadas obtiveram um desempenho praticamente constantes, enquanto que a proposta apresentou uma melhora de 8,28% e 3,81% utilizando 5% e 10% de instâncias rotuladas, respectivamente. Por fim, os resultados desta pesquisa são promissores, o framework proposto obteve resultados semelhantes ou superiores em 118 dos 198 (60%) casos, em termos estatísticos.Data stream applications receive a large volume of data quickly, and they need to process them sequentially. In these applications, the data may change during the use of the model; in addition, the number of instances whose label is known may not be sufficient to generate an effective model. Semi-supervised learning can be used to suppress the difficulty of the small number of instances labelled. Also, an ensemble of classifiers can assist in the concept drift detection. So, in this work, we proposed a framework to perform the semi-supervised classification in tasks in a data stream context, using an approach based on an ensemble of classifiers. This framework use an ensemble to evaluate itself and determine when a new classifier must be trained to update the pool, during the classification process. In order to evaluate the effectiveness of this proposal, empirical tests are carried out with eleven databases using two different batches sizes, nine supervised approaches (three simple classifiers and six ensembles), using the metrics accuracy, precision, recall and F-Score. When assessing the number of instances processed, the supervised approaches achieved practically stable performance, while the proposal showed an improvement of 8.28% and 3.81% using 5% and 10% of labelled instances, respectively. Finally, the results of this research are promising and the proposed framework achieve results equal or better in 118 out of 198 (60%).Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOUFRNBrasilComputaçãoAprendizado semissupervisionadoClassificação em fluxos contínuos de dadosMudança de contextoUm framework semissupervisionado para classificação de dados em fluxos contínuosA data stream framework for semi-supervised classification in non-stationary environmentsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALFrameworksemissupervisionadoclassificacao_Gorgonio_2021.pdfapplication/pdf2730333https://repositorio.ufrn.br/bitstream/123456789/46790/1/Frameworksemissupervisionadoclassificacao_Gorgonio_2021.pdfb6c9444ffc381d5157b87bb49a7d7d9bMD51123456789/467902022-05-02 13:02:09.438oai:https://repositorio.ufrn.br:123456789/46790Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-05-02T16:02:09Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Um framework semissupervisionado para classificação de dados em fluxos contínuos
dc.title.alternative.pt_BR.fl_str_mv A data stream framework for semi-supervised classification in non-stationary environments
title Um framework semissupervisionado para classificação de dados em fluxos contínuos
spellingShingle Um framework semissupervisionado para classificação de dados em fluxos contínuos
Gorgônio, Arthur Costa
Computação
Aprendizado semissupervisionado
Classificação em fluxos contínuos de dados
Mudança de contexto
title_short Um framework semissupervisionado para classificação de dados em fluxos contínuos
title_full Um framework semissupervisionado para classificação de dados em fluxos contínuos
title_fullStr Um framework semissupervisionado para classificação de dados em fluxos contínuos
title_full_unstemmed Um framework semissupervisionado para classificação de dados em fluxos contínuos
title_sort Um framework semissupervisionado para classificação de dados em fluxos contínuos
author Gorgônio, Arthur Costa
author_facet Gorgônio, Arthur Costa
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8213279977425231
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1357887401899097
dc.contributor.referees1.none.fl_str_mv Abreu, Marjory Cristiany da Costa
dc.contributor.referees1Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2234040548103596
dc.contributor.referees2.none.fl_str_mv Xavier Júnior, João Carlos
dc.contributor.referees2Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5088238300241110
dc.contributor.referees3.none.fl_str_mv Santos, Araken de Medeiros
dc.contributor.referees3Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8059198436766378
dc.contributor.author.fl_str_mv Gorgônio, Arthur Costa
dc.contributor.advisor-co1.fl_str_mv Vale, Karliane Medeiros Ovidio
dc.contributor.advisor-co1ID.fl_str_mv 02973877407
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/7907570677010860
dc.contributor.advisor1.fl_str_mv Canuto, Anne Magaly de Paula
contributor_str_mv Vale, Karliane Medeiros Ovidio
Canuto, Anne Magaly de Paula
dc.subject.por.fl_str_mv Computação
Aprendizado semissupervisionado
Classificação em fluxos contínuos de dados
Mudança de contexto
topic Computação
Aprendizado semissupervisionado
Classificação em fluxos contínuos de dados
Mudança de contexto
description Aplicações no domínio de fluxos contínuos de dados (do inglês, Data Streams) recebem um grande volume de dados rapidamente e, existe a necessidade de processá-los sequencialmente. Uma característica destas aplicações é que os dados podem sofrer mudanças durante o processo da utilização do modelo, ademais a quantidade de instâncias cujo rótulo é conhecido pode não ser suficiente para gerar um modelo eficaz. A fim de suprimir a dificuldade da pouca quantidade de instâncias rotulada, pode-se utilizar o aprendizado semissupervisionado. Além disso, o uso de comitês de classificadores pode auxiliar na detecção da mudança de contexto. Assim, neste trabalho, é proposto um framework para realizar a classificação semissupervisionada em tarefas com fluxos contínuos de dados, utilizando uma abordagem baseada em comitês de classificadores. Este framework utiliza o comitê para se auto avaliar e determinar quando treinar um novo classificador durante o processo de classificação. Para avaliar a eficácia da proposta, foram realizados testes empíricos com onze bases de dados utilizando dois diferentes tamanhos de batch, nove abordagens supervisionadas , por meio das métricas acurácia, precision, recall e f-score. Ao avaliar a quantidade de instâncias processadas, as abordagens supervisionadas obtiveram um desempenho praticamente constantes, enquanto que a proposta apresentou uma melhora de 8,28% e 3,81% utilizando 5% e 10% de instâncias rotuladas, respectivamente. Por fim, os resultados desta pesquisa são promissores, o framework proposto obteve resultados semelhantes ou superiores em 118 dos 198 (60%) casos, em termos estatísticos.
publishDate 2021
dc.date.issued.fl_str_mv 2021-06-25
dc.date.accessioned.fl_str_mv 2022-04-04T23:49:33Z
dc.date.available.fl_str_mv 2022-04-04T23:49:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GORGÔNIO, Arthur Costa. Um framework semissupervisionado para classificação de dados em fluxos contínuos. 2021. 123f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2021.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/46790
identifier_str_mv GORGÔNIO, Arthur Costa. Um framework semissupervisionado para classificação de dados em fluxos contínuos. 2021. 123f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2021.
url https://repositorio.ufrn.br/handle/123456789/46790
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/46790/1/Frameworksemissupervisionadoclassificacao_Gorgonio_2021.pdf
bitstream.checksum.fl_str_mv b6c9444ffc381d5157b87bb49a7d7d9b
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117498514964480