Detecção de novidade em fluxos contínuos de dados multirrótulo

Detalhes bibliográficos
Autor(a) principal: Costa Júnior, Joel David
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/12197
Resumo: Multi-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods.
id SCAR_fdf3ca07649c9dbb16b0023adf525128
oai_identifier_str oai:repositorio.ufscar.br:ufscar/12197
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Costa Júnior, Joel DavidCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/52939583660309222c9220e1-d2ab-48e7-8d36-ebd4498755c42020-01-30T18:10:32Z2020-01-30T18:10:32Z2019-07-29COSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197.https://repositorio.ufscar.br/handle/ufscar/12197Multi-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods.Classificação Multirrótulo em Fluxos Contínuos de Dados (CMFCD) é a tarefa de classificar exemplos de fluxos de dados em várias classes simultaneamente. Essa é uma tarefa desafiadora pelas características presentes nos Fluxo Contínuo de Dados (FCD), especialmente em relação a potencial distribuição não-estacionária dos dados, em que novas classes podem surgir (Evoluções de Conceito) e classes conhecidas podem mudar ao longo do tempo (Mudanças de Conceito). Apesar dos diversos trabalhos propostos para CMFCD, a maioria assume a disponibilidade dos rótulos reais dos exemplos para atualização dos métodos. No entanto, esse é um cenário irreal, visto que muitas aplicações reais possuem Latência Extrema de Rótulos, problema no qual é inviável acessar os rótulos reais dos exemplos. Uma tarefa que têm se destacado ao lidar com esses problemas é a Detecção de Novidade (DN). Em FCDs, a tarefa de DN consiste em identificar novos padrões em exemplos não rotulados dos fluxos de dados. Em alguns aspectos, esses padrões podem divergir dos exemplos observados e podem ser usados para atualizar os modelos de decisão. Apesar da gama de trabalhos que abordam o uso de DN em FCDs, essa é uma técnica pouco explorada para problemas de CM. Este trabalho propõem dois novos métodos: o MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) que aplica DN exclusivamente para tratar mudanças de conceito; e o MultI-label learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) que além de tratar mudanças de conceito, também é capaz de detectar novas classes ao longo dos fluxos de dados. Na Fase Offline, os métodos propostos constroem modelos de decisão baseados em microgrupos e, na Fase Online, novos exemplos são classificados ou rejeitados (marcados como desconhecidos) pelo modelo de decisão atual. Grupos de exemplos rejeitados podem formar novos padrões válidos e serem usados para atualizar o modelo de decisão. Essa atualização é feita ao longo do fluxo a fim de refletir mudanças e evoluções de conceito. Experimentos realizados com bases de dados reais e sintéticas mostraram que o MINAS-LC alcança resultados competitivos com os métodos da literatura e o MINAS-BR resultados superiores em bases de dados com evoluções de conceito, nas quais as classes emergentes são, na maioria das vezes, detectadas corretamente pelo método.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 2017/11513-0FAPESP: 2018/11321-6CAPES: código de financiamento - 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificação multirrótuloDetecção de novidadeFluxos contínuos de dadosLatência extrema de rótulosData streamInfinitely delayed labelsMultilabel classificationNovelty detectionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAODetecção de novidade em fluxos contínuos de dados multirrótuloNovelty detection in multi-label data streamsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_VersaoFinal_JoelCosta.pdfDissertacao_VersaoFinal_JoelCosta.pdfTexto da versão final da Dissertaçãoapplication/pdf3518271https://repositorio.ufscar.br/bitstream/ufscar/12197/1/Dissertacao_VersaoFinal_JoelCosta.pdfeee5f09af9595f4b69a709edfbe1f3e0MD51cartaComprovante_versaoFinalDissertacao_assinada.pdfcartaComprovante_versaoFinalDissertacao_assinada.pdfCarta Comprovanteapplication/pdf106748https://repositorio.ufscar.br/bitstream/ufscar/12197/2/cartaComprovante_versaoFinalDissertacao_assinada.pdfd2d22db7a82e9025560bee203634df0dMD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/12197/3/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD53TEXTDissertacao_VersaoFinal_JoelCosta.pdf.txtDissertacao_VersaoFinal_JoelCosta.pdf.txtExtracted texttext/plain299695https://repositorio.ufscar.br/bitstream/ufscar/12197/4/Dissertacao_VersaoFinal_JoelCosta.pdf.txt8f209b4fc129e723849a3c105e72b8ecMD54cartaComprovante_versaoFinalDissertacao_assinada.pdf.txtcartaComprovante_versaoFinalDissertacao_assinada.pdf.txtExtracted texttext/plain1336https://repositorio.ufscar.br/bitstream/ufscar/12197/6/cartaComprovante_versaoFinalDissertacao_assinada.pdf.txt2178a65f0b89e50713f3e3c76a5b1e86MD56THUMBNAILDissertacao_VersaoFinal_JoelCosta.pdf.jpgDissertacao_VersaoFinal_JoelCosta.pdf.jpgIM Thumbnailimage/jpeg7332https://repositorio.ufscar.br/bitstream/ufscar/12197/5/Dissertacao_VersaoFinal_JoelCosta.pdf.jpg68b1136ead5d507c01e883555e4615c2MD55cartaComprovante_versaoFinalDissertacao_assinada.pdf.jpgcartaComprovante_versaoFinalDissertacao_assinada.pdf.jpgIM Thumbnailimage/jpeg10916https://repositorio.ufscar.br/bitstream/ufscar/12197/7/cartaComprovante_versaoFinalDissertacao_assinada.pdf.jpg18d1ab1a0928ac6ae208aa9bd85af924MD57ufscar/121972023-09-18 18:31:49.946oai:repositorio.ufscar.br:ufscar/12197Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:49Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Detecção de novidade em fluxos contínuos de dados multirrótulo
dc.title.alternative.eng.fl_str_mv Novelty detection in multi-label data streams
title Detecção de novidade em fluxos contínuos de dados multirrótulo
spellingShingle Detecção de novidade em fluxos contínuos de dados multirrótulo
Costa Júnior, Joel David
Classificação multirrótulo
Detecção de novidade
Fluxos contínuos de dados
Latência extrema de rótulos
Data stream
Infinitely delayed labels
Multilabel classification
Novelty detection
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Detecção de novidade em fluxos contínuos de dados multirrótulo
title_full Detecção de novidade em fluxos contínuos de dados multirrótulo
title_fullStr Detecção de novidade em fluxos contínuos de dados multirrótulo
title_full_unstemmed Detecção de novidade em fluxos contínuos de dados multirrótulo
title_sort Detecção de novidade em fluxos contínuos de dados multirrótulo
author Costa Júnior, Joel David
author_facet Costa Júnior, Joel David
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/5293958366030922
dc.contributor.author.fl_str_mv Costa Júnior, Joel David
dc.contributor.advisor1.fl_str_mv Cerri, Ricardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6266519868438512
dc.contributor.authorID.fl_str_mv 2c9220e1-d2ab-48e7-8d36-ebd4498755c4
contributor_str_mv Cerri, Ricardo
dc.subject.por.fl_str_mv Classificação multirrótulo
Detecção de novidade
Fluxos contínuos de dados
Latência extrema de rótulos
topic Classificação multirrótulo
Detecção de novidade
Fluxos contínuos de dados
Latência extrema de rótulos
Data stream
Infinitely delayed labels
Multilabel classification
Novelty detection
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Data stream
Infinitely delayed labels
Multilabel classification
Novelty detection
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Multi-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods.
publishDate 2019
dc.date.issued.fl_str_mv 2019-07-29
dc.date.accessioned.fl_str_mv 2020-01-30T18:10:32Z
dc.date.available.fl_str_mv 2020-01-30T18:10:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/12197
identifier_str_mv COSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197.
url https://repositorio.ufscar.br/handle/ufscar/12197
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv c997f5ee-db84-40ed-8971-521dd105f2d1
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/12197/1/Dissertacao_VersaoFinal_JoelCosta.pdf
https://repositorio.ufscar.br/bitstream/ufscar/12197/2/cartaComprovante_versaoFinalDissertacao_assinada.pdf
https://repositorio.ufscar.br/bitstream/ufscar/12197/3/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/12197/4/Dissertacao_VersaoFinal_JoelCosta.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/12197/6/cartaComprovante_versaoFinalDissertacao_assinada.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/12197/5/Dissertacao_VersaoFinal_JoelCosta.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/12197/7/cartaComprovante_versaoFinalDissertacao_assinada.pdf.jpg
bitstream.checksum.fl_str_mv eee5f09af9595f4b69a709edfbe1f3e0
d2d22db7a82e9025560bee203634df0d
e39d27027a6cc9cb039ad269a5db8e34
8f209b4fc129e723849a3c105e72b8ec
2178a65f0b89e50713f3e3c76a5b1e86
68b1136ead5d507c01e883555e4615c2
18d1ab1a0928ac6ae208aa9bd85af924
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1813715612417916928