Detecção de novidade em fluxos contínuos de dados multirrótulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/12197 |
Resumo: | Multi-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods. |
id |
SCAR_fdf3ca07649c9dbb16b0023adf525128 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/12197 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Costa Júnior, Joel DavidCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/52939583660309222c9220e1-d2ab-48e7-8d36-ebd4498755c42020-01-30T18:10:32Z2020-01-30T18:10:32Z2019-07-29COSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197.https://repositorio.ufscar.br/handle/ufscar/12197Multi-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods.Classificação Multirrótulo em Fluxos Contínuos de Dados (CMFCD) é a tarefa de classificar exemplos de fluxos de dados em várias classes simultaneamente. Essa é uma tarefa desafiadora pelas características presentes nos Fluxo Contínuo de Dados (FCD), especialmente em relação a potencial distribuição não-estacionária dos dados, em que novas classes podem surgir (Evoluções de Conceito) e classes conhecidas podem mudar ao longo do tempo (Mudanças de Conceito). Apesar dos diversos trabalhos propostos para CMFCD, a maioria assume a disponibilidade dos rótulos reais dos exemplos para atualização dos métodos. No entanto, esse é um cenário irreal, visto que muitas aplicações reais possuem Latência Extrema de Rótulos, problema no qual é inviável acessar os rótulos reais dos exemplos. Uma tarefa que têm se destacado ao lidar com esses problemas é a Detecção de Novidade (DN). Em FCDs, a tarefa de DN consiste em identificar novos padrões em exemplos não rotulados dos fluxos de dados. Em alguns aspectos, esses padrões podem divergir dos exemplos observados e podem ser usados para atualizar os modelos de decisão. Apesar da gama de trabalhos que abordam o uso de DN em FCDs, essa é uma técnica pouco explorada para problemas de CM. Este trabalho propõem dois novos métodos: o MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) que aplica DN exclusivamente para tratar mudanças de conceito; e o MultI-label learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) que além de tratar mudanças de conceito, também é capaz de detectar novas classes ao longo dos fluxos de dados. Na Fase Offline, os métodos propostos constroem modelos de decisão baseados em microgrupos e, na Fase Online, novos exemplos são classificados ou rejeitados (marcados como desconhecidos) pelo modelo de decisão atual. Grupos de exemplos rejeitados podem formar novos padrões válidos e serem usados para atualizar o modelo de decisão. Essa atualização é feita ao longo do fluxo a fim de refletir mudanças e evoluções de conceito. Experimentos realizados com bases de dados reais e sintéticas mostraram que o MINAS-LC alcança resultados competitivos com os métodos da literatura e o MINAS-BR resultados superiores em bases de dados com evoluções de conceito, nas quais as classes emergentes são, na maioria das vezes, detectadas corretamente pelo método.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 2017/11513-0FAPESP: 2018/11321-6CAPES: código de financiamento - 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificação multirrótuloDetecção de novidadeFluxos contínuos de dadosLatência extrema de rótulosData streamInfinitely delayed labelsMultilabel classificationNovelty detectionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAODetecção de novidade em fluxos contínuos de dados multirrótuloNovelty detection in multi-label data streamsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacao_VersaoFinal_JoelCosta.pdfDissertacao_VersaoFinal_JoelCosta.pdfTexto da versão final da Dissertaçãoapplication/pdf3518271https://repositorio.ufscar.br/bitstream/ufscar/12197/1/Dissertacao_VersaoFinal_JoelCosta.pdfeee5f09af9595f4b69a709edfbe1f3e0MD51cartaComprovante_versaoFinalDissertacao_assinada.pdfcartaComprovante_versaoFinalDissertacao_assinada.pdfCarta Comprovanteapplication/pdf106748https://repositorio.ufscar.br/bitstream/ufscar/12197/2/cartaComprovante_versaoFinalDissertacao_assinada.pdfd2d22db7a82e9025560bee203634df0dMD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/12197/3/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD53TEXTDissertacao_VersaoFinal_JoelCosta.pdf.txtDissertacao_VersaoFinal_JoelCosta.pdf.txtExtracted texttext/plain299695https://repositorio.ufscar.br/bitstream/ufscar/12197/4/Dissertacao_VersaoFinal_JoelCosta.pdf.txt8f209b4fc129e723849a3c105e72b8ecMD54cartaComprovante_versaoFinalDissertacao_assinada.pdf.txtcartaComprovante_versaoFinalDissertacao_assinada.pdf.txtExtracted texttext/plain1336https://repositorio.ufscar.br/bitstream/ufscar/12197/6/cartaComprovante_versaoFinalDissertacao_assinada.pdf.txt2178a65f0b89e50713f3e3c76a5b1e86MD56THUMBNAILDissertacao_VersaoFinal_JoelCosta.pdf.jpgDissertacao_VersaoFinal_JoelCosta.pdf.jpgIM Thumbnailimage/jpeg7332https://repositorio.ufscar.br/bitstream/ufscar/12197/5/Dissertacao_VersaoFinal_JoelCosta.pdf.jpg68b1136ead5d507c01e883555e4615c2MD55cartaComprovante_versaoFinalDissertacao_assinada.pdf.jpgcartaComprovante_versaoFinalDissertacao_assinada.pdf.jpgIM Thumbnailimage/jpeg10916https://repositorio.ufscar.br/bitstream/ufscar/12197/7/cartaComprovante_versaoFinalDissertacao_assinada.pdf.jpg18d1ab1a0928ac6ae208aa9bd85af924MD57ufscar/121972023-09-18 18:31:49.946oai:repositorio.ufscar.br:ufscar/12197Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:49Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Detecção de novidade em fluxos contínuos de dados multirrótulo |
dc.title.alternative.eng.fl_str_mv |
Novelty detection in multi-label data streams |
title |
Detecção de novidade em fluxos contínuos de dados multirrótulo |
spellingShingle |
Detecção de novidade em fluxos contínuos de dados multirrótulo Costa Júnior, Joel David Classificação multirrótulo Detecção de novidade Fluxos contínuos de dados Latência extrema de rótulos Data stream Infinitely delayed labels Multilabel classification Novelty detection CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Detecção de novidade em fluxos contínuos de dados multirrótulo |
title_full |
Detecção de novidade em fluxos contínuos de dados multirrótulo |
title_fullStr |
Detecção de novidade em fluxos contínuos de dados multirrótulo |
title_full_unstemmed |
Detecção de novidade em fluxos contínuos de dados multirrótulo |
title_sort |
Detecção de novidade em fluxos contínuos de dados multirrótulo |
author |
Costa Júnior, Joel David |
author_facet |
Costa Júnior, Joel David |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/5293958366030922 |
dc.contributor.author.fl_str_mv |
Costa Júnior, Joel David |
dc.contributor.advisor1.fl_str_mv |
Cerri, Ricardo |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6266519868438512 |
dc.contributor.authorID.fl_str_mv |
2c9220e1-d2ab-48e7-8d36-ebd4498755c4 |
contributor_str_mv |
Cerri, Ricardo |
dc.subject.por.fl_str_mv |
Classificação multirrótulo Detecção de novidade Fluxos contínuos de dados Latência extrema de rótulos |
topic |
Classificação multirrótulo Detecção de novidade Fluxos contínuos de dados Latência extrema de rótulos Data stream Infinitely delayed labels Multilabel classification Novelty detection CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Data stream Infinitely delayed labels Multilabel classification Novelty detection |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
Multi-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-07-29 |
dc.date.accessioned.fl_str_mv |
2020-01-30T18:10:32Z |
dc.date.available.fl_str_mv |
2020-01-30T18:10:32Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
COSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/12197 |
identifier_str_mv |
COSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197. |
url |
https://repositorio.ufscar.br/handle/ufscar/12197 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
c997f5ee-db84-40ed-8971-521dd105f2d1 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/12197/1/Dissertacao_VersaoFinal_JoelCosta.pdf https://repositorio.ufscar.br/bitstream/ufscar/12197/2/cartaComprovante_versaoFinalDissertacao_assinada.pdf https://repositorio.ufscar.br/bitstream/ufscar/12197/3/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/12197/4/Dissertacao_VersaoFinal_JoelCosta.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/12197/6/cartaComprovante_versaoFinalDissertacao_assinada.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/12197/5/Dissertacao_VersaoFinal_JoelCosta.pdf.jpg https://repositorio.ufscar.br/bitstream/ufscar/12197/7/cartaComprovante_versaoFinalDissertacao_assinada.pdf.jpg |
bitstream.checksum.fl_str_mv |
eee5f09af9595f4b69a709edfbe1f3e0 d2d22db7a82e9025560bee203634df0d e39d27027a6cc9cb039ad269a5db8e34 8f209b4fc129e723849a3c105e72b8ec 2178a65f0b89e50713f3e3c76a5b1e86 68b1136ead5d507c01e883555e4615c2 18d1ab1a0928ac6ae208aa9bd85af924 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715612417916928 |