ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental

Detalhes bibliográficos
Autor(a) principal: Bittencourt, Marciele de Menezes
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/12436
Resumo: Single-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods.
id SCAR_9dff3a3841a62c069db8f11fbf506146
oai_identifier_str oai:repositorio.ufscar.br:ufscar/12436
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Bittencourt, Marciele de MenezesAlmeida, Tiago Agostinho dehttp://lattes.cnpq.br/5368680512020633Silva, Renato Moraeshttp://lattes.cnpq.br/2532893661927339http://lattes.cnpq.br/6803540724475032f9ceead6-3102-4c6f-a965-c66fb89de7512020-04-22T11:56:13Z2020-04-22T11:56:13Z2020-03-27BITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436.https://repositorio.ufscar.br/handle/ufscar/12436Single-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods.A classificação de textos tem sido estudada extensivamente nas últimas décadas e grande parte dos trabalhos relacionados ao tema são direcionados à classificação de rótulo único e ao aprendizado offline. Neste tipo de aprendizado, os documentos de texto são associados a apenas um rótulo e devem estar disponíveis com antecedência para o treinamento. Problemas reais de classificação de textos, no entanto, frequentemente envolvem instâncias multirrotuladas, que se tornam disponíveis continuamente e com padrões que mudam ao longo do tempo. Para manipular esses problemas, os classificadores idealmente deveriam ser capazes de predizer múltiplos rótulos para cada documento de texto e de atualizar o seu modelo preditivo de forma eficiente, para ser escalável mesmo com recursos de memória e tempo limitados, e ser rapidamente adaptável às mudanças nos padrões dos dados. Por isso, o aprendizado online e a classificação multirrótulo tem atraído grande interesse de pesquisa, uma vez que existem poucos métodos capazes de abordar os dois problemas simultaneamente e frequentemente é necessário retreinar todo o modelo ou recorrer a técnicas de transformação de problemas. Nesta dissertação, é apresentado um método de classificação de textos baseado no princípio da descrição mais simples, que pode ser empregado em problemas de classificação multirrótulo sem a necessidade de transformá-los em problemas de rótulo único. Ele também apresenta a vantagem de considerar a existência de dependência entre os rótulos e de suportar o treinamento incremental naturalmente. O desempenho desse método foi avaliado empregando-o na tarefa de classificação em 15 aplicações de diferentes domínios e o resultado obtido foi comparado com os resultados de outros classificadores referência na literatura, considerando cenários de aprendizado offline e online. Os resultados obtidos pelo método proposto são muito competitivos com os resultados obtidos pelos métodos estado-da-arte avaliados.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88882.426977/2019-01porUniversidade Federal de São CarlosCâmpus SorocabaPrograma de Pós-Graduação em Ciência da Computação - PPGCC-SoUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificação MultirrótuloPrincípio da Descrição mais SimplesCategorização de TextosAprendizado OnlineAprendizado de MáquinaMultilabel ClassificationMinimum Description LengthText CategorizationOnline LearningMachine LearningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOML-MDLText: um método de classificação de textos multirrótulo de aprendizado incrementalML-MDLText: a multilabel text classification method with incremental learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6006005de967ad-743c-4f36-972b-79dd683c0e9dreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertacao-versaoFinal-MarcieleBittencourt.pdfdissertacao-versaoFinal-MarcieleBittencourt.pdfVersão final da dissertaçãoapplication/pdf2339344https://repositorio.ufscar.br/bitstream/ufscar/12436/1/dissertacao-versaoFinal-MarcieleBittencourt.pdf60a39d5e5420cbfd6fe22159e5653aa7MD513-Termo de encaminhamento da versão definitiva.pdf3-Termo de encaminhamento da versão definitiva.pdfCarta assinada pelo orientadorapplication/pdf134802https://repositorio.ufscar.br/bitstream/ufscar/12436/2/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf887e643bd3774675ff8b83cab57ca5e8MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/12436/3/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD53TEXTdissertacao-versaoFinal-MarcieleBittencourt.pdf.txtdissertacao-versaoFinal-MarcieleBittencourt.pdf.txtExtracted texttext/plain268386https://repositorio.ufscar.br/bitstream/ufscar/12436/4/dissertacao-versaoFinal-MarcieleBittencourt.pdf.txt025dc5cae84b96f7a23381ba5c67f143MD543-Termo de encaminhamento da versão definitiva.pdf.txt3-Termo de encaminhamento da versão definitiva.pdf.txtExtracted texttext/plain1403https://repositorio.ufscar.br/bitstream/ufscar/12436/6/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.txt8d0e590147bf65bb985b47e653c62c00MD56THUMBNAILdissertacao-versaoFinal-MarcieleBittencourt.pdf.jpgdissertacao-versaoFinal-MarcieleBittencourt.pdf.jpgIM Thumbnailimage/jpeg5786https://repositorio.ufscar.br/bitstream/ufscar/12436/5/dissertacao-versaoFinal-MarcieleBittencourt.pdf.jpg7796c40808d6119ec0e5850280ca4010MD553-Termo de encaminhamento da versão definitiva.pdf.jpg3-Termo de encaminhamento da versão definitiva.pdf.jpgIM Thumbnailimage/jpeg15501https://repositorio.ufscar.br/bitstream/ufscar/12436/7/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.jpge71d25e3bbac5513947a8f74723d7e91MD57ufscar/124362023-09-18 18:31:53.452oai:repositorio.ufscar.br:ufscar/12436Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:53Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
dc.title.alternative.por.fl_str_mv ML-MDLText: a multilabel text classification method with incremental learning
title ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
spellingShingle ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
Bittencourt, Marciele de Menezes
Classificação Multirrótulo
Princípio da Descrição mais Simples
Categorização de Textos
Aprendizado Online
Aprendizado de Máquina
Multilabel Classification
Minimum Description Length
Text Categorization
Online Learning
Machine Learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
title_full ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
title_fullStr ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
title_full_unstemmed ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
title_sort ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
author Bittencourt, Marciele de Menezes
author_facet Bittencourt, Marciele de Menezes
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/6803540724475032
dc.contributor.author.fl_str_mv Bittencourt, Marciele de Menezes
dc.contributor.advisor1.fl_str_mv Almeida, Tiago Agostinho de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/5368680512020633
dc.contributor.advisor-co1.fl_str_mv Silva, Renato Moraes
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/2532893661927339
dc.contributor.authorID.fl_str_mv f9ceead6-3102-4c6f-a965-c66fb89de751
contributor_str_mv Almeida, Tiago Agostinho de
Silva, Renato Moraes
dc.subject.por.fl_str_mv Classificação Multirrótulo
Princípio da Descrição mais Simples
Categorização de Textos
Aprendizado Online
Aprendizado de Máquina
Multilabel Classification
Minimum Description Length
Text Categorization
Online Learning
Machine Learning
topic Classificação Multirrótulo
Princípio da Descrição mais Simples
Categorização de Textos
Aprendizado Online
Aprendizado de Máquina
Multilabel Classification
Minimum Description Length
Text Categorization
Online Learning
Machine Learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description Single-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-04-22T11:56:13Z
dc.date.available.fl_str_mv 2020-04-22T11:56:13Z
dc.date.issued.fl_str_mv 2020-03-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/12436
identifier_str_mv BITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436.
url https://repositorio.ufscar.br/handle/ufscar/12436
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 5de967ad-743c-4f36-972b-79dd683c0e9d
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus Sorocaba
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC-So
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus Sorocaba
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/12436/1/dissertacao-versaoFinal-MarcieleBittencourt.pdf
https://repositorio.ufscar.br/bitstream/ufscar/12436/2/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf
https://repositorio.ufscar.br/bitstream/ufscar/12436/3/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/12436/4/dissertacao-versaoFinal-MarcieleBittencourt.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/12436/6/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/12436/5/dissertacao-versaoFinal-MarcieleBittencourt.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/12436/7/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.jpg
bitstream.checksum.fl_str_mv 60a39d5e5420cbfd6fe22159e5653aa7
887e643bd3774675ff8b83cab57ca5e8
e39d27027a6cc9cb039ad269a5db8e34
025dc5cae84b96f7a23381ba5c67f143
8d0e590147bf65bb985b47e653c62c00
7796c40808d6119ec0e5850280ca4010
e71d25e3bbac5513947a8f74723d7e91
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136372857798656