ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/12436 |
Resumo: | Single-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods. |
id |
SCAR_9dff3a3841a62c069db8f11fbf506146 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/12436 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Bittencourt, Marciele de MenezesAlmeida, Tiago Agostinho dehttp://lattes.cnpq.br/5368680512020633Silva, Renato Moraeshttp://lattes.cnpq.br/2532893661927339http://lattes.cnpq.br/6803540724475032f9ceead6-3102-4c6f-a965-c66fb89de7512020-04-22T11:56:13Z2020-04-22T11:56:13Z2020-03-27BITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436.https://repositorio.ufscar.br/handle/ufscar/12436Single-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods.A classificação de textos tem sido estudada extensivamente nas últimas décadas e grande parte dos trabalhos relacionados ao tema são direcionados à classificação de rótulo único e ao aprendizado offline. Neste tipo de aprendizado, os documentos de texto são associados a apenas um rótulo e devem estar disponíveis com antecedência para o treinamento. Problemas reais de classificação de textos, no entanto, frequentemente envolvem instâncias multirrotuladas, que se tornam disponíveis continuamente e com padrões que mudam ao longo do tempo. Para manipular esses problemas, os classificadores idealmente deveriam ser capazes de predizer múltiplos rótulos para cada documento de texto e de atualizar o seu modelo preditivo de forma eficiente, para ser escalável mesmo com recursos de memória e tempo limitados, e ser rapidamente adaptável às mudanças nos padrões dos dados. Por isso, o aprendizado online e a classificação multirrótulo tem atraído grande interesse de pesquisa, uma vez que existem poucos métodos capazes de abordar os dois problemas simultaneamente e frequentemente é necessário retreinar todo o modelo ou recorrer a técnicas de transformação de problemas. Nesta dissertação, é apresentado um método de classificação de textos baseado no princípio da descrição mais simples, que pode ser empregado em problemas de classificação multirrótulo sem a necessidade de transformá-los em problemas de rótulo único. Ele também apresenta a vantagem de considerar a existência de dependência entre os rótulos e de suportar o treinamento incremental naturalmente. O desempenho desse método foi avaliado empregando-o na tarefa de classificação em 15 aplicações de diferentes domínios e o resultado obtido foi comparado com os resultados de outros classificadores referência na literatura, considerando cenários de aprendizado offline e online. Os resultados obtidos pelo método proposto são muito competitivos com os resultados obtidos pelos métodos estado-da-arte avaliados.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88882.426977/2019-01porUniversidade Federal de São CarlosCâmpus SorocabaPrograma de Pós-Graduação em Ciência da Computação - PPGCC-SoUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificação MultirrótuloPrincípio da Descrição mais SimplesCategorização de TextosAprendizado OnlineAprendizado de MáquinaMultilabel ClassificationMinimum Description LengthText CategorizationOnline LearningMachine LearningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOML-MDLText: um método de classificação de textos multirrótulo de aprendizado incrementalML-MDLText: a multilabel text classification method with incremental learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6006005de967ad-743c-4f36-972b-79dd683c0e9dreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertacao-versaoFinal-MarcieleBittencourt.pdfdissertacao-versaoFinal-MarcieleBittencourt.pdfVersão final da dissertaçãoapplication/pdf2339344https://repositorio.ufscar.br/bitstream/ufscar/12436/1/dissertacao-versaoFinal-MarcieleBittencourt.pdf60a39d5e5420cbfd6fe22159e5653aa7MD513-Termo de encaminhamento da versão definitiva.pdf3-Termo de encaminhamento da versão definitiva.pdfCarta assinada pelo orientadorapplication/pdf134802https://repositorio.ufscar.br/bitstream/ufscar/12436/2/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf887e643bd3774675ff8b83cab57ca5e8MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/12436/3/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD53TEXTdissertacao-versaoFinal-MarcieleBittencourt.pdf.txtdissertacao-versaoFinal-MarcieleBittencourt.pdf.txtExtracted texttext/plain268386https://repositorio.ufscar.br/bitstream/ufscar/12436/4/dissertacao-versaoFinal-MarcieleBittencourt.pdf.txt025dc5cae84b96f7a23381ba5c67f143MD543-Termo de encaminhamento da versão definitiva.pdf.txt3-Termo de encaminhamento da versão definitiva.pdf.txtExtracted texttext/plain1403https://repositorio.ufscar.br/bitstream/ufscar/12436/6/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.txt8d0e590147bf65bb985b47e653c62c00MD56THUMBNAILdissertacao-versaoFinal-MarcieleBittencourt.pdf.jpgdissertacao-versaoFinal-MarcieleBittencourt.pdf.jpgIM Thumbnailimage/jpeg5786https://repositorio.ufscar.br/bitstream/ufscar/12436/5/dissertacao-versaoFinal-MarcieleBittencourt.pdf.jpg7796c40808d6119ec0e5850280ca4010MD553-Termo de encaminhamento da versão definitiva.pdf.jpg3-Termo de encaminhamento da versão definitiva.pdf.jpgIM Thumbnailimage/jpeg15501https://repositorio.ufscar.br/bitstream/ufscar/12436/7/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.jpge71d25e3bbac5513947a8f74723d7e91MD57ufscar/124362023-09-18 18:31:53.452oai:repositorio.ufscar.br:ufscar/12436Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:53Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental |
dc.title.alternative.por.fl_str_mv |
ML-MDLText: a multilabel text classification method with incremental learning |
title |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental |
spellingShingle |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental Bittencourt, Marciele de Menezes Classificação Multirrótulo Princípio da Descrição mais Simples Categorização de Textos Aprendizado Online Aprendizado de Máquina Multilabel Classification Minimum Description Length Text Categorization Online Learning Machine Learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
title_short |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental |
title_full |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental |
title_fullStr |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental |
title_full_unstemmed |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental |
title_sort |
ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental |
author |
Bittencourt, Marciele de Menezes |
author_facet |
Bittencourt, Marciele de Menezes |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/6803540724475032 |
dc.contributor.author.fl_str_mv |
Bittencourt, Marciele de Menezes |
dc.contributor.advisor1.fl_str_mv |
Almeida, Tiago Agostinho de |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/5368680512020633 |
dc.contributor.advisor-co1.fl_str_mv |
Silva, Renato Moraes |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/2532893661927339 |
dc.contributor.authorID.fl_str_mv |
f9ceead6-3102-4c6f-a965-c66fb89de751 |
contributor_str_mv |
Almeida, Tiago Agostinho de Silva, Renato Moraes |
dc.subject.por.fl_str_mv |
Classificação Multirrótulo Princípio da Descrição mais Simples Categorização de Textos Aprendizado Online Aprendizado de Máquina Multilabel Classification Minimum Description Length Text Categorization Online Learning Machine Learning |
topic |
Classificação Multirrótulo Princípio da Descrição mais Simples Categorização de Textos Aprendizado Online Aprendizado de Máquina Multilabel Classification Minimum Description Length Text Categorization Online Learning Machine Learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
description |
Single-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-04-22T11:56:13Z |
dc.date.available.fl_str_mv |
2020-04-22T11:56:13Z |
dc.date.issued.fl_str_mv |
2020-03-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
BITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/12436 |
identifier_str_mv |
BITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436. |
url |
https://repositorio.ufscar.br/handle/ufscar/12436 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
5de967ad-743c-4f36-972b-79dd683c0e9d |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus Sorocaba |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC-So |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus Sorocaba |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/12436/1/dissertacao-versaoFinal-MarcieleBittencourt.pdf https://repositorio.ufscar.br/bitstream/ufscar/12436/2/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf https://repositorio.ufscar.br/bitstream/ufscar/12436/3/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/12436/4/dissertacao-versaoFinal-MarcieleBittencourt.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/12436/6/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/12436/5/dissertacao-versaoFinal-MarcieleBittencourt.pdf.jpg https://repositorio.ufscar.br/bitstream/ufscar/12436/7/3-Termo%20de%20encaminhamento%20da%20vers%c3%a3o%20definitiva.pdf.jpg |
bitstream.checksum.fl_str_mv |
60a39d5e5420cbfd6fe22159e5653aa7 887e643bd3774675ff8b83cab57ca5e8 e39d27027a6cc9cb039ad269a5db8e34 025dc5cae84b96f7a23381ba5c67f143 8d0e590147bf65bb985b47e653c62c00 7796c40808d6119ec0e5850280ca4010 e71d25e3bbac5513947a8f74723d7e91 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136372857798656 |