Classificação automática de documentos: seleção customizada do classificador
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFG |
dARK ID: | ark:/38995/001300000d0v5 |
Texto Completo: | http://repositorio.bc.ufg.br/tede/handle/tede/11175 |
Resumo: | The recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work. |
id |
UFG-2_9a045545eb32cd75a8e65f4412d117eb |
---|---|
oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/11175 |
network_acronym_str |
UFG-2 |
network_name_str |
Repositório Institucional da UFG |
repository_id_str |
|
spelling |
Martins, Wellington Santoshttp://lattes.cnpq.br/3041686206689904Martins, Wellington SantosRosa, Thierson CoutoSousa, Daniel Xavier dehttp://lattes.cnpq.br/1073733341962654Silva, Paulo Henrique da2021-03-18T15:33:28Z2021-03-18T15:33:28Z2020-11-23SILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.http://repositorio.bc.ufg.br/tede/handle/tede/11175ark:/38995/001300000d0v5The recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work.O recente aumento nos dados armazenados digitalmente estimulou o desenvolvimento de métodos para organizar e extrair conhecimento relevante desse grande volume de dados. A classificação automática de documentos (ADC) é um desses métodos. Considerada uma das tarefas mais relevantes e desafiadoras no contexto de recuperação de informações, devido a alta dimensionalidade e esparsidade dos dados, utiliza técnicas de aprendizado de máquina para agrupar documentos similares em classes. Trabalhos recentes defendem o uso de sistemas de múltiplos classificadores (MCS) para aumentar a precisão da ADC, através da combinação de um conjunto de classificadores para obter melhores resultados em relação a um único classificador. Uma das abordagens mais promissoras de MCS é a seleção dinâmica (DS), onde os classificadores base são selecionados em tempo real, de acordo com cada novo documento de consulta (teste) a ser classificado. Este trabalho propõe a seleção customizada de método de classificação realizada em tempo de consulta (teste). Somente o classificador mais competente, ou o conjunto de classificadores mais competentes, é selecionado para fazer a predição do rótulo de cada documento de consulta. Alem disso, o trabalho apresenta a exploração de paralelismo para acelerar a tarefa de ADC. Resultados experimentais, utilizando bases de dados padronizadas, mostram resultados competitivos e promissores em relação às baselines usadas. Novas oportunidades para exploração de paralelismo também são apresentadas como trabalhos futuros.Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2021-03-17T18:12:48Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5)Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2021-03-18T15:33:28Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5)Made available in DSpace on 2021-03-18T15:33:28Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5) Previous issue date: 2020-11-23OutroporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessClassificação automática de documentosConjunto de classificadoresSeleção dinâmica do classificadorProgramação paralelaAutomatic document classificationEnsemble of classifiersDynamic classifier selectionParallel programmingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOClassificação automática de documentos: seleção customizada do classificadorAutomatic document classification: customized classifier selectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19500500500500261255reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/73154663-351f-441d-b5ed-344580e5be29/download4460e5956bc1d1639be9ae6146a50347MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/ccd66e4c-c94e-42ba-846b-63d99de86fa6/download8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALDissertação - Paulo Henrique da Silva - 2020.pdfDissertação - Paulo Henrique da Silva - 2020.pdfapplication/pdf1479592http://repositorio.bc.ufg.br/tede/bitstreams/e988f2ca-5e33-401b-98b9-f0a8f22ddb46/download74aee2d264041b5eac7a41dd31d2dd57MD53tede/111752021-03-18 12:33:29.448http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/11175http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2021-03-18T15:33:29Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
dc.title.pt_BR.fl_str_mv |
Classificação automática de documentos: seleção customizada do classificador |
dc.title.alternative.eng.fl_str_mv |
Automatic document classification: customized classifier selection |
title |
Classificação automática de documentos: seleção customizada do classificador |
spellingShingle |
Classificação automática de documentos: seleção customizada do classificador Silva, Paulo Henrique da Classificação automática de documentos Conjunto de classificadores Seleção dinâmica do classificador Programação paralela Automatic document classification Ensemble of classifiers Dynamic classifier selection Parallel programming CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
title_short |
Classificação automática de documentos: seleção customizada do classificador |
title_full |
Classificação automática de documentos: seleção customizada do classificador |
title_fullStr |
Classificação automática de documentos: seleção customizada do classificador |
title_full_unstemmed |
Classificação automática de documentos: seleção customizada do classificador |
title_sort |
Classificação automática de documentos: seleção customizada do classificador |
author |
Silva, Paulo Henrique da |
author_facet |
Silva, Paulo Henrique da |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Martins, Wellington Santos |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/3041686206689904 |
dc.contributor.referee1.fl_str_mv |
Martins, Wellington Santos |
dc.contributor.referee2.fl_str_mv |
Rosa, Thierson Couto |
dc.contributor.referee3.fl_str_mv |
Sousa, Daniel Xavier de |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/1073733341962654 |
dc.contributor.author.fl_str_mv |
Silva, Paulo Henrique da |
contributor_str_mv |
Martins, Wellington Santos Martins, Wellington Santos Rosa, Thierson Couto Sousa, Daniel Xavier de |
dc.subject.por.fl_str_mv |
Classificação automática de documentos Conjunto de classificadores Seleção dinâmica do classificador Programação paralela |
topic |
Classificação automática de documentos Conjunto de classificadores Seleção dinâmica do classificador Programação paralela Automatic document classification Ensemble of classifiers Dynamic classifier selection Parallel programming CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
dc.subject.eng.fl_str_mv |
Automatic document classification Ensemble of classifiers Dynamic classifier selection Parallel programming |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
description |
The recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-11-23 |
dc.date.accessioned.fl_str_mv |
2021-03-18T15:33:28Z |
dc.date.available.fl_str_mv |
2021-03-18T15:33:28Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020. |
dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/11175 |
dc.identifier.dark.fl_str_mv |
ark:/38995/001300000d0v5 |
identifier_str_mv |
SILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020. ark:/38995/001300000d0v5 |
url |
http://repositorio.bc.ufg.br/tede/handle/tede/11175 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
19 |
dc.relation.confidence.fl_str_mv |
500 500 500 500 |
dc.relation.department.fl_str_mv |
26 |
dc.relation.cnpq.fl_str_mv |
125 |
dc.relation.sponsorship.fl_str_mv |
5 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação (INF) |
dc.publisher.initials.fl_str_mv |
UFG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RG) |
publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
instname_str |
Universidade Federal de Goiás (UFG) |
instacron_str |
UFG |
institution |
UFG |
reponame_str |
Repositório Institucional da UFG |
collection |
Repositório Institucional da UFG |
bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/73154663-351f-441d-b5ed-344580e5be29/download http://repositorio.bc.ufg.br/tede/bitstreams/ccd66e4c-c94e-42ba-846b-63d99de86fa6/download http://repositorio.bc.ufg.br/tede/bitstreams/e988f2ca-5e33-401b-98b9-f0a8f22ddb46/download |
bitstream.checksum.fl_str_mv |
4460e5956bc1d1639be9ae6146a50347 8a4605be74aa9ea9d79846c1fba20a33 74aee2d264041b5eac7a41dd31d2dd57 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
repository.mail.fl_str_mv |
tasesdissertacoes.bc@ufg.br |
_version_ |
1815172638104879104 |