Classificação automática de documentos: seleção customizada do classificador

Detalhes bibliográficos
Autor(a) principal: Silva, Paulo Henrique da
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFG
Texto Completo: http://repositorio.bc.ufg.br/tede/handle/tede/11175
Resumo: The recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work.
id UFG-2_9a045545eb32cd75a8e65f4412d117eb
oai_identifier_str oai:repositorio.bc.ufg.br:tede/11175
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Martins, Wellington Santoshttp://lattes.cnpq.br/3041686206689904Martins, Wellington SantosRosa, Thierson CoutoSousa, Daniel Xavier dehttp://lattes.cnpq.br/1073733341962654Silva, Paulo Henrique da2021-03-18T15:33:28Z2021-03-18T15:33:28Z2020-11-23SILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.http://repositorio.bc.ufg.br/tede/handle/tede/11175The recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work.O recente aumento nos dados armazenados digitalmente estimulou o desenvolvimento de métodos para organizar e extrair conhecimento relevante desse grande volume de dados. A classificação automática de documentos (ADC) é um desses métodos. Considerada uma das tarefas mais relevantes e desafiadoras no contexto de recuperação de informações, devido a alta dimensionalidade e esparsidade dos dados, utiliza técnicas de aprendizado de máquina para agrupar documentos similares em classes. Trabalhos recentes defendem o uso de sistemas de múltiplos classificadores (MCS) para aumentar a precisão da ADC, através da combinação de um conjunto de classificadores para obter melhores resultados em relação a um único classificador. Uma das abordagens mais promissoras de MCS é a seleção dinâmica (DS), onde os classificadores base são selecionados em tempo real, de acordo com cada novo documento de consulta (teste) a ser classificado. Este trabalho propõe a seleção customizada de método de classificação realizada em tempo de consulta (teste). Somente o classificador mais competente, ou o conjunto de classificadores mais competentes, é selecionado para fazer a predição do rótulo de cada documento de consulta. Alem disso, o trabalho apresenta a exploração de paralelismo para acelerar a tarefa de ADC. Resultados experimentais, utilizando bases de dados padronizadas, mostram resultados competitivos e promissores em relação às baselines usadas. Novas oportunidades para exploração de paralelismo também são apresentadas como trabalhos futuros.Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2021-03-17T18:12:48Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5)Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2021-03-18T15:33:28Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5)Made available in DSpace on 2021-03-18T15:33:28Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5) Previous issue date: 2020-11-23OutroporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessClassificação automática de documentosConjunto de classificadoresSeleção dinâmica do classificadorProgramação paralelaAutomatic document classificationEnsemble of classifiersDynamic classifier selectionParallel programmingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOClassificação automática de documentos: seleção customizada do classificadorAutomatic document classification: customized classifier selectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19500500500500261255reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/73154663-351f-441d-b5ed-344580e5be29/download4460e5956bc1d1639be9ae6146a50347MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/ccd66e4c-c94e-42ba-846b-63d99de86fa6/download8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALDissertação - Paulo Henrique da Silva - 2020.pdfDissertação - Paulo Henrique da Silva - 2020.pdfapplication/pdf1479592http://repositorio.bc.ufg.br/tede/bitstreams/e988f2ca-5e33-401b-98b9-f0a8f22ddb46/download74aee2d264041b5eac7a41dd31d2dd57MD53tede/111752021-03-18 12:33:29.448http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/11175http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2021-03-18T15:33:29Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.pt_BR.fl_str_mv Classificação automática de documentos: seleção customizada do classificador
dc.title.alternative.eng.fl_str_mv Automatic document classification: customized classifier selection
title Classificação automática de documentos: seleção customizada do classificador
spellingShingle Classificação automática de documentos: seleção customizada do classificador
Silva, Paulo Henrique da
Classificação automática de documentos
Conjunto de classificadores
Seleção dinâmica do classificador
Programação paralela
Automatic document classification
Ensemble of classifiers
Dynamic classifier selection
Parallel programming
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short Classificação automática de documentos: seleção customizada do classificador
title_full Classificação automática de documentos: seleção customizada do classificador
title_fullStr Classificação automática de documentos: seleção customizada do classificador
title_full_unstemmed Classificação automática de documentos: seleção customizada do classificador
title_sort Classificação automática de documentos: seleção customizada do classificador
author Silva, Paulo Henrique da
author_facet Silva, Paulo Henrique da
author_role author
dc.contributor.advisor1.fl_str_mv Martins, Wellington Santos
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3041686206689904
dc.contributor.referee1.fl_str_mv Martins, Wellington Santos
dc.contributor.referee2.fl_str_mv Rosa, Thierson Couto
dc.contributor.referee3.fl_str_mv Sousa, Daniel Xavier de
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/1073733341962654
dc.contributor.author.fl_str_mv Silva, Paulo Henrique da
contributor_str_mv Martins, Wellington Santos
Martins, Wellington Santos
Rosa, Thierson Couto
Sousa, Daniel Xavier de
dc.subject.por.fl_str_mv Classificação automática de documentos
Conjunto de classificadores
Seleção dinâmica do classificador
Programação paralela
topic Classificação automática de documentos
Conjunto de classificadores
Seleção dinâmica do classificador
Programação paralela
Automatic document classification
Ensemble of classifiers
Dynamic classifier selection
Parallel programming
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.eng.fl_str_mv Automatic document classification
Ensemble of classifiers
Dynamic classifier selection
Parallel programming
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description The recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work.
publishDate 2020
dc.date.issued.fl_str_mv 2020-11-23
dc.date.accessioned.fl_str_mv 2021-03-18T15:33:28Z
dc.date.available.fl_str_mv 2021-03-18T15:33:28Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/11175
identifier_str_mv SILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.
url http://repositorio.bc.ufg.br/tede/handle/tede/11175
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 19
dc.relation.confidence.fl_str_mv 500
500
500
500
dc.relation.department.fl_str_mv 26
dc.relation.cnpq.fl_str_mv 125
dc.relation.sponsorship.fl_str_mv 5
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/73154663-351f-441d-b5ed-344580e5be29/download
http://repositorio.bc.ufg.br/tede/bitstreams/ccd66e4c-c94e-42ba-846b-63d99de86fa6/download
http://repositorio.bc.ufg.br/tede/bitstreams/e988f2ca-5e33-401b-98b9-f0a8f22ddb46/download
bitstream.checksum.fl_str_mv 4460e5956bc1d1639be9ae6146a50347
8a4605be74aa9ea9d79846c1fba20a33
74aee2d264041b5eac7a41dd31d2dd57
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv tasesdissertacoes.bc@ufg.br
_version_ 1798044421843845120