Combinação de classificadores em diferentes espaços de características para classificação de documentos

Detalhes bibliográficos
Autor(a) principal: PINHEIRO, Roberto Hugo Wanderley
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/24893
Resumo: Classificação de Documentos é um problema no qual um documento em linguagem natural deve ser designado como pertencente à uma das classes pré-estabelecidas. A Classificação de Documentos, com vetores de características gerados pela Bag-of-Words, possui duas dificuldades notáveis: alta dimensionalidade e matriz de dados esparsa. Seleção de características reduzem essas dificuldades, mas descarta informação no processo. Uma alternativa é realizar transformações sobre as características, pois ao alterar as características é possível trabalhar sem descartar informações, possibilitando uma melhoria nas taxas de reconhecimento e, em alguns casos, redução da dimensionalidade e esparsidade. Dentre essas transformações, duas pouco utilizadas na literatura são: Dissimilarity Representation (DR), no qual cada documento é representado por um vetor composto de distâncias calculadas com relação a um conjunto de documentos referência; e Dichotomy Transformation (DT), no qual o problema original é transformado em um problema binário e cada documento é transformado em vários vetores com características obtidas pelo valor absoluto da diferença para os documentos de um subconjunto do conjunto original. A utilização da DR pode reduzir tanto a alta dimensionalidade quanto a esparsidade. Enquanto que a utilização da DT, apesar de não reduzir a dimensionalidade ou esparsidade, melhora as taxas de reconhecimento do classificador, pois trabalha com uma quantidade maior de documentos sobre um problema transformado para duas classes. Neste trabalho, são propostos dois sistemas de múltiplos classificadores para Classificação de Documentos: Combined Dissimilarity Spaces (CoDiS) e Combined Dichotomy Transformations (CoDiT), cada um baseado em uma das transformações citadas acima. Os múltiplos classificadores se beneficiam da necessidade de encontrar um conjunto para as transformações, pois utilizando diferentes conjuntos possibilita a criação de um sistema diverso e robusto. Experimentos foram realizados comparando as arquiteturas propostas com métodos da literatura usando até 47 bancos de dados públicos e os resultados mostram que as propostas atingem desempenho superior na maioria dos casos.
id UFPE_716a46976aefa81a1e831fb53572bd0e
oai_identifier_str oai:repositorio.ufpe.br:123456789/24893
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling PINHEIRO, Roberto Hugo Wanderleyhttp://lattes.cnpq.br/9378863653048055http://lattes.cnpq.br/8577312109146354CAVALCANTI, George Darmiton da CunhaREN, Tsang Ing2018-06-25T22:35:53Z2018-06-25T22:35:53Z2017-02-17https://repositorio.ufpe.br/handle/123456789/24893Classificação de Documentos é um problema no qual um documento em linguagem natural deve ser designado como pertencente à uma das classes pré-estabelecidas. A Classificação de Documentos, com vetores de características gerados pela Bag-of-Words, possui duas dificuldades notáveis: alta dimensionalidade e matriz de dados esparsa. Seleção de características reduzem essas dificuldades, mas descarta informação no processo. Uma alternativa é realizar transformações sobre as características, pois ao alterar as características é possível trabalhar sem descartar informações, possibilitando uma melhoria nas taxas de reconhecimento e, em alguns casos, redução da dimensionalidade e esparsidade. Dentre essas transformações, duas pouco utilizadas na literatura são: Dissimilarity Representation (DR), no qual cada documento é representado por um vetor composto de distâncias calculadas com relação a um conjunto de documentos referência; e Dichotomy Transformation (DT), no qual o problema original é transformado em um problema binário e cada documento é transformado em vários vetores com características obtidas pelo valor absoluto da diferença para os documentos de um subconjunto do conjunto original. A utilização da DR pode reduzir tanto a alta dimensionalidade quanto a esparsidade. Enquanto que a utilização da DT, apesar de não reduzir a dimensionalidade ou esparsidade, melhora as taxas de reconhecimento do classificador, pois trabalha com uma quantidade maior de documentos sobre um problema transformado para duas classes. Neste trabalho, são propostos dois sistemas de múltiplos classificadores para Classificação de Documentos: Combined Dissimilarity Spaces (CoDiS) e Combined Dichotomy Transformations (CoDiT), cada um baseado em uma das transformações citadas acima. Os múltiplos classificadores se beneficiam da necessidade de encontrar um conjunto para as transformações, pois utilizando diferentes conjuntos possibilita a criação de um sistema diverso e robusto. Experimentos foram realizados comparando as arquiteturas propostas com métodos da literatura usando até 47 bancos de dados públicos e os resultados mostram que as propostas atingem desempenho superior na maioria dos casos.FACEPEText Classification is a problem in which a natural language document is assigned to oneof the pre-establishedclasses. TextClassification, with featurevectorsgenerated byBagof-Words, has two notable difficulties: high dimensionality and sparse data matrix. Feature selection reduces these difficulties, but discards information in the process. An alternative is to perform transformations over the features, because by altering the features it is possible to work without discarding information, allowing improvement of recognition rates and, in some cases, reduction of dimensionality and sparseness. Among these transformations, two underused in literature are: Dissimilarity Representation (DR), where each document is represented by a vector composed of distances calculated relative to a set of reference documents; and Dichotomy Transformation (DT), where the original problem is transformed into a binary problem and each document is transformed into several vectors with features obtained by the absolute value of the difference for the documents of a subset of the original set. The use of DR can reduce both the high dimensionality and sparseness. Whereas the use of DT, despite not reducing dimensionality or sparseness, improves the recognition rates of the classifier, since it works with a larger amount of documents on a problem transformed into two classes. In this work, two multiple classifiers systems for Text Classificationa reproposed: Combined Dissimilarity Spaces (CoDiS) and Combined Dichotomy Transformations (CoDiT), each one based on the transformations mentioned above. The multiple classifiers benefits from the need to find a set for the transformations, because using different sets allows the creation of a diverse and robust system. Experiments were performed comparing the proposed architectures with literature methods using up to 47 public data bases and the results show that the proposals achieve superior performance in most cases.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência artificialRecuperação da informaçãoCombinação de classificadores em diferentes espaços de características para classificação de documentosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisdoutoradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILTESE Roberto Hugo Wanderley Pinheiro.pdf.jpgTESE Roberto Hugo Wanderley Pinheiro.pdf.jpgGenerated Thumbnailimage/jpeg1346https://repositorio.ufpe.br/bitstream/123456789/24893/5/TESE%20Roberto%20Hugo%20Wanderley%20Pinheiro.pdf.jpgf450352f65aa6c6e9b5029f58b14ac35MD55ORIGINALTESE Roberto Hugo Wanderley Pinheiro.pdfTESE Roberto Hugo Wanderley Pinheiro.pdfapplication/pdf6289465https://repositorio.ufpe.br/bitstream/123456789/24893/1/TESE%20Roberto%20Hugo%20Wanderley%20Pinheiro.pdf9baff75de0aed82ef29265d6f5c36b1fMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/24893/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82311https://repositorio.ufpe.br/bitstream/123456789/24893/3/license.txt4b8a02c7f2818eaf00dcf2260dd5eb08MD53TEXTTESE Roberto Hugo Wanderley Pinheiro.pdf.txtTESE Roberto Hugo Wanderley Pinheiro.pdf.txtExtracted texttext/plain282352https://repositorio.ufpe.br/bitstream/123456789/24893/4/TESE%20Roberto%20Hugo%20Wanderley%20Pinheiro.pdf.txt03d5a874f89d753ecd010641918681afMD54123456789/248932019-10-25 08:40:17.853oai:repositorio.ufpe.br:123456789/24893TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLMKgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUEUgaWRlbnRpZmljYXLDoSBjbGFyYW1lbnRlIG8ocykgbm9tZShzKSBkbyhzKSBhdXRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8gZW50cmVndWUgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRvIHByZXZpc3RvIG5hIGFsw61uZWEgYykuCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T11:40:17Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Combinação de classificadores em diferentes espaços de características para classificação de documentos
title Combinação de classificadores em diferentes espaços de características para classificação de documentos
spellingShingle Combinação de classificadores em diferentes espaços de características para classificação de documentos
PINHEIRO, Roberto Hugo Wanderley
Inteligência artificial
Recuperação da informação
title_short Combinação de classificadores em diferentes espaços de características para classificação de documentos
title_full Combinação de classificadores em diferentes espaços de características para classificação de documentos
title_fullStr Combinação de classificadores em diferentes espaços de características para classificação de documentos
title_full_unstemmed Combinação de classificadores em diferentes espaços de características para classificação de documentos
title_sort Combinação de classificadores em diferentes espaços de características para classificação de documentos
author PINHEIRO, Roberto Hugo Wanderley
author_facet PINHEIRO, Roberto Hugo Wanderley
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9378863653048055
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8577312109146354
dc.contributor.author.fl_str_mv PINHEIRO, Roberto Hugo Wanderley
dc.contributor.advisor1.fl_str_mv CAVALCANTI, George Darmiton da Cunha
dc.contributor.advisor-co1.fl_str_mv REN, Tsang Ing
contributor_str_mv CAVALCANTI, George Darmiton da Cunha
REN, Tsang Ing
dc.subject.por.fl_str_mv Inteligência artificial
Recuperação da informação
topic Inteligência artificial
Recuperação da informação
description Classificação de Documentos é um problema no qual um documento em linguagem natural deve ser designado como pertencente à uma das classes pré-estabelecidas. A Classificação de Documentos, com vetores de características gerados pela Bag-of-Words, possui duas dificuldades notáveis: alta dimensionalidade e matriz de dados esparsa. Seleção de características reduzem essas dificuldades, mas descarta informação no processo. Uma alternativa é realizar transformações sobre as características, pois ao alterar as características é possível trabalhar sem descartar informações, possibilitando uma melhoria nas taxas de reconhecimento e, em alguns casos, redução da dimensionalidade e esparsidade. Dentre essas transformações, duas pouco utilizadas na literatura são: Dissimilarity Representation (DR), no qual cada documento é representado por um vetor composto de distâncias calculadas com relação a um conjunto de documentos referência; e Dichotomy Transformation (DT), no qual o problema original é transformado em um problema binário e cada documento é transformado em vários vetores com características obtidas pelo valor absoluto da diferença para os documentos de um subconjunto do conjunto original. A utilização da DR pode reduzir tanto a alta dimensionalidade quanto a esparsidade. Enquanto que a utilização da DT, apesar de não reduzir a dimensionalidade ou esparsidade, melhora as taxas de reconhecimento do classificador, pois trabalha com uma quantidade maior de documentos sobre um problema transformado para duas classes. Neste trabalho, são propostos dois sistemas de múltiplos classificadores para Classificação de Documentos: Combined Dissimilarity Spaces (CoDiS) e Combined Dichotomy Transformations (CoDiT), cada um baseado em uma das transformações citadas acima. Os múltiplos classificadores se beneficiam da necessidade de encontrar um conjunto para as transformações, pois utilizando diferentes conjuntos possibilita a criação de um sistema diverso e robusto. Experimentos foram realizados comparando as arquiteturas propostas com métodos da literatura usando até 47 bancos de dados públicos e os resultados mostram que as propostas atingem desempenho superior na maioria dos casos.
publishDate 2017
dc.date.issued.fl_str_mv 2017-02-17
dc.date.accessioned.fl_str_mv 2018-06-25T22:35:53Z
dc.date.available.fl_str_mv 2018-06-25T22:35:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/24893
url https://repositorio.ufpe.br/handle/123456789/24893
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/24893/5/TESE%20Roberto%20Hugo%20Wanderley%20Pinheiro.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/24893/1/TESE%20Roberto%20Hugo%20Wanderley%20Pinheiro.pdf
https://repositorio.ufpe.br/bitstream/123456789/24893/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/24893/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/24893/4/TESE%20Roberto%20Hugo%20Wanderley%20Pinheiro.pdf.txt
bitstream.checksum.fl_str_mv f450352f65aa6c6e9b5029f58b14ac35
9baff75de0aed82ef29265d6f5c36b1f
e39d27027a6cc9cb039ad269a5db8e34
4b8a02c7f2818eaf00dcf2260dd5eb08
03d5a874f89d753ecd010641918681af
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310842747715584