Detalhes bibliográficos
Título da fonte: Repositório Institucional da UFMG
id UFMG_5e3c08d347f185a8c4ea932cdc617dc2
oai_identifier_str oai:repositorio.ufmg.br:1843/RVMR-7L3NSY
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
reponame_str Repositório Institucional da UFMG
instacron_str UFMG
institution Universidade Federal de Minas Gerais (UFMG)
instname_str Universidade Federal de Minas Gerais (UFMG)
spelling Wagner Meira JuniorMarcos Andre GoncalvesAndré Carlos Ponce de Leon Ferreira de CarvalhoNivio ZivianiFabio Soares Figueiredo2019-08-09T19:10:44Z2019-08-09T19:10:44Z2008-04-11http://hdl.handle.net/1843/RVMR-7L3NSYDesde a popularização de documentos digitais, a classificação automática de textos é considerada um importante tópico de pesquisa. Apesar dos esforços na área, ainda há espaço para aperfeiçoar o desempenho de classificadores. A maior parte da pesquisa em classificação automática de texto foca em desenvolver algoritmos de classificação. Porém, não há muitos esforços concentrados em aperfeiçoar a representação das bases de dados usadas para treinar classificadores automáticos de texto. Este tipo de esforço, por sua vez, é o foco deste trabalho.Nós propomos uma estratégia de tratamento de dados, baseada em extração de características, que precede a tarefa de classificação, a fim de introduzir em documentos características discriminativas de cada classe capazes de melhorar a eficácia da classificação.Nossa estratégia é baseada em co-ocorrência de termos visando à geração de termos compostos discriminativos, chamados de c-termos, que podem ser incorporados aos documentos para facilitar a tarefa de classificação. A idéia é que, quando usados em conjuntos com os termos isolados, a ambigüidade e ruído inerente aos termos que compõem os c-termos é reduzida, portanto tornando-os mais úteis para separar classes em partições mais homogêneas.Contudo, o custo computacional da extração de características pode tornar o método inviável. Neste trabalho, elaboramos um conjunto de mecanismos que torna a estratégia computacionalmente viável ao mesmo tempo em que aperfeiçoamos a eficácia dos classificadores.Nós testamos essa abordagem com diversos algoritmos de classificação e coleções de texto que são referência na literatura. Resultados experimentais demonstram ganhos em quase todos os cenários testados, desde os algoritmos mais simples, como k-Nearest Neighbors (kNN) (46% de ganho em micro-média F1 sobre a coleção 20 Newsgroups 18828) até o algoritmo mais complexo, estado da arte, Support Vector Machine (SVM) (10,7% de ganho em macro-média F1 na coleção OHSUMED).Since the popularization of digital documents, automatic text classification is considered an important research topic. Despite the research efforts, there is still a demand for improving the performance of classifiers. Most of the research in automatic text classification focus on the algorithmic side, but there are few efforts focused on enhancing the datasets used for training the automatic text classifiers, which is the focus of this paper. We propose a data treatment strategy, based on feature extraction, that precedes the classification task, in order to enhance documents with discriminative features of each class capable of increasing the classification effectiveness.Our strategy is based on term co-occurrences to generate new discriminative features, called compound-features (or c-features), that can be incorporated to documents to help the classification task. The idea is that, when used in conjunction with single-features, the ambiguity and noise inherent to c-features components are reduced, therefore making them more helpful to separate classes into more homogeneous partitions. However, the computational cost of feature extaction may make the method unfeasible. In this paper, we devise a set of mechanisms that make the strategy computationally feasible while improving the classifier effectiveness. We test this approach with several classification algorithms and standard text collections. Experimental results demonstrated gains in almost all evaluated scenarios, from the simplest algorithms such as k-Nearest Neighbors (kNN) (46% gain in micro average F1 in the 20 Newsgroups 18828 collection) to the most complex one, the state of the art Support Vector Machine (SVM) (10,7% gain in macro average F1 in the collection OHSUMED).Universidade Federal de Minas GeraisUFMGWorld Wide Web (Sistema de recuperação da informação)ClassificaçãoComputaçãoProcessamento da linguagem natural (Computação)recuperação de informaçãoConstrução de evidências para classificação automática de textosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdissertacaofab.pdfapplication/pdf1793358https://repositorio.ufmg.br/bitstream/1843/RVMR-7L3NSY/1/dissertacaofab.pdf0b3938bdab00069be93cb98072074a02MD51TEXTdissertacaofab.pdf.txtdissertacaofab.pdf.txtExtracted texttext/plain108038https://repositorio.ufmg.br/bitstream/1843/RVMR-7L3NSY/2/dissertacaofab.pdf.txtee2372a004b1f64f83cdc1c4ea1231d1MD521843/RVMR-7L3NSY2019-11-14 04:25:03.658oai:repositorio.ufmg.br:1843/RVMR-7L3NSYRepositório InstitucionalPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T07:25:03Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
_version_ 1813547503591620608