USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS

Detalhes bibliográficos
Autor(a) principal: Maia, Luiz Cláudio Gomes
Data de Publicação: 2010
Outros Autores: Souza, Renato Rocha
Tipo de documento: Artigo
Idioma: por
Título da fonte: Perspectivas em Ciência da Informação (Online)
Texto Completo: https://periodicos.ufmg.br/index.php/pci/article/view/22418
Resumo: This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases.
id UFMG-2_6bef5d7788127548e73bcd1212d26804
oai_identifier_str oai:periodicos.ufmg.br:article/22418
network_acronym_str UFMG-2
network_name_str Perspectivas em Ciência da Informação (Online)
repository_id_str
spelling USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTSUso de sintagmas nominais na classificação automática de documentos eletrônicosThis research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases.Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.Perspectivas em Ciência da InformaçãoPerspectivas em Ciência da InformaçãoPerspectivas em Ciência da Informação2010-03-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/pci/article/view/22418Perspectivas em Ciência da Informação; Vol. 15 No. 1 (2010); 154-172Perspectivas em Ciência da Informação; Vol. 15 Núm. 1 (2010); 154-172Perspectivas em Ciência da Informação; v. 15 n. 1 (2010); 154-1721981-53441413-9936reponame:Perspectivas em Ciência da Informação (Online)instname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/pci/article/view/22418/18012Copyright (c) 2020 Perspectivas em Ciência da Informaçãoinfo:eu-repo/semantics/openAccessMaia, Luiz Cláudio GomesSouza, Renato Rocha2020-06-25T18:06:29Zoai:periodicos.ufmg.br:article/22418Revistahttps://periodicos.ufmg.br/index.php/pci/PUBhttps://periodicos.ufmg.br/index.php/pci/oai||pci@eci.ufmg.br1981-53441413-9936opendoar:2020-06-25T18:06:29Perspectivas em Ciência da Informação (Online) - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
spellingShingle USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
Maia, Luiz Cláudio Gomes
title_short USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
title_full USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
title_fullStr USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
title_full_unstemmed USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
title_sort USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
author Maia, Luiz Cláudio Gomes
author_facet Maia, Luiz Cláudio Gomes
Souza, Renato Rocha
author_role author
author2 Souza, Renato Rocha
author2_role author
dc.contributor.author.fl_str_mv Maia, Luiz Cláudio Gomes
Souza, Renato Rocha
description This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases.
publishDate 2010
dc.date.none.fl_str_mv 2010-03-24
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.ufmg.br/index.php/pci/article/view/22418
url https://periodicos.ufmg.br/index.php/pci/article/view/22418
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.ufmg.br/index.php/pci/article/view/22418/18012
dc.rights.driver.fl_str_mv Copyright (c) 2020 Perspectivas em Ciência da Informação
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2020 Perspectivas em Ciência da Informação
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Perspectivas em Ciência da Informação
Perspectivas em Ciência da Informação
Perspectivas em Ciência da Informação
publisher.none.fl_str_mv Perspectivas em Ciência da Informação
Perspectivas em Ciência da Informação
Perspectivas em Ciência da Informação
dc.source.none.fl_str_mv Perspectivas em Ciência da Informação; Vol. 15 No. 1 (2010); 154-172
Perspectivas em Ciência da Informação; Vol. 15 Núm. 1 (2010); 154-172
Perspectivas em Ciência da Informação; v. 15 n. 1 (2010); 154-172
1981-5344
1413-9936
reponame:Perspectivas em Ciência da Informação (Online)
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Perspectivas em Ciência da Informação (Online)
collection Perspectivas em Ciência da Informação (Online)
repository.name.fl_str_mv Perspectivas em Ciência da Informação (Online) - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv ||pci@eci.ufmg.br
_version_ 1799711079451852800