USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS
Autor(a) principal: | |
---|---|
Data de Publicação: | 2010 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Perspectivas em Ciência da Informação (Online) |
Texto Completo: | https://periodicos.ufmg.br/index.php/pci/article/view/22418 |
Resumo: | This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases. |
id |
UFMG-2_6bef5d7788127548e73bcd1212d26804 |
---|---|
oai_identifier_str |
oai:periodicos.ufmg.br:article/22418 |
network_acronym_str |
UFMG-2 |
network_name_str |
Perspectivas em Ciência da Informação (Online) |
repository_id_str |
|
spelling |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTSUso de sintagmas nominais na classificação automática de documentos eletrônicosThis research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases.Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.Perspectivas em Ciência da InformaçãoPerspectivas em Ciência da InformaçãoPerspectivas em Ciência da Informação2010-03-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/pci/article/view/22418Perspectivas em Ciência da Informação; Vol. 15 No. 1 (2010); 154-172Perspectivas em Ciência da Informação; Vol. 15 Núm. 1 (2010); 154-172Perspectivas em Ciência da Informação; v. 15 n. 1 (2010); 154-1721981-53441413-9936reponame:Perspectivas em Ciência da Informação (Online)instname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/pci/article/view/22418/18012Copyright (c) 2020 Perspectivas em Ciência da Informaçãoinfo:eu-repo/semantics/openAccessMaia, Luiz Cláudio GomesSouza, Renato Rocha2020-06-25T18:06:29Zoai:periodicos.ufmg.br:article/22418Revistahttps://periodicos.ufmg.br/index.php/pci/PUBhttps://periodicos.ufmg.br/index.php/pci/oai||pci@eci.ufmg.br1981-53441413-9936opendoar:2020-06-25T18:06:29Perspectivas em Ciência da Informação (Online) - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.none.fl_str_mv |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
title |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS |
spellingShingle |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS Maia, Luiz Cláudio Gomes |
title_short |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS |
title_full |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS |
title_fullStr |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS |
title_full_unstemmed |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS |
title_sort |
USE OF NOUN PHRASES IN AUTOMATIC CLASSIFICATION OF ELECTRONIC DOCUMENTS |
author |
Maia, Luiz Cláudio Gomes |
author_facet |
Maia, Luiz Cláudio Gomes Souza, Renato Rocha |
author_role |
author |
author2 |
Souza, Renato Rocha |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Maia, Luiz Cláudio Gomes Souza, Renato Rocha |
description |
This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases. |
publishDate |
2010 |
dc.date.none.fl_str_mv |
2010-03-24 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufmg.br/index.php/pci/article/view/22418 |
url |
https://periodicos.ufmg.br/index.php/pci/article/view/22418 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.ufmg.br/index.php/pci/article/view/22418/18012 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2020 Perspectivas em Ciência da Informação info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2020 Perspectivas em Ciência da Informação |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Perspectivas em Ciência da Informação Perspectivas em Ciência da Informação Perspectivas em Ciência da Informação |
publisher.none.fl_str_mv |
Perspectivas em Ciência da Informação Perspectivas em Ciência da Informação Perspectivas em Ciência da Informação |
dc.source.none.fl_str_mv |
Perspectivas em Ciência da Informação; Vol. 15 No. 1 (2010); 154-172 Perspectivas em Ciência da Informação; Vol. 15 Núm. 1 (2010); 154-172 Perspectivas em Ciência da Informação; v. 15 n. 1 (2010); 154-172 1981-5344 1413-9936 reponame:Perspectivas em Ciência da Informação (Online) instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Perspectivas em Ciência da Informação (Online) |
collection |
Perspectivas em Ciência da Informação (Online) |
repository.name.fl_str_mv |
Perspectivas em Ciência da Informação (Online) - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
||pci@eci.ufmg.br |
_version_ |
1799711079451852800 |