Uso de sintagmas nominais na classificação automática de documentos eletrônicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2008 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/ECID-7NXJKZ |
Resumo: | Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores. |
id |
UFMG_6b11a586bc7441ba91e27b13cf1729c0 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/ECID-7NXJKZ |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Renato Rocha SouzaGeorge Leal JamilMarcello Peixoto BaxBeatriz Valadares CendonManoel Palhares MoreiraLuiz Claudio Gomes Maia2019-08-13T18:47:13Z2019-08-13T18:47:13Z2008-12-12http://hdl.handle.net/1843/ECID-7NXJKZEsta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each termin the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The bestperforming methods were those with the terms without stopwords and the classified and scored noun phrases.Universidade Federal de Minas GeraisUFMGIndexação automaticaCiência da informaçãoSistemas de recuperação da informaçãoProcessamento da linguagem natural (Computação)automáticaIndexaçãoSintagmas nominasAnálise de textoAgrupamento automático de documentosUso de sintagmas nominais na classificação automática de documentos eletrônicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtesefinal.pdfapplication/pdf6481930https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/1/tesefinal.pdfc8f68f317330f5d2cc0f5aa1bd1b900cMD51TEXTtesefinal.pdf.txttesefinal.pdf.txtExtracted texttext/plain273408https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/2/tesefinal.pdf.txt4c12ff0f803b7a1bc4c913ebdd8048bcMD521843/ECID-7NXJKZ2019-11-14 12:08:00.527oai:repositorio.ufmg.br:1843/ECID-7NXJKZRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T15:08Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
title |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
spellingShingle |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos Luiz Claudio Gomes Maia automática Indexação Sintagmas nominas Análise de texto Agrupamento automático de documentos Indexação automatica Ciência da informação Sistemas de recuperação da informação Processamento da linguagem natural (Computação) |
title_short |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
title_full |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
title_fullStr |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
title_full_unstemmed |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
title_sort |
Uso de sintagmas nominais na classificação automática de documentos eletrônicos |
author |
Luiz Claudio Gomes Maia |
author_facet |
Luiz Claudio Gomes Maia |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Renato Rocha Souza |
dc.contributor.referee1.fl_str_mv |
George Leal Jamil |
dc.contributor.referee2.fl_str_mv |
Marcello Peixoto Bax |
dc.contributor.referee3.fl_str_mv |
Beatriz Valadares Cendon |
dc.contributor.referee4.fl_str_mv |
Manoel Palhares Moreira |
dc.contributor.author.fl_str_mv |
Luiz Claudio Gomes Maia |
contributor_str_mv |
Renato Rocha Souza George Leal Jamil Marcello Peixoto Bax Beatriz Valadares Cendon Manoel Palhares Moreira |
dc.subject.por.fl_str_mv |
automática Indexação Sintagmas nominas Análise de texto Agrupamento automático de documentos |
topic |
automática Indexação Sintagmas nominas Análise de texto Agrupamento automático de documentos Indexação automatica Ciência da informação Sistemas de recuperação da informação Processamento da linguagem natural (Computação) |
dc.subject.other.pt_BR.fl_str_mv |
Indexação automatica Ciência da informação Sistemas de recuperação da informação Processamento da linguagem natural (Computação) |
description |
Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores. |
publishDate |
2008 |
dc.date.issued.fl_str_mv |
2008-12-12 |
dc.date.accessioned.fl_str_mv |
2019-08-13T18:47:13Z |
dc.date.available.fl_str_mv |
2019-08-13T18:47:13Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/ECID-7NXJKZ |
url |
http://hdl.handle.net/1843/ECID-7NXJKZ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/1/tesefinal.pdf https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/2/tesefinal.pdf.txt |
bitstream.checksum.fl_str_mv |
c8f68f317330f5d2cc0f5aa1bd1b900c 4c12ff0f803b7a1bc4c913ebdd8048bc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1801676976865411072 |