Uso de sintagmas nominais na classificação automática de documentos eletrônicos

Detalhes bibliográficos
Autor(a) principal: Luiz Claudio Gomes Maia
Data de Publicação: 2008
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/ECID-7NXJKZ
Resumo: Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.
id UFMG_6b11a586bc7441ba91e27b13cf1729c0
oai_identifier_str oai:repositorio.ufmg.br:1843/ECID-7NXJKZ
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Renato Rocha SouzaGeorge Leal JamilMarcello Peixoto BaxBeatriz Valadares CendonManoel Palhares MoreiraLuiz Claudio Gomes Maia2019-08-13T18:47:13Z2019-08-13T18:47:13Z2008-12-12http://hdl.handle.net/1843/ECID-7NXJKZEsta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each termin the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The bestperforming methods were those with the terms without stopwords and the classified and scored noun phrases.Universidade Federal de Minas GeraisUFMGIndexação automaticaCiência da informaçãoSistemas de recuperação da informaçãoProcessamento da linguagem natural (Computação)automáticaIndexaçãoSintagmas nominasAnálise de textoAgrupamento automático de documentosUso de sintagmas nominais na classificação automática de documentos eletrônicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtesefinal.pdfapplication/pdf6481930https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/1/tesefinal.pdfc8f68f317330f5d2cc0f5aa1bd1b900cMD51TEXTtesefinal.pdf.txttesefinal.pdf.txtExtracted texttext/plain273408https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/2/tesefinal.pdf.txt4c12ff0f803b7a1bc4c913ebdd8048bcMD521843/ECID-7NXJKZ2019-11-14 12:08:00.527oai:repositorio.ufmg.br:1843/ECID-7NXJKZRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T15:08Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title Uso de sintagmas nominais na classificação automática de documentos eletrônicos
spellingShingle Uso de sintagmas nominais na classificação automática de documentos eletrônicos
Luiz Claudio Gomes Maia
automática
Indexação
Sintagmas nominas
Análise de texto
Agrupamento automático de documentos
Indexação automatica
Ciência da informação
Sistemas de recuperação da informação
Processamento da linguagem natural (Computação)
title_short Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_full Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_fullStr Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_full_unstemmed Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_sort Uso de sintagmas nominais na classificação automática de documentos eletrônicos
author Luiz Claudio Gomes Maia
author_facet Luiz Claudio Gomes Maia
author_role author
dc.contributor.advisor1.fl_str_mv Renato Rocha Souza
dc.contributor.referee1.fl_str_mv George Leal Jamil
dc.contributor.referee2.fl_str_mv Marcello Peixoto Bax
dc.contributor.referee3.fl_str_mv Beatriz Valadares Cendon
dc.contributor.referee4.fl_str_mv Manoel Palhares Moreira
dc.contributor.author.fl_str_mv Luiz Claudio Gomes Maia
contributor_str_mv Renato Rocha Souza
George Leal Jamil
Marcello Peixoto Bax
Beatriz Valadares Cendon
Manoel Palhares Moreira
dc.subject.por.fl_str_mv automática
Indexação
Sintagmas nominas
Análise de texto
Agrupamento automático de documentos
topic automática
Indexação
Sintagmas nominas
Análise de texto
Agrupamento automático de documentos
Indexação automatica
Ciência da informação
Sistemas de recuperação da informação
Processamento da linguagem natural (Computação)
dc.subject.other.pt_BR.fl_str_mv Indexação automatica
Ciência da informação
Sistemas de recuperação da informação
Processamento da linguagem natural (Computação)
description Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.
publishDate 2008
dc.date.issued.fl_str_mv 2008-12-12
dc.date.accessioned.fl_str_mv 2019-08-13T18:47:13Z
dc.date.available.fl_str_mv 2019-08-13T18:47:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ECID-7NXJKZ
url http://hdl.handle.net/1843/ECID-7NXJKZ
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/1/tesefinal.pdf
https://repositorio.ufmg.br/bitstream/1843/ECID-7NXJKZ/2/tesefinal.pdf.txt
bitstream.checksum.fl_str_mv c8f68f317330f5d2cc0f5aa1bd1b900c
4c12ff0f803b7a1bc4c913ebdd8048bc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1801676976865411072