O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/BUOS-9RQHC6 |
Resumo: | Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão. |
id |
UFMG_2f54aca2c594aa5ecf19ca4211e1f8bc |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/BUOS-9RQHC6 |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Renato Rocha SouzaFlavio Codeco CoelhoLuiz Claudio Gomes MaiaManoel Palhares MoreiraHeliana Ribeiro de MelloMaria Aparecida MouraAgnaldo Lopes Martins2019-08-10T01:18:50Z2019-08-10T01:18:50Z2014-08-18http://hdl.handle.net/1843/BUOS-9RQHC6Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão.This thesis aimed to evaluate the use of the noun phrase as a data source for an automatic classification of text documents stored in digital format. Various technological tools that have transformed scientific articles in a list of noun phrases that have been used for a classifier system based on supervised learning training. Among the tools used the words were responsible for the identification and removal of noun phrases of corporas. For training the classifier machine the application SVMLight was used. The methodology was developed in two stages; the first qualitative test was performed when comparing the documents of the corpus; and in the second stage SVM training was conducted using a larger number of documents. At the end, several tests were performed and it is possible to demonstrate that the proposed methodology was able to classify documents with high precision.Universidade Federal de Minas GeraisUFMGIndexação automáticaSistemas de recuperação da informaçãoCiência da informaçãoProcessamento da linguagem natural (Computação)Processamento da linguagem naturalSintagmas nominaisClassificação de documentosSistemas de recuperação da informaçãoO uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese_doutorado___entregue_no_cd_em_28112014.pdfapplication/pdf3153255https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/1/tese_doutorado___entregue_no_cd_em_28112014.pdfb2e489cc2360bdd7328cf47f4be50a27MD51TEXTtese_doutorado___entregue_no_cd_em_28112014.pdf.txttese_doutorado___entregue_no_cd_em_28112014.pdf.txtExtracted texttext/plain410421https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/2/tese_doutorado___entregue_no_cd_em_28112014.pdf.txt6f3b1a9fa0032fc3083a062f29a28507MD521843/BUOS-9RQHC62019-11-14 08:32:01.471oai:repositorio.ufmg.br:1843/BUOS-9RQHC6Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T11:32:01Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais |
title |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais |
spellingShingle |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais Agnaldo Lopes Martins Processamento da linguagem natural Sintagmas nominais Classificação de documentos Sistemas de recuperação da informação Indexação automática Sistemas de recuperação da informação Ciência da informação Processamento da linguagem natural (Computação) |
title_short |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais |
title_full |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais |
title_fullStr |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais |
title_full_unstemmed |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais |
title_sort |
O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais |
author |
Agnaldo Lopes Martins |
author_facet |
Agnaldo Lopes Martins |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Renato Rocha Souza |
dc.contributor.referee1.fl_str_mv |
Flavio Codeco Coelho |
dc.contributor.referee2.fl_str_mv |
Luiz Claudio Gomes Maia |
dc.contributor.referee3.fl_str_mv |
Manoel Palhares Moreira |
dc.contributor.referee4.fl_str_mv |
Heliana Ribeiro de Mello |
dc.contributor.referee5.fl_str_mv |
Maria Aparecida Moura |
dc.contributor.author.fl_str_mv |
Agnaldo Lopes Martins |
contributor_str_mv |
Renato Rocha Souza Flavio Codeco Coelho Luiz Claudio Gomes Maia Manoel Palhares Moreira Heliana Ribeiro de Mello Maria Aparecida Moura |
dc.subject.por.fl_str_mv |
Processamento da linguagem natural Sintagmas nominais Classificação de documentos Sistemas de recuperação da informação |
topic |
Processamento da linguagem natural Sintagmas nominais Classificação de documentos Sistemas de recuperação da informação Indexação automática Sistemas de recuperação da informação Ciência da informação Processamento da linguagem natural (Computação) |
dc.subject.other.pt_BR.fl_str_mv |
Indexação automática Sistemas de recuperação da informação Ciência da informação Processamento da linguagem natural (Computação) |
description |
Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-08-18 |
dc.date.accessioned.fl_str_mv |
2019-08-10T01:18:50Z |
dc.date.available.fl_str_mv |
2019-08-10T01:18:50Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/BUOS-9RQHC6 |
url |
http://hdl.handle.net/1843/BUOS-9RQHC6 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/1/tese_doutorado___entregue_no_cd_em_28112014.pdf https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/2/tese_doutorado___entregue_no_cd_em_28112014.pdf.txt |
bitstream.checksum.fl_str_mv |
b2e489cc2360bdd7328cf47f4be50a27 6f3b1a9fa0032fc3083a062f29a28507 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589525114454016 |