O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais

Detalhes bibliográficos
Autor(a) principal: Agnaldo Lopes Martins
Data de Publicação: 2014
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUOS-9RQHC6
Resumo: Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão.
id UFMG_2f54aca2c594aa5ecf19ca4211e1f8bc
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-9RQHC6
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Renato Rocha SouzaFlavio Codeco CoelhoLuiz Claudio Gomes MaiaManoel Palhares MoreiraHeliana Ribeiro de MelloMaria Aparecida MouraAgnaldo Lopes Martins2019-08-10T01:18:50Z2019-08-10T01:18:50Z2014-08-18http://hdl.handle.net/1843/BUOS-9RQHC6Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão.This thesis aimed to evaluate the use of the noun phrase as a data source for an automatic classification of text documents stored in digital format. Various technological tools that have transformed scientific articles in a list of noun phrases that have been used for a classifier system based on supervised learning training. Among the tools used the words were responsible for the identification and removal of noun phrases of corporas. For training the classifier machine the application SVMLight was used. The methodology was developed in two stages; the first qualitative test was performed when comparing the documents of the corpus; and in the second stage SVM training was conducted using a larger number of documents. At the end, several tests were performed and it is possible to demonstrate that the proposed methodology was able to classify documents with high precision.Universidade Federal de Minas GeraisUFMGIndexação automáticaSistemas de recuperação da informaçãoCiência da informaçãoProcessamento da linguagem natural (Computação)Processamento da linguagem naturalSintagmas nominaisClassificação de documentosSistemas de recuperação da informaçãoO uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese_doutorado___entregue_no_cd_em_28112014.pdfapplication/pdf3153255https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/1/tese_doutorado___entregue_no_cd_em_28112014.pdfb2e489cc2360bdd7328cf47f4be50a27MD51TEXTtese_doutorado___entregue_no_cd_em_28112014.pdf.txttese_doutorado___entregue_no_cd_em_28112014.pdf.txtExtracted texttext/plain410421https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/2/tese_doutorado___entregue_no_cd_em_28112014.pdf.txt6f3b1a9fa0032fc3083a062f29a28507MD521843/BUOS-9RQHC62019-11-14 08:32:01.471oai:repositorio.ufmg.br:1843/BUOS-9RQHC6Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T11:32:01Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
title O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
spellingShingle O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
Agnaldo Lopes Martins
Processamento da linguagem natural
Sintagmas nominais
Classificação de documentos
Sistemas de recuperação da informação
Indexação automática
Sistemas de recuperação da informação
Ciência da informação
Processamento da linguagem natural (Computação)
title_short O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
title_full O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
title_fullStr O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
title_full_unstemmed O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
title_sort O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais
author Agnaldo Lopes Martins
author_facet Agnaldo Lopes Martins
author_role author
dc.contributor.advisor1.fl_str_mv Renato Rocha Souza
dc.contributor.referee1.fl_str_mv Flavio Codeco Coelho
dc.contributor.referee2.fl_str_mv Luiz Claudio Gomes Maia
dc.contributor.referee3.fl_str_mv Manoel Palhares Moreira
dc.contributor.referee4.fl_str_mv Heliana Ribeiro de Mello
dc.contributor.referee5.fl_str_mv Maria Aparecida Moura
dc.contributor.author.fl_str_mv Agnaldo Lopes Martins
contributor_str_mv Renato Rocha Souza
Flavio Codeco Coelho
Luiz Claudio Gomes Maia
Manoel Palhares Moreira
Heliana Ribeiro de Mello
Maria Aparecida Moura
dc.subject.por.fl_str_mv Processamento da linguagem natural
Sintagmas nominais
Classificação de documentos
Sistemas de recuperação da informação
topic Processamento da linguagem natural
Sintagmas nominais
Classificação de documentos
Sistemas de recuperação da informação
Indexação automática
Sistemas de recuperação da informação
Ciência da informação
Processamento da linguagem natural (Computação)
dc.subject.other.pt_BR.fl_str_mv Indexação automática
Sistemas de recuperação da informação
Ciência da informação
Processamento da linguagem natural (Computação)
description Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão.
publishDate 2014
dc.date.issued.fl_str_mv 2014-08-18
dc.date.accessioned.fl_str_mv 2019-08-10T01:18:50Z
dc.date.available.fl_str_mv 2019-08-10T01:18:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUOS-9RQHC6
url http://hdl.handle.net/1843/BUOS-9RQHC6
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/1/tese_doutorado___entregue_no_cd_em_28112014.pdf
https://repositorio.ufmg.br/bitstream/1843/BUOS-9RQHC6/2/tese_doutorado___entregue_no_cd_em_28112014.pdf.txt
bitstream.checksum.fl_str_mv b2e489cc2360bdd7328cf47f4be50a27
6f3b1a9fa0032fc3083a062f29a28507
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589525114454016