Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças

Detalhes bibliográficos
Autor(a) principal: Pivetta, Sander Pes
Data de Publicação: 2013
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNIPAMPA
Texto Completo: http://dspace.unipampa.edu.br/jspui/handle/riu/1569
Resumo: Uma das necessidades do Exército Brasileiro é realizar a classificação dos documentos chamados Boletins Internos, os quais devem ser agrupados afim de gerar relatórios sumarizados a respeito dos militares. Para isto, é necessário encontrar referências relevantes à cada militar, dentro de um conjunto destes documentos confeccionados durante o período de um semestre. Para realizar esta classificação de forma automática, este trabalho utiliza o classificador bayesiano. O classificador emprega n-gramas como forma de selecionar os atributos de treinamento, recuperando a frequência/ocorrência das palavras nos documentos analisados. Também é necessário identificar quais as sentenças dos documentos são referentes ao militar analisado, para que apenas estas informações sejam empregadas pelo classificador. Este trabalho propõe duas heurísticas que selecionam sentenças relacionadas a cada militar. A aplicação proposta consegue atingir 78,5% de medida-f na recuperação dos documentos relevantes. Além disso, constata-se que o uso dos n-gramas consegue realizar uma análise mais precisa das informações, e a seleção de sentenças influencia diretamente na classificação.
id UNIP_a01c3a64809e3320fd787d4888cce26c
oai_identifier_str oai:repositorio.unipampa.edu.br:riu/1569
network_acronym_str UNIP
network_name_str Repositório Institucional da UNIPAMPA
repository_id_str
spelling Mergen, Sergio Luis SardiPivetta, Sander Pes2017-06-05T16:44:54Z2017-06-05T16:44:54Z2013-03-05http://dspace.unipampa.edu.br/jspui/handle/riu/1569Uma das necessidades do Exército Brasileiro é realizar a classificação dos documentos chamados Boletins Internos, os quais devem ser agrupados afim de gerar relatórios sumarizados a respeito dos militares. Para isto, é necessário encontrar referências relevantes à cada militar, dentro de um conjunto destes documentos confeccionados durante o período de um semestre. Para realizar esta classificação de forma automática, este trabalho utiliza o classificador bayesiano. O classificador emprega n-gramas como forma de selecionar os atributos de treinamento, recuperando a frequência/ocorrência das palavras nos documentos analisados. Também é necessário identificar quais as sentenças dos documentos são referentes ao militar analisado, para que apenas estas informações sejam empregadas pelo classificador. Este trabalho propõe duas heurísticas que selecionam sentenças relacionadas a cada militar. A aplicação proposta consegue atingir 78,5% de medida-f na recuperação dos documentos relevantes. Além disso, constata-se que o uso dos n-gramas consegue realizar uma análise mais precisa das informações, e a seleção de sentenças influencia diretamente na classificação.One of the needs of the Brazilian Army is to perform the classification of documents called “Boletins Internos”, which must be grouped in order to generate summarized reports about the military. To accomplish this, it is necessary to find relevant references to each military inside a set of documents, elaborated during the period of one semester. To perform this classification automatically, this work uses the Bayes classifier. The classifier employs n-grams as a way to select the training attributes, identifying the frequency/occurrence of words inside the analyzed documents. It is also necessary to identify which sentences of the documents are related to the analyzed military. We propose two heuristics in order to better perform the selection of sentences that are related to each military. We can see that the proposed implementation can achieve 78.5% F-Measure in the recovery of relevant documents. Furthermore, the use of n-grams can perform a more accurate analysis of the information, and the sentence selection directly influences the classification.porUniversidade Federal do PampaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCiência da computaçãoClassificaçãoDocumentosNaive BayesN-GramasCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComputer scienceClassificationDocumentsNaive BayesN-GramsClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentençasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfreponame:Repositório Institucional da UNIPAMPAinstname:Universidade Federal do Pampa (UNIPAMPA)instacron:UNIPAMPAORIGINALClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdfClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdfapplication/pdf1105550https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/1/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdfc92415d8b51c81f9238bfde91373bc65MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdf.txtClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdf.txtExtracted texttext/plain107767https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/4/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdf.txt3e91b5a9267fd02ef35d572cbab8e68aMD54riu/15692021-04-12 15:42:21.576oai:repositorio.unipampa.edu.br:riu/1569Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://dspace.unipampa.edu.br:8080/oai/requestsisbi@unipampa.edu.bropendoar:2021-04-12T18:42:21Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)false
dc.title.pt_BR.fl_str_mv Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
title Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
spellingShingle Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
Pivetta, Sander Pes
Computer science
Classification
Documents
Naive Bayes
N-Grams
Ciência da computação
Classificação
Documentos
Naive Bayes
N-Gramas
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
title_full Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
title_fullStr Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
title_full_unstemmed Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
title_sort Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
author Pivetta, Sander Pes
author_facet Pivetta, Sander Pes
author_role author
dc.contributor.advisor1.fl_str_mv Mergen, Sergio Luis Sardi
dc.contributor.author.fl_str_mv Pivetta, Sander Pes
contributor_str_mv Mergen, Sergio Luis Sardi
dc.subject.eng.fl_str_mv Computer science
Classification
Documents
Naive Bayes
N-Grams
topic Computer science
Classification
Documents
Naive Bayes
N-Grams
Ciência da computação
Classificação
Documentos
Naive Bayes
N-Gramas
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.keyword.pt_BR.fl_str_mv Ciência da computação
Classificação
Documentos
Naive Bayes
N-Gramas
dc.subject.vcps.pt_BR.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Uma das necessidades do Exército Brasileiro é realizar a classificação dos documentos chamados Boletins Internos, os quais devem ser agrupados afim de gerar relatórios sumarizados a respeito dos militares. Para isto, é necessário encontrar referências relevantes à cada militar, dentro de um conjunto destes documentos confeccionados durante o período de um semestre. Para realizar esta classificação de forma automática, este trabalho utiliza o classificador bayesiano. O classificador emprega n-gramas como forma de selecionar os atributos de treinamento, recuperando a frequência/ocorrência das palavras nos documentos analisados. Também é necessário identificar quais as sentenças dos documentos são referentes ao militar analisado, para que apenas estas informações sejam empregadas pelo classificador. Este trabalho propõe duas heurísticas que selecionam sentenças relacionadas a cada militar. A aplicação proposta consegue atingir 78,5% de medida-f na recuperação dos documentos relevantes. Além disso, constata-se que o uso dos n-gramas consegue realizar uma análise mais precisa das informações, e a seleção de sentenças influencia diretamente na classificação.
publishDate 2013
dc.date.issued.fl_str_mv 2013-03-05
dc.date.accessioned.fl_str_mv 2017-06-05T16:44:54Z
dc.date.available.fl_str_mv 2017-06-05T16:44:54Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.unipampa.edu.br/jspui/handle/riu/1569
url http://dspace.unipampa.edu.br/jspui/handle/riu/1569
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Pampa
publisher.none.fl_str_mv Universidade Federal do Pampa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIPAMPA
instname:Universidade Federal do Pampa (UNIPAMPA)
instacron:UNIPAMPA
instname_str Universidade Federal do Pampa (UNIPAMPA)
instacron_str UNIPAMPA
institution UNIPAMPA
reponame_str Repositório Institucional da UNIPAMPA
collection Repositório Institucional da UNIPAMPA
bitstream.url.fl_str_mv https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/1/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdf
https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/2/license_rdf
https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/3/license.txt
https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/4/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdf.txt
bitstream.checksum.fl_str_mv c92415d8b51c81f9238bfde91373bc65
66e71c371cc565284e70f40736c94386
8a4605be74aa9ea9d79846c1fba20a33
3e91b5a9267fd02ef35d572cbab8e68a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)
repository.mail.fl_str_mv sisbi@unipampa.edu.br
_version_ 1797225007186706432