Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNIPAMPA |
Texto Completo: | http://dspace.unipampa.edu.br/jspui/handle/riu/1569 |
Resumo: | Uma das necessidades do Exército Brasileiro é realizar a classificação dos documentos chamados Boletins Internos, os quais devem ser agrupados afim de gerar relatórios sumarizados a respeito dos militares. Para isto, é necessário encontrar referências relevantes à cada militar, dentro de um conjunto destes documentos confeccionados durante o período de um semestre. Para realizar esta classificação de forma automática, este trabalho utiliza o classificador bayesiano. O classificador emprega n-gramas como forma de selecionar os atributos de treinamento, recuperando a frequência/ocorrência das palavras nos documentos analisados. Também é necessário identificar quais as sentenças dos documentos são referentes ao militar analisado, para que apenas estas informações sejam empregadas pelo classificador. Este trabalho propõe duas heurísticas que selecionam sentenças relacionadas a cada militar. A aplicação proposta consegue atingir 78,5% de medida-f na recuperação dos documentos relevantes. Além disso, constata-se que o uso dos n-gramas consegue realizar uma análise mais precisa das informações, e a seleção de sentenças influencia diretamente na classificação. |
id |
UNIP_a01c3a64809e3320fd787d4888cce26c |
---|---|
oai_identifier_str |
oai:repositorio.unipampa.edu.br:riu/1569 |
network_acronym_str |
UNIP |
network_name_str |
Repositório Institucional da UNIPAMPA |
repository_id_str |
|
spelling |
Mergen, Sergio Luis SardiPivetta, Sander Pes2017-06-05T16:44:54Z2017-06-05T16:44:54Z2013-03-05http://dspace.unipampa.edu.br/jspui/handle/riu/1569Uma das necessidades do Exército Brasileiro é realizar a classificação dos documentos chamados Boletins Internos, os quais devem ser agrupados afim de gerar relatórios sumarizados a respeito dos militares. Para isto, é necessário encontrar referências relevantes à cada militar, dentro de um conjunto destes documentos confeccionados durante o período de um semestre. Para realizar esta classificação de forma automática, este trabalho utiliza o classificador bayesiano. O classificador emprega n-gramas como forma de selecionar os atributos de treinamento, recuperando a frequência/ocorrência das palavras nos documentos analisados. Também é necessário identificar quais as sentenças dos documentos são referentes ao militar analisado, para que apenas estas informações sejam empregadas pelo classificador. Este trabalho propõe duas heurísticas que selecionam sentenças relacionadas a cada militar. A aplicação proposta consegue atingir 78,5% de medida-f na recuperação dos documentos relevantes. Além disso, constata-se que o uso dos n-gramas consegue realizar uma análise mais precisa das informações, e a seleção de sentenças influencia diretamente na classificação.One of the needs of the Brazilian Army is to perform the classification of documents called “Boletins Internos”, which must be grouped in order to generate summarized reports about the military. To accomplish this, it is necessary to find relevant references to each military inside a set of documents, elaborated during the period of one semester. To perform this classification automatically, this work uses the Bayes classifier. The classifier employs n-grams as a way to select the training attributes, identifying the frequency/occurrence of words inside the analyzed documents. It is also necessary to identify which sentences of the documents are related to the analyzed military. We propose two heuristics in order to better perform the selection of sentences that are related to each military. We can see that the proposed implementation can achieve 78.5% F-Measure in the recovery of relevant documents. Furthermore, the use of n-grams can perform a more accurate analysis of the information, and the sentence selection directly influences the classification.porUniversidade Federal do PampaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCiência da computaçãoClassificaçãoDocumentosNaive BayesN-GramasCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComputer scienceClassificationDocumentsNaive BayesN-GramsClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentençasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfreponame:Repositório Institucional da UNIPAMPAinstname:Universidade Federal do Pampa (UNIPAMPA)instacron:UNIPAMPAORIGINALClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdfClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdfapplication/pdf1105550https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/1/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdfc92415d8b51c81f9238bfde91373bc65MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdf.txtClassificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças.pdf.txtExtracted texttext/plain107767https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/4/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdf.txt3e91b5a9267fd02ef35d572cbab8e68aMD54riu/15692021-04-12 15:42:21.576oai:repositorio.unipampa.edu.br:riu/1569Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://dspace.unipampa.edu.br:8080/oai/requestsisbi@unipampa.edu.bropendoar:2021-04-12T18:42:21Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)false |
dc.title.pt_BR.fl_str_mv |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças |
title |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças |
spellingShingle |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças Pivetta, Sander Pes Computer science Classification Documents Naive Bayes N-Grams Ciência da computação Classificação Documentos Naive Bayes N-Gramas CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças |
title_full |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças |
title_fullStr |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças |
title_full_unstemmed |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças |
title_sort |
Classificação de documentos do exército brasileiro utilizando o classificador Naive Bayes e técnicas de seleção de sentenças |
author |
Pivetta, Sander Pes |
author_facet |
Pivetta, Sander Pes |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Mergen, Sergio Luis Sardi |
dc.contributor.author.fl_str_mv |
Pivetta, Sander Pes |
contributor_str_mv |
Mergen, Sergio Luis Sardi |
dc.subject.eng.fl_str_mv |
Computer science Classification Documents Naive Bayes N-Grams |
topic |
Computer science Classification Documents Naive Bayes N-Grams Ciência da computação Classificação Documentos Naive Bayes N-Gramas CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.keyword.pt_BR.fl_str_mv |
Ciência da computação Classificação Documentos Naive Bayes N-Gramas |
dc.subject.vcps.pt_BR.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Uma das necessidades do Exército Brasileiro é realizar a classificação dos documentos chamados Boletins Internos, os quais devem ser agrupados afim de gerar relatórios sumarizados a respeito dos militares. Para isto, é necessário encontrar referências relevantes à cada militar, dentro de um conjunto destes documentos confeccionados durante o período de um semestre. Para realizar esta classificação de forma automática, este trabalho utiliza o classificador bayesiano. O classificador emprega n-gramas como forma de selecionar os atributos de treinamento, recuperando a frequência/ocorrência das palavras nos documentos analisados. Também é necessário identificar quais as sentenças dos documentos são referentes ao militar analisado, para que apenas estas informações sejam empregadas pelo classificador. Este trabalho propõe duas heurísticas que selecionam sentenças relacionadas a cada militar. A aplicação proposta consegue atingir 78,5% de medida-f na recuperação dos documentos relevantes. Além disso, constata-se que o uso dos n-gramas consegue realizar uma análise mais precisa das informações, e a seleção de sentenças influencia diretamente na classificação. |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013-03-05 |
dc.date.accessioned.fl_str_mv |
2017-06-05T16:44:54Z |
dc.date.available.fl_str_mv |
2017-06-05T16:44:54Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://dspace.unipampa.edu.br/jspui/handle/riu/1569 |
url |
http://dspace.unipampa.edu.br/jspui/handle/riu/1569 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Pampa |
publisher.none.fl_str_mv |
Universidade Federal do Pampa |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIPAMPA instname:Universidade Federal do Pampa (UNIPAMPA) instacron:UNIPAMPA |
instname_str |
Universidade Federal do Pampa (UNIPAMPA) |
instacron_str |
UNIPAMPA |
institution |
UNIPAMPA |
reponame_str |
Repositório Institucional da UNIPAMPA |
collection |
Repositório Institucional da UNIPAMPA |
bitstream.url.fl_str_mv |
https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/1/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/2/license_rdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/3/license.txt https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1569/4/Classifica%c3%a7%c3%a3o%20de%20documentos%20do%20ex%c3%a9rcito%20brasileiro%20utilizando%20o%20classificador%20Naive%20Bayes%20e%20t%c3%a9cnicas%20de%20sele%c3%a7%c3%a3o%20de%20senten%c3%a7as.pdf.txt |
bitstream.checksum.fl_str_mv |
c92415d8b51c81f9238bfde91373bc65 66e71c371cc565284e70f40736c94386 8a4605be74aa9ea9d79846c1fba20a33 3e91b5a9267fd02ef35d572cbab8e68a |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA) |
repository.mail.fl_str_mv |
sisbi@unipampa.edu.br |
_version_ |
1813274859245928448 |