Variações do método kNN e suas aplicações na classificação automática de textos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2010 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFG |
dARK ID: | ark:/38995/00130000024v0 |
Texto Completo: | http://repositorio.bc.ufg.br/tede/handle/tde/499 |
Resumo: | Most research on Automatic Text Categorization (ATC) seeks to improve the classifier performance (effective or efficient) responsible for automatically classifying a document d not yet rated. The k nearest neighbors (kNN) is simpler and it s one of automatic classification methods more effective as proposed. In this paper we proposed two kNN variations, Inverse kNN (kINN) and Symmetric kNN (kSNN) with the aim of improving the effectiveness of ACT. The kNN, kINN and kSNN methods were applied in Reuters, 20ng and Ohsumed collections and the results showed that kINN and kSNN methods were more effective than kNN method in Reuters and Ohsumed collections. kINN and kSNN methods were as effective as kNN method in 20NG collection. In addition, the performance achieved by kNN method is more stable than kINN and kSNN methods when the value k change. A parallel study was conducted to generate new features in documents from the similarity matrices resulting from the selection criteria for the best results obtained in kNN, kINN and kSNN methods. The SVM (considered a state of the art method) was applied in Reuters, 20NG and Ohsumed collections - before and after applying this approach to generate features in these documents and the results showed statistically significant gains for the original collection. |
id |
UFG-2_0d03abd4deb7a054b806038049cb1591 |
---|---|
oai_identifier_str |
oai:repositorio.bc.ufg.br:tde/499 |
network_acronym_str |
UFG-2 |
network_name_str |
Repositório Institucional da UFG |
repository_id_str |
|
spelling |
CARVALHO, Cedric Luiz dehttp://lattes.cnpq.br/4090131106212286ROSA, Thierson Coutohttp://lattes.cnpq.br/4414718560764818http://lattes.cnpq.br/9079302858133835SANTOS, Fernando Chagas2014-07-29T14:57:46Z2010-09-092010-10-10SANTOS, Fernando Chagas. kNN Method Variations and its applications in Text Classification. 2010. 96 f. Dissertação (Mestrado em Ciências Exatas e da Terra - Ciências da Computação) - Universidade Federal de Goiás, Goiânia, 2010.http://repositorio.bc.ufg.br/tede/handle/tde/499ark:/38995/00130000024v0Most research on Automatic Text Categorization (ATC) seeks to improve the classifier performance (effective or efficient) responsible for automatically classifying a document d not yet rated. The k nearest neighbors (kNN) is simpler and it s one of automatic classification methods more effective as proposed. In this paper we proposed two kNN variations, Inverse kNN (kINN) and Symmetric kNN (kSNN) with the aim of improving the effectiveness of ACT. The kNN, kINN and kSNN methods were applied in Reuters, 20ng and Ohsumed collections and the results showed that kINN and kSNN methods were more effective than kNN method in Reuters and Ohsumed collections. kINN and kSNN methods were as effective as kNN method in 20NG collection. In addition, the performance achieved by kNN method is more stable than kINN and kSNN methods when the value k change. A parallel study was conducted to generate new features in documents from the similarity matrices resulting from the selection criteria for the best results obtained in kNN, kINN and kSNN methods. The SVM (considered a state of the art method) was applied in Reuters, 20NG and Ohsumed collections - before and after applying this approach to generate features in these documents and the results showed statistically significant gains for the original collection.Grande parte das pesquisas relacionadas com a classificação automática de textos (CAT) tem procurado melhorar o desempenho (eficácia ou eficiência) do classificador responsável por classificar automaticamente um documento d, ainda não classificado. O método dos k vizinhos mais próximos (kNN, do inglês k nearest neighbors) é um dos métodos de classificação automática mais simples e eficazes já propostos. Neste trabalho foram propostas duas variações do método kNN, o kNN invertido (kINN) e o kNN simétrico (kSNN) com o objetivo de melhorar a eficácia da CAT. Os métodos kNN, kINN e kSNN foram aplicados nas coleções Reuters, 20NG e Ohsumed e os resultados obtidos demonstraram que os métodos kINN e kSNN tiveram eficácia superior ao método kNN ao serem aplicados nas coleções Reuters e Ohsumed e eficácia equivalente ao método kNN ao serem aplicados na coleção 20NG. Além disso, nessas coleções foi possível verificar que o desempenho obtido pelo método kNN é mais estável a variação do valor k do que os desempenhos obtidos pelos métodos kINN e kSNN. Um estudo paralelo foi realizado para gerar novas características em documentos a partir das matrizes de similaridade resultantes dos critérios de seleção dos melhores resultados obtidos na avaliação dos métodos kNN, kINN e kSNN. O método SVM, considerado um método de classificação do estado da arte em relação à eficácia, foi aplicado nas coleções Reuters, 20NG e Ohsumed - antes e após aplicar a abordagem de geração de características nesses documentos e os resultados obtidos demonstraram ganhos estatisticamente significativos em relação à coleção original.Made available in DSpace on 2014-07-29T14:57:46Z (GMT). No. of bitstreams: 1 dissertacao-fernando.pdf: 677510 bytes, checksum: 19704f0b04ee313a63b053f7f9df409c (MD5) Previous issue date: 2010-10-10application/pdfhttp://repositorio.bc.ufg.br/TEDE/retrieve/2971/dissertacao-fernando.pdf.jpgporUniversidade Federal de GoiásMestrado em Ciência da ComputaçãoUFGBRCiências Exatas e da Terra - Ciências da ComputaçãoClassificação de TextosAprendizagem de MáquinaMétodo kNNCritérios de SeleçãoGeração de CaracterísticasGeração de Termos1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termosText ClassificationMachine LearningkNN MethodFeature SelectionFeature ConstructionCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOVariações do método kNN e suas aplicações na classificação automática de textoskNN Method Variations and its applications in Text Classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGORIGINALdissertacao-fernando.pdfapplication/pdf677510http://repositorio.bc.ufg.br/tede/bitstreams/be4e9663-3c31-4660-85eb-ce310db7baba/download19704f0b04ee313a63b053f7f9df409cMD51TEXTdissertacao-fernando.pdf.txtdissertacao-fernando.pdf.txtExtracted Texttext/plain199227http://repositorio.bc.ufg.br/tede/bitstreams/c531d483-7546-4dbd-8d94-703904edad20/download64647f45c3ec9462e129c36742888d43MD52THUMBNAILdissertacao-fernando.pdf.jpgdissertacao-fernando.pdf.jpgGenerated Thumbnailimage/jpeg3477http://repositorio.bc.ufg.br/tede/bitstreams/4619fc91-1bee-49f0-9e7f-a3639707cf4c/download24d46b5575a060c096f56fedf189632bMD53tde/4992014-07-30 03:01:40.421open.accessoai:repositorio.bc.ufg.br:tde/499http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2014-07-30T06:01:40Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)false |
dc.title.por.fl_str_mv |
Variações do método kNN e suas aplicações na classificação automática de textos |
dc.title.alternative.eng.fl_str_mv |
kNN Method Variations and its applications in Text Classification |
title |
Variações do método kNN e suas aplicações na classificação automática de textos |
spellingShingle |
Variações do método kNN e suas aplicações na classificação automática de textos SANTOS, Fernando Chagas Classificação de Textos Aprendizagem de Máquina Método kNN Critérios de Seleção Geração de Características Geração de Termos 1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termos Text Classification Machine Learning kNN Method Feature Selection Feature Construction CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Variações do método kNN e suas aplicações na classificação automática de textos |
title_full |
Variações do método kNN e suas aplicações na classificação automática de textos |
title_fullStr |
Variações do método kNN e suas aplicações na classificação automática de textos |
title_full_unstemmed |
Variações do método kNN e suas aplicações na classificação automática de textos |
title_sort |
Variações do método kNN e suas aplicações na classificação automática de textos |
author |
SANTOS, Fernando Chagas |
author_facet |
SANTOS, Fernando Chagas |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
CARVALHO, Cedric Luiz de |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/4090131106212286 |
dc.contributor.advisor-co1.fl_str_mv |
ROSA, Thierson Couto |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/4414718560764818 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9079302858133835 |
dc.contributor.author.fl_str_mv |
SANTOS, Fernando Chagas |
contributor_str_mv |
CARVALHO, Cedric Luiz de ROSA, Thierson Couto |
dc.subject.por.fl_str_mv |
Classificação de Textos Aprendizagem de Máquina Método kNN Critérios de Seleção Geração de Características Geração de Termos 1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termos |
topic |
Classificação de Textos Aprendizagem de Máquina Método kNN Critérios de Seleção Geração de Características Geração de Termos 1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termos Text Classification Machine Learning kNN Method Feature Selection Feature Construction CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Text Classification Machine Learning kNN Method Feature Selection Feature Construction |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Most research on Automatic Text Categorization (ATC) seeks to improve the classifier performance (effective or efficient) responsible for automatically classifying a document d not yet rated. The k nearest neighbors (kNN) is simpler and it s one of automatic classification methods more effective as proposed. In this paper we proposed two kNN variations, Inverse kNN (kINN) and Symmetric kNN (kSNN) with the aim of improving the effectiveness of ACT. The kNN, kINN and kSNN methods were applied in Reuters, 20ng and Ohsumed collections and the results showed that kINN and kSNN methods were more effective than kNN method in Reuters and Ohsumed collections. kINN and kSNN methods were as effective as kNN method in 20NG collection. In addition, the performance achieved by kNN method is more stable than kINN and kSNN methods when the value k change. A parallel study was conducted to generate new features in documents from the similarity matrices resulting from the selection criteria for the best results obtained in kNN, kINN and kSNN methods. The SVM (considered a state of the art method) was applied in Reuters, 20NG and Ohsumed collections - before and after applying this approach to generate features in these documents and the results showed statistically significant gains for the original collection. |
publishDate |
2010 |
dc.date.available.fl_str_mv |
2010-09-09 |
dc.date.issued.fl_str_mv |
2010-10-10 |
dc.date.accessioned.fl_str_mv |
2014-07-29T14:57:46Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANTOS, Fernando Chagas. kNN Method Variations and its applications in Text Classification. 2010. 96 f. Dissertação (Mestrado em Ciências Exatas e da Terra - Ciências da Computação) - Universidade Federal de Goiás, Goiânia, 2010. |
dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tde/499 |
dc.identifier.dark.fl_str_mv |
ark:/38995/00130000024v0 |
identifier_str_mv |
SANTOS, Fernando Chagas. kNN Method Variations and its applications in Text Classification. 2010. 96 f. Dissertação (Mestrado em Ciências Exatas e da Terra - Ciências da Computação) - Universidade Federal de Goiás, Goiânia, 2010. ark:/38995/00130000024v0 |
url |
http://repositorio.bc.ufg.br/tede/handle/tde/499 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.publisher.program.fl_str_mv |
Mestrado em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UFG |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Ciências Exatas e da Terra - Ciências da Computação |
publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
instname_str |
Universidade Federal de Goiás (UFG) |
instacron_str |
UFG |
institution |
UFG |
reponame_str |
Repositório Institucional da UFG |
collection |
Repositório Institucional da UFG |
bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/be4e9663-3c31-4660-85eb-ce310db7baba/download http://repositorio.bc.ufg.br/tede/bitstreams/c531d483-7546-4dbd-8d94-703904edad20/download http://repositorio.bc.ufg.br/tede/bitstreams/4619fc91-1bee-49f0-9e7f-a3639707cf4c/download |
bitstream.checksum.fl_str_mv |
19704f0b04ee313a63b053f7f9df409c 64647f45c3ec9462e129c36742888d43 24d46b5575a060c096f56fedf189632b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
repository.mail.fl_str_mv |
tasesdissertacoes.bc@ufg.br |
_version_ |
1815172531457359872 |