Estudos empíricos dos métodos de balanceamento para a classificação
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | https://hdl.handle.net/1884/32025 |
Resumo: | Orientadora: Profª. Drª. Aurora Trinidad Ramirez Pozo |
id |
UFPR_4c066cad38c6ee98d2ee5798f84a6158 |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/32025 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaRamirez Pozo, Aurora Trinidad, 1959-Lara, Daiany Francisca2024-11-01T17:58:46Z2024-11-01T17:58:46Z2013https://hdl.handle.net/1884/32025Orientadora: Profª. Drª. Aurora Trinidad Ramirez PozoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 01/06/2013Bibliografia: fls. 63-67Resumo: A classificação tem o objetivo de rotular eventos e objetos de acordo com classes preestabelecidas. No entanto, alguns algoritmos perdem a capacidade de predição, quando o conjunto de dados possui uma distribuição desbalanceada entre suas classes. Para tentar resolver esse problema diversos metodos tem sido propostos na literatura. O presente trabalho tem como objetivo analisar e comparar os metodos mais conhecidos que se propõe a resolver o problema de classificação com bases desbalanceadas. Para isto, os metodos foram testados com os classificadores tradicionais como: Naive Bayes, Bayes Net, SMO, MultilayerPerceptron, J48 e JRip. As metricas de avaliação consideradas foram RecallP (verdadeiros positivos), RecallN (Verdadeiros negativos) e finalmente a taxa de acurada. Para realizar esta análise, os testes foram efetuados em 13 bases provenientes do UCI Machine Learning Repository e também em dois conjuntos de bases do "mundo real", que são bases construídas com informações sobre defeitos em sistemas de Orientação a Aspectos. O primeiro conjunto são cinco bases do repositório NASA Metrics Data Project, sendo elas cml, jml, kcl, kc2 e pcl. O segundo conjunto, sao três sistemas Orientados a Aspecto que são: Ibatis, HW (HealthWatcher) e MM (MobileMedia). Os resultados demonstram que e possível melhorar a taxa de classificação, mas e difícil dizer o metodo que se comporta melhor em bases do mundo real, pois tudo depende de como o classificador generaliza a base, principalmente com a presença de dados ruidosos. As bases do UCI, apresentam melhores resultados em relaçao às bases de Engenharia de Software. Isto pode ser explicado em função da natureza dos dados reais que costumam conter mais ruídos.Abstract: The classification aims at labeling objects and events according to pre-established classes. However, some algorithms lose the ability to predict when the data set has an imbalanced distribution between classes. To attack this problem various methods have been proposed in the literature. This work aims to analyze and compare the most popular methods that attempt to solve the classification problem with imbalanced bases. For this, the methods was tested with the traditional classifiers: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron, J48 and JRip. The evaluation metrics RecallP (True Positive), RecallN (True Negatives) and accuracy rate were considered. To accomplish this analyze, tests were made using 13 databases from UCI Machine Learning Repository and also with two sets of databases of real world, wich are built with information about faulty in Aspect-Oriented System. The first set are five databases from NASA Metrics Data Project, they are: cm1, jm1, kc1, kc2 and pc1. The second set, are three Aspect-Oriented System that are: Ibatis, HW (HeathWatcher) and MM (MobileMedia). The results show that is harder to determine the method that behave better in databases of real world, because all depends how the classifier generalizes the database mainly in the presence of noisy data. The UCI databases present better results compared to the results obtained with databases Engineering Software. This difference in the results can be explained by the nature of real data that often have more noise.v, 67f. : il., grafs., tabs.application/pdfDisponível em formato digitalMineração de dados (Computação)Inteligência artificialAprendizado do computadorCiência da computaçãoEstudos empíricos dos métodos de balanceamento para a classificaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DAIANY FRANCISCA LARA.pdfapplication/pdf1454053https://acervodigital.ufpr.br/bitstream/1884/32025/1/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf1e0d13df94614d59dcbac5a624977fcaMD51open accessTEXTR - D - DAIANY FRANCISCA LARA.pdf.txtExtracted Texttext/plain135817https://acervodigital.ufpr.br/bitstream/1884/32025/2/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.txt86e6e1042408e1ddaaa36fb639a2a54bMD52open accessTHUMBNAILR - D - DAIANY FRANCISCA LARA.pdf.jpgGenerated Thumbnailimage/jpeg1130https://acervodigital.ufpr.br/bitstream/1884/32025/3/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.jpg20ef82cbbe55bed1f1a27155019eaca2MD53open access1884/320252024-11-01 14:58:46.36open accessoai:acervodigital.ufpr.br:1884/32025Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082024-11-01T17:58:46Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
Estudos empíricos dos métodos de balanceamento para a classificação |
title |
Estudos empíricos dos métodos de balanceamento para a classificação |
spellingShingle |
Estudos empíricos dos métodos de balanceamento para a classificação Lara, Daiany Francisca Mineração de dados (Computação) Inteligência artificial Aprendizado do computador Ciência da computação |
title_short |
Estudos empíricos dos métodos de balanceamento para a classificação |
title_full |
Estudos empíricos dos métodos de balanceamento para a classificação |
title_fullStr |
Estudos empíricos dos métodos de balanceamento para a classificação |
title_full_unstemmed |
Estudos empíricos dos métodos de balanceamento para a classificação |
title_sort |
Estudos empíricos dos métodos de balanceamento para a classificação |
author |
Lara, Daiany Francisca |
author_facet |
Lara, Daiany Francisca |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática |
dc.contributor.advisor1.fl_str_mv |
Ramirez Pozo, Aurora Trinidad, 1959- |
dc.contributor.author.fl_str_mv |
Lara, Daiany Francisca |
contributor_str_mv |
Ramirez Pozo, Aurora Trinidad, 1959- |
dc.subject.por.fl_str_mv |
Mineração de dados (Computação) Inteligência artificial Aprendizado do computador Ciência da computação |
topic |
Mineração de dados (Computação) Inteligência artificial Aprendizado do computador Ciência da computação |
description |
Orientadora: Profª. Drª. Aurora Trinidad Ramirez Pozo |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013 |
dc.date.accessioned.fl_str_mv |
2024-11-01T17:58:46Z |
dc.date.available.fl_str_mv |
2024-11-01T17:58:46Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/32025 |
url |
https://hdl.handle.net/1884/32025 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.pt_BR.fl_str_mv |
Disponível em formato digital |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
v, 67f. : il., grafs., tabs. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/32025/1/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf https://acervodigital.ufpr.br/bitstream/1884/32025/2/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/32025/3/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.jpg |
bitstream.checksum.fl_str_mv |
1e0d13df94614d59dcbac5a624977fca 86e6e1042408e1ddaaa36fb639a2a54b 20ef82cbbe55bed1f1a27155019eaca2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1823527029111259136 |