Estudos empíricos dos métodos de balanceamento para a classificação

Lara, Daiany Francisca

Estudos empíricos dos métodos de balanceamento para a classificação

Detalhes bibliográficos
Autor(a) principal:	Lara, Daiany Francisca
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFPR
Texto Completo:	http://hdl.handle.net/1884/32025
Resumo:	Resumo: A classificação tem o objetivo de rotular eventos e objetos de acordo com classes preestabelecidas. No entanto, alguns algoritmos perdem a capacidade de prediçao, quando o conjunto de dados possui uma distribuiçao desbalanceada entre suas classes. Para tentar resolver esse problema diversos metodos tem sido propostos na literatura. O presente trabalho tem como objetivo analisar e comparar os metodos mais conhecidos que se propoe a resolver o problema de classificação com bases desbalanceadas. Para isto, os metodos foram testados com os classificadores tradicionais como: Naive Bayes, Bayes Net, SMO, MultilayerPerceptron, J48 e JRip. As metricas de avaliaçao consideradas foram RecallP (verdadeiros positivos), RecallN (Verdadeiros negativos) e finalmente a taxa de acurada. Para realizar esta analise, os testes foram efetuados em 13 bases provenientes do UCI Machine Learning Repository e tambem em dois conjuntos de bases do "mundo real", que sao bases construídas com informações sobre defeitos em sistemas de Orientacao a Aspectos. O primeiro conjunto são cinco bases do repositório NASA Metrics Data Project, sendo elas cml, jml, kcl, kc2 e pcl. O segundo conjunto, sao três sistemas Orientados a Aspecto que sao: Ibatis, HW (HealthWatcher) e MM (MobileMedia). Os resultados demonstram que e possível melhorar a taxa de classificacao, mas e difícil dizer o metodo que se comporta melhor em bases do mundo real, pois tudo depende de como o classificador generaliza a base, principalmente com a presencça de dados ruidosos. As bases do UCI, apresentam melhores resultados em relaçao às bases de Engenharia de Software. Isto pode ser explicado em funcao da natureza dos dados reais que costumam conter mais ruídos.

Metadados do item

id	UFPR_4c066cad38c6ee98d2ee5798f84a6158
oai_identifier_str	oai:acervodigital.ufpr.br:1884/32025
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str	308
spelling	Lara, Daiany FranciscaRamirez Pozo, Aurora Trinidad, 1959-Universidade Federal do Paraná. Setor de Ciencias Exatas. Programa de Pós-Graduaçao em Informática2013-09-11T12:20:31Z2013-09-11T12:20:31Z2013-09-11http://hdl.handle.net/1884/32025Resumo: A classificação tem o objetivo de rotular eventos e objetos de acordo com classes preestabelecidas. No entanto, alguns algoritmos perdem a capacidade de prediçao, quando o conjunto de dados possui uma distribuiçao desbalanceada entre suas classes. Para tentar resolver esse problema diversos metodos tem sido propostos na literatura. O presente trabalho tem como objetivo analisar e comparar os metodos mais conhecidos que se propoe a resolver o problema de classificação com bases desbalanceadas. Para isto, os metodos foram testados com os classificadores tradicionais como: Naive Bayes, Bayes Net, SMO, MultilayerPerceptron, J48 e JRip. As metricas de avaliaçao consideradas foram RecallP (verdadeiros positivos), RecallN (Verdadeiros negativos) e finalmente a taxa de acurada. Para realizar esta analise, os testes foram efetuados em 13 bases provenientes do UCI Machine Learning Repository e tambem em dois conjuntos de bases do "mundo real", que sao bases construídas com informações sobre defeitos em sistemas de Orientacao a Aspectos. O primeiro conjunto são cinco bases do repositório NASA Metrics Data Project, sendo elas cml, jml, kcl, kc2 e pcl. O segundo conjunto, sao três sistemas Orientados a Aspecto que sao: Ibatis, HW (HealthWatcher) e MM (MobileMedia). Os resultados demonstram que e possível melhorar a taxa de classificacao, mas e difícil dizer o metodo que se comporta melhor em bases do mundo real, pois tudo depende de como o classificador generaliza a base, principalmente com a presencça de dados ruidosos. As bases do UCI, apresentam melhores resultados em relaçao às bases de Engenharia de Software. Isto pode ser explicado em funcao da natureza dos dados reais que costumam conter mais ruídos.application/pdfMineração de dados (Computação)Inteligencia artificialAprendizado do computadorEstudos empíricos dos métodos de balanceamento para a classificaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - DAIANY FRANCISCA LARA.pdfapplication/pdf1454053https://acervodigital.ufpr.br/bitstream/1884/32025/1/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf1e0d13df94614d59dcbac5a624977fcaMD51open accessTEXTR - D - DAIANY FRANCISCA LARA.pdf.txtR - D - DAIANY FRANCISCA LARA.pdf.txtExtracted Texttext/plain135817https://acervodigital.ufpr.br/bitstream/1884/32025/2/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.txt86e6e1042408e1ddaaa36fb639a2a54bMD52open accessTHUMBNAILR - D - DAIANY FRANCISCA LARA.pdf.jpgR - D - DAIANY FRANCISCA LARA.pdf.jpgGenerated Thumbnailimage/jpeg1130https://acervodigital.ufpr.br/bitstream/1884/32025/3/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.jpg20ef82cbbe55bed1f1a27155019eaca2MD53open access1884/320252016-04-07 06:03:39.77open accessoai:acervodigital.ufpr.br:1884/32025Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082016-04-07T09:03:39Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Estudos empíricos dos métodos de balanceamento para a classificação
title	Estudos empíricos dos métodos de balanceamento para a classificação
spellingShingle	Estudos empíricos dos métodos de balanceamento para a classificação Lara, Daiany Francisca Mineração de dados (Computação) Inteligencia artificial Aprendizado do computador
title_short	Estudos empíricos dos métodos de balanceamento para a classificação
title_full	Estudos empíricos dos métodos de balanceamento para a classificação
title_fullStr	Estudos empíricos dos métodos de balanceamento para a classificação
title_full_unstemmed	Estudos empíricos dos métodos de balanceamento para a classificação
title_sort	Estudos empíricos dos métodos de balanceamento para a classificação
author	Lara, Daiany Francisca
author_facet	Lara, Daiany Francisca
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Ramirez Pozo, Aurora Trinidad, 1959- Universidade Federal do Paraná. Setor de Ciencias Exatas. Programa de Pós-Graduaçao em Informática
dc.contributor.author.fl_str_mv	Lara, Daiany Francisca
dc.subject.por.fl_str_mv	Mineração de dados (Computação) Inteligencia artificial Aprendizado do computador
topic	Mineração de dados (Computação) Inteligencia artificial Aprendizado do computador
description	Resumo: A classificação tem o objetivo de rotular eventos e objetos de acordo com classes preestabelecidas. No entanto, alguns algoritmos perdem a capacidade de prediçao, quando o conjunto de dados possui uma distribuiçao desbalanceada entre suas classes. Para tentar resolver esse problema diversos metodos tem sido propostos na literatura. O presente trabalho tem como objetivo analisar e comparar os metodos mais conhecidos que se propoe a resolver o problema de classificação com bases desbalanceadas. Para isto, os metodos foram testados com os classificadores tradicionais como: Naive Bayes, Bayes Net, SMO, MultilayerPerceptron, J48 e JRip. As metricas de avaliaçao consideradas foram RecallP (verdadeiros positivos), RecallN (Verdadeiros negativos) e finalmente a taxa de acurada. Para realizar esta analise, os testes foram efetuados em 13 bases provenientes do UCI Machine Learning Repository e tambem em dois conjuntos de bases do "mundo real", que sao bases construídas com informações sobre defeitos em sistemas de Orientacao a Aspectos. O primeiro conjunto são cinco bases do repositório NASA Metrics Data Project, sendo elas cml, jml, kcl, kc2 e pcl. O segundo conjunto, sao três sistemas Orientados a Aspecto que sao: Ibatis, HW (HealthWatcher) e MM (MobileMedia). Os resultados demonstram que e possível melhorar a taxa de classificacao, mas e difícil dizer o metodo que se comporta melhor em bases do mundo real, pois tudo depende de como o classificador generaliza a base, principalmente com a presencça de dados ruidosos. As bases do UCI, apresentam melhores resultados em relaçao às bases de Engenharia de Software. Isto pode ser explicado em funcao da natureza dos dados reais que costumam conter mais ruídos.
publishDate	2013
dc.date.accessioned.fl_str_mv	2013-09-11T12:20:31Z
dc.date.available.fl_str_mv	2013-09-11T12:20:31Z
dc.date.issued.fl_str_mv	2013-09-11
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1884/32025
url	http://hdl.handle.net/1884/32025
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/32025/1/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf https://acervodigital.ufpr.br/bitstream/1884/32025/2/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/32025/3/R%20-%20D%20-%20DAIANY%20FRANCISCA%20LARA.pdf.jpg
bitstream.checksum.fl_str_mv	1e0d13df94614d59dcbac5a624977fca 86e6e1042408e1ddaaa36fb639a2a54b 20ef82cbbe55bed1f1a27155019eaca2
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_	1797699084719489024

Estudos empíricos dos métodos de balanceamento para a classificação

Registros relacionados