Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU) |
Texto Completo: | https://repositorio.ufersa.edu.br/handle/prefix/5549 |
Resumo: | In the field of machine learning, multi-label classification is a variant of the classification problem in which multiple labels may be associated with each instance. Multi-label classification requires classification algorithms which need the use of measures to evaluate their performance. In the literature of machine learning, it was not found studies which point to the existence of correlations between performance measures for multi-label classifiers. Such studies are important because they can assist researchers in the field in order to support decision making on which algorithms may be chosen or considered for certain problem transformation approaches. In this context, this thesis presents a study of performance measures for multi-label classification algorithms and their correlations. The main goal of this research was to identify correlations between the performance measures for multi-label classifiers. In order to reach the main goal, it was necessary to use: ten multi-label datasets; five problem transformation approaches (BR, CC, LP, PS, and RAkEL); five base classifiers (J48, KNN, NB, SVM, and RIPPER); and, twelve performance measures (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS, e RLoss). The machine learning validation technique used for experiments was the 10-fold cross-validation. In order to run experiments and calculate performance measures, the JAVA programming language and the MULAN library was used. Correlations were calculated by both Pearson's and Spearman's correlation coefficients. After analyzing the results, it was possible to conclude that there are as linear as non-linear correlations between the selected performance measures. Thus, all correlations found made it possible to identify classification algorithms which are more suitable to be used together with the problem transformation approaches in experiments related to multi-label classification problems |
id |
UFER_b207d19a6cfa2365a95cda837a65ed83 |
---|---|
oai_identifier_str |
oai:repositorio.ufersa.edu.br:prefix/5549 |
network_acronym_str |
UFER |
network_name_str |
Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU) |
repository_id_str |
|
spelling |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótuloMétricas de Avaliação de DesempenhoMétodos de Transformação do ProblemaClassificadores MultirrótuloCorrelação de PearsonCorrelação de SpearmanPerformance MeasuresCorrelation AnalysisPearson Correlation CoefficientSpearman Correlation Coefficient.Multi-label ClassificationCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOIn the field of machine learning, multi-label classification is a variant of the classification problem in which multiple labels may be associated with each instance. Multi-label classification requires classification algorithms which need the use of measures to evaluate their performance. In the literature of machine learning, it was not found studies which point to the existence of correlations between performance measures for multi-label classifiers. Such studies are important because they can assist researchers in the field in order to support decision making on which algorithms may be chosen or considered for certain problem transformation approaches. In this context, this thesis presents a study of performance measures for multi-label classification algorithms and their correlations. The main goal of this research was to identify correlations between the performance measures for multi-label classifiers. In order to reach the main goal, it was necessary to use: ten multi-label datasets; five problem transformation approaches (BR, CC, LP, PS, and RAkEL); five base classifiers (J48, KNN, NB, SVM, and RIPPER); and, twelve performance measures (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS, e RLoss). The machine learning validation technique used for experiments was the 10-fold cross-validation. In order to run experiments and calculate performance measures, the JAVA programming language and the MULAN library was used. Correlations were calculated by both Pearson's and Spearman's correlation coefficients. After analyzing the results, it was possible to conclude that there are as linear as non-linear correlations between the selected performance measures. Thus, all correlations found made it possible to identify classification algorithms which are more suitable to be used together with the problem transformation approaches in experiments related to multi-label classification problemsA classificação multirrótulo é uma tarefa de aprendizado de máquina em que objetos podem estar associados a mais de uma classe. É uma tarefa que necessita de algoritmos de classificação os quais requerem a utilização de métricas para avaliar o desempenho. Na literatura de aprendizado de máquina não foram identificados estudos na área os quais apontam a existência de correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. Tais estudos são importantes, pois podem auxiliar os pesquisadores da área no suporte a tomada de decisão sobre quais algoritmos podem ser escolhidos ou considerados para determinados métodos de transformação do problema. Neste contexto, este trabalho apresenta um estudo sobre as métricas de avaliação de desempenho dos algoritmos de classificação multirrótulo e as correlações existentes entre elas. O objetivo principal desta pesquisa foi identificar as correlações entre as métricas de avaliação de desempenho dos classificadores multirrótulo. Para que o objetivo fosse atingido foram utilizadas dez bases de dados multirrótulo; cinco métodos de transformação do problema multirrótulo para monorrótulo (BR, CC, LP, PS e RAkEL); cinco classificadores base (J48, KNN, NB, SVM e RIPPER); e doze métricas de avaliação de desempenho (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS e RLoss). A metodologia de validação utilizada foi a validação cruzada com dez folds. Para a execução dos experimentos e o cálculo das métricas, a linguagem de programação JAVA e a biblioteca MULAN foram utilizadas. As correlações foram calculadas por meio dos coeficientes de correlação linear de Pearson e de correlação não linear de Spearman. Após a análise dos resultados, foi possível concluir que existem tanto correlações lineares quanto correlações não lineares entre as métricas selecionadas. As correlações encontradas possibilitaram identificar potenciais algoritmos de classificação os quais são mais apropriados para serem utilizados juntamente com os métodos de transformação do problemaCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal Rural do Semi-ÁridoBrasilCentro de Ciências Exatas e Naturais - CCENUFERSAPrograma de Pós-Graduação em Ciência da ComputaçãoSilva, Patrício de Alencar01032302461http://lattes.cnpq.br/1271566719998197Cintra, Marcos Evandro14958447814http://lattes.cnpq.br/5487485901076598Winck, 82019274000Nascimento Junior, Serafim do2020-09-30T10:42:55Z2020-09-302020-09-30T10:42:55Z2020-05-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfNascimento Junior (2020) (NASCIMENTO JUNIOR, 2020)https://repositorio.ufersa.edu.br/handle/prefix/5549porNASCIMENTO JUNIOR, Serafim do. Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. 2020. 320 f. Tese (Doutorado em Ciência da Computação), Universidade Federal Rural do Semi-Árido, Mossoró, 2020.CC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU)instname:Universidade Federal Rural do Semi-Árido (UFERSA)instacron:UFERSA2023-10-30T20:28:33Zoai:repositorio.ufersa.edu.br:prefix/5549Repositório Institucionalhttps://repositorio.ufersa.edu.br/PUBhttps://repositorio.ufersa.edu.br/server/oai/requestrepositorio@ufersa.edu.br || admrepositorio@ufersa.edu.bropendoar:2023-10-30T20:28:33Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU) - Universidade Federal Rural do Semi-Árido (UFERSA)false |
dc.title.none.fl_str_mv |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo |
title |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo |
spellingShingle |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo Nascimento Junior, Serafim do Métricas de Avaliação de Desempenho Métodos de Transformação do Problema Classificadores Multirrótulo Correlação de Pearson Correlação de Spearman Performance Measures Correlation Analysis Pearson Correlation Coefficient Spearman Correlation Coefficient. Multi-label Classification CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo |
title_full |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo |
title_fullStr |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo |
title_full_unstemmed |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo |
title_sort |
Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo |
author |
Nascimento Junior, Serafim do |
author_facet |
Nascimento Junior, Serafim do |
author_role |
author |
dc.contributor.none.fl_str_mv |
Silva, Patrício de Alencar 01032302461 http://lattes.cnpq.br/1271566719998197 Cintra, Marcos Evandro 14958447814 http://lattes.cnpq.br/5487485901076598 Winck, 82019274000 |
dc.contributor.author.fl_str_mv |
Nascimento Junior, Serafim do |
dc.subject.por.fl_str_mv |
Métricas de Avaliação de Desempenho Métodos de Transformação do Problema Classificadores Multirrótulo Correlação de Pearson Correlação de Spearman Performance Measures Correlation Analysis Pearson Correlation Coefficient Spearman Correlation Coefficient. Multi-label Classification CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
Métricas de Avaliação de Desempenho Métodos de Transformação do Problema Classificadores Multirrótulo Correlação de Pearson Correlação de Spearman Performance Measures Correlation Analysis Pearson Correlation Coefficient Spearman Correlation Coefficient. Multi-label Classification CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
In the field of machine learning, multi-label classification is a variant of the classification problem in which multiple labels may be associated with each instance. Multi-label classification requires classification algorithms which need the use of measures to evaluate their performance. In the literature of machine learning, it was not found studies which point to the existence of correlations between performance measures for multi-label classifiers. Such studies are important because they can assist researchers in the field in order to support decision making on which algorithms may be chosen or considered for certain problem transformation approaches. In this context, this thesis presents a study of performance measures for multi-label classification algorithms and their correlations. The main goal of this research was to identify correlations between the performance measures for multi-label classifiers. In order to reach the main goal, it was necessary to use: ten multi-label datasets; five problem transformation approaches (BR, CC, LP, PS, and RAkEL); five base classifiers (J48, KNN, NB, SVM, and RIPPER); and, twelve performance measures (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS, e RLoss). The machine learning validation technique used for experiments was the 10-fold cross-validation. In order to run experiments and calculate performance measures, the JAVA programming language and the MULAN library was used. Correlations were calculated by both Pearson's and Spearman's correlation coefficients. After analyzing the results, it was possible to conclude that there are as linear as non-linear correlations between the selected performance measures. Thus, all correlations found made it possible to identify classification algorithms which are more suitable to be used together with the problem transformation approaches in experiments related to multi-label classification problems |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-09-30T10:42:55Z 2020-09-30 2020-09-30T10:42:55Z 2020-05-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
Nascimento Junior (2020) (NASCIMENTO JUNIOR, 2020) https://repositorio.ufersa.edu.br/handle/prefix/5549 |
identifier_str_mv |
Nascimento Junior (2020) (NASCIMENTO JUNIOR, 2020) |
url |
https://repositorio.ufersa.edu.br/handle/prefix/5549 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
NASCIMENTO JUNIOR, Serafim do. Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. 2020. 320 f. Tese (Doutorado em Ciência da Computação), Universidade Federal Rural do Semi-Árido, Mossoró, 2020. |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal Rural do Semi-Árido Brasil Centro de Ciências Exatas e Naturais - CCEN UFERSA Programa de Pós-Graduação em Ciência da Computação |
publisher.none.fl_str_mv |
Universidade Federal Rural do Semi-Árido Brasil Centro de Ciências Exatas e Naturais - CCEN UFERSA Programa de Pós-Graduação em Ciência da Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU) instname:Universidade Federal Rural do Semi-Árido (UFERSA) instacron:UFERSA |
instname_str |
Universidade Federal Rural do Semi-Árido (UFERSA) |
instacron_str |
UFERSA |
institution |
UFERSA |
reponame_str |
Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU) |
collection |
Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU) |
repository.name.fl_str_mv |
Repositório Digital da Universidade Federal Rural do Semi-Árido (RDU) - Universidade Federal Rural do Semi-Árido (UFERSA) |
repository.mail.fl_str_mv |
repositorio@ufersa.edu.br || admrepositorio@ufersa.edu.br |
_version_ |
1809747484233170944 |