Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo

Detalhes bibliográficos
Autor(a) principal: Nascimento Junior, Serafim do
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFERSA
Texto Completo: https://repositorio.ufersa.edu.br/handle/prefix/5549
Resumo: A classificação multirrótulo é uma tarefa de aprendizado de máquina em que objetos podem estar associados a mais de uma classe. É uma tarefa que necessita de algoritmos de classificação os quais requerem a utilização de métricas para avaliar o desempenho. Na literatura de aprendizado de máquina não foram identificados estudos na área os quais apontam a existência de correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. Tais estudos são importantes, pois podem auxiliar os pesquisadores da área no suporte a tomada de decisão sobre quais algoritmos podem ser escolhidos ou considerados para determinados métodos de transformação do problema. Neste contexto, este trabalho apresenta um estudo sobre as métricas de avaliação de desempenho dos algoritmos de classificação multirrótulo e as correlações existentes entre elas. O objetivo principal desta pesquisa foi identificar as correlações entre as métricas de avaliação de desempenho dos classificadores multirrótulo. Para que o objetivo fosse atingido foram utilizadas dez bases de dados multirrótulo; cinco métodos de transformação do problema multirrótulo para monorrótulo (BR, CC, LP, PS e RAkEL); cinco classificadores base (J48, KNN, NB, SVM e RIPPER); e doze métricas de avaliação de desempenho (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS e RLoss). A metodologia de validação utilizada foi a validação cruzada com dez folds. Para a execução dos experimentos e o cálculo das métricas, a linguagem de programação JAVA e a biblioteca MULAN foram utilizadas. As correlações foram calculadas por meio dos coeficientes de correlação linear de Pearson e de correlação não linear de Spearman. Após a análise dos resultados, foi possível concluir que existem tanto correlações lineares quanto correlações não lineares entre as métricas selecionadas. As correlações encontradas possibilitaram identificar potenciais algoritmos de classificação os quais são mais apropriados para serem utilizados juntamente com os métodos de transformação do problema
id UFER_b207d19a6cfa2365a95cda837a65ed83
oai_identifier_str oai:repositorio.ufersa.edu.br:prefix/5549
network_acronym_str UFER
network_name_str Biblioteca Digital de Teses e Dissertações da UFERSA
repository_id_str
spelling Silva, Patrício de Alencarhttp://lattes.cnpq.br/1271566719998197Cintra, Marcos Evandrohttp://lattes.cnpq.br/5487485901076598Winck, 82019274000http://lattes.cnpq.br/6584491328381725Nascimento Junior, Serafim do2020-09-30T10:42:55Z2020-09-302020-09-30T10:42:55Z2020-05-28Nascimento Junior (2020) (NASCIMENTO JUNIOR, 2020)https://repositorio.ufersa.edu.br/handle/prefix/5549A classificação multirrótulo é uma tarefa de aprendizado de máquina em que objetos podem estar associados a mais de uma classe. É uma tarefa que necessita de algoritmos de classificação os quais requerem a utilização de métricas para avaliar o desempenho. Na literatura de aprendizado de máquina não foram identificados estudos na área os quais apontam a existência de correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. Tais estudos são importantes, pois podem auxiliar os pesquisadores da área no suporte a tomada de decisão sobre quais algoritmos podem ser escolhidos ou considerados para determinados métodos de transformação do problema. Neste contexto, este trabalho apresenta um estudo sobre as métricas de avaliação de desempenho dos algoritmos de classificação multirrótulo e as correlações existentes entre elas. O objetivo principal desta pesquisa foi identificar as correlações entre as métricas de avaliação de desempenho dos classificadores multirrótulo. Para que o objetivo fosse atingido foram utilizadas dez bases de dados multirrótulo; cinco métodos de transformação do problema multirrótulo para monorrótulo (BR, CC, LP, PS e RAkEL); cinco classificadores base (J48, KNN, NB, SVM e RIPPER); e doze métricas de avaliação de desempenho (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS e RLoss). A metodologia de validação utilizada foi a validação cruzada com dez folds. Para a execução dos experimentos e o cálculo das métricas, a linguagem de programação JAVA e a biblioteca MULAN foram utilizadas. As correlações foram calculadas por meio dos coeficientes de correlação linear de Pearson e de correlação não linear de Spearman. Após a análise dos resultados, foi possível concluir que existem tanto correlações lineares quanto correlações não lineares entre as métricas selecionadas. As correlações encontradas possibilitaram identificar potenciais algoritmos de classificação os quais são mais apropriados para serem utilizados juntamente com os métodos de transformação do problemaIn the field of machine learning, multi-label classification is a variant of the classification problem in which multiple labels may be associated with each instance. Multi-label classification requires classification algorithms which need the use of measures to evaluate their performance. In the literature of machine learning, it was not found studies which point to the existence of correlations between performance measures for multi-label classifiers. Such studies are important because they can assist researchers in the field in order to support decision making on which algorithms may be chosen or considered for certain problem transformation approaches. In this context, this thesis presents a study of performance measures for multi-label classification algorithms and their correlations. The main goal of this research was to identify correlations between the performance measures for multi-label classifiers. In order to reach the main goal, it was necessary to use: ten multi-label datasets; five problem transformation approaches (BR, CC, LP, PS, and RAkEL); five base classifiers (J48, KNN, NB, SVM, and RIPPER); and, twelve performance measures (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS, e RLoss). The machine learning validation technique used for experiments was the 10-fold cross-validation. In order to run experiments and calculate performance measures, the JAVA programming language and the MULAN library was used. Correlations were calculated by both Pearson's and Spearman's correlation coefficients. After analyzing the results, it was possible to conclude that there are as linear as non-linear correlations between the selected performance measures. Thus, all correlations found made it possible to identify classification algorithms which are more suitable to be used together with the problem transformation approaches in experiments related to multi-label classification problemsCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESporUniversidade Federal Rural do Semi-ÁridoPrograma de Pós-Graduação em Ciência da ComputaçãoUFERSABrasilCentro de Ciências Exatas e Naturais - CCENNASCIMENTO JUNIOR, Serafim do. Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. 2020. 320 f. Tese (Doutorado em Ciência da Computação), Universidade Federal Rural do Semi-Árido, Mossoró, 2020.CC-BY-SAinfo:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOMétricas de Avaliação de DesempenhoMétodos de Transformação do ProblemaClassificadores MultirrótuloCorrelação de PearsonCorrelação de SpearmanPerformance MeasuresCorrelation AnalysisPearson Correlation CoefficientSpearman Correlation Coefficient.Multi-label ClassificationAnálise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótuloinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações da UFERSAinstname:Universidade Federal Rural do Semi-Árido (UFERSA)instacron:UFERSATEXTSerafimNJ_DISSERT.pdf.txtSerafimNJ_DISSERT.pdf.txtExtracted texttext/plain868760https://repositorio.ufersa.edu.br//bitstream/prefix/5549/3/SerafimNJ_DISSERT.pdf.txtb0ea8c197d4c566f66c9dbeb5c86286bMD53THUMBNAILSerafimNJ_DISSERT.pdf.jpgSerafimNJ_DISSERT.pdf.jpgGenerated Thumbnailimage/jpeg1303https://repositorio.ufersa.edu.br//bitstream/prefix/5549/4/SerafimNJ_DISSERT.pdf.jpg54dacb71e80364627908551eb5a2e6f3MD54ORIGINALSerafimNJ_DISSERT.pdfSerafimNJ_DISSERT.pdfapplication/pdf2775475https://repositorio.ufersa.edu.br//bitstream/prefix/5549/1/SerafimNJ_DISSERT.pdfc3b1c4e982f2134f9da67d12965750beMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://repositorio.ufersa.edu.br//bitstream/prefix/5549/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52prefix/55492022-07-12 13:35:12.14oai:repositorio.ufersa.edu.br:prefix/5549TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufersa.edu.br/PUBhttp://bdtd.ufersa.edu.br/oai/requestdirecaosisbi@ufersa.edu.br|| direcaosisbi@ufersa.edu.bropendoar:2022-07-12T16:35:12Biblioteca Digital de Teses e Dissertações da UFERSA - Universidade Federal Rural do Semi-Árido (UFERSA)false
dc.title.pt_BR.fl_str_mv Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
title Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
spellingShingle Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
Nascimento Junior, Serafim do
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Métricas de Avaliação de Desempenho
Métodos de Transformação do Problema
Classificadores Multirrótulo
Correlação de Pearson
Correlação de Spearman
Performance Measures
Correlation Analysis
Pearson Correlation Coefficient
Spearman Correlation Coefficient.
Multi-label Classification
title_short Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
title_full Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
title_fullStr Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
title_full_unstemmed Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
title_sort Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo
author Nascimento Junior, Serafim do
author_facet Nascimento Junior, Serafim do
author_role author
dc.contributor.advisor1.fl_str_mv Silva, Patrício de Alencar
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1271566719998197
dc.contributor.referee1.fl_str_mv Cintra, Marcos Evandro
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/5487485901076598
dc.contributor.referee2.fl_str_mv Winck, 82019274000
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6584491328381725
dc.contributor.author.fl_str_mv Nascimento Junior, Serafim do
contributor_str_mv Silva, Patrício de Alencar
Cintra, Marcos Evandro
Winck, 82019274000
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Métricas de Avaliação de Desempenho
Métodos de Transformação do Problema
Classificadores Multirrótulo
Correlação de Pearson
Correlação de Spearman
Performance Measures
Correlation Analysis
Pearson Correlation Coefficient
Spearman Correlation Coefficient.
Multi-label Classification
dc.subject.por.fl_str_mv Métricas de Avaliação de Desempenho
Métodos de Transformação do Problema
Classificadores Multirrótulo
Correlação de Pearson
Correlação de Spearman
dc.subject.eng.fl_str_mv Performance Measures
Correlation Analysis
Pearson Correlation Coefficient
Spearman Correlation Coefficient.
Multi-label Classification
description A classificação multirrótulo é uma tarefa de aprendizado de máquina em que objetos podem estar associados a mais de uma classe. É uma tarefa que necessita de algoritmos de classificação os quais requerem a utilização de métricas para avaliar o desempenho. Na literatura de aprendizado de máquina não foram identificados estudos na área os quais apontam a existência de correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. Tais estudos são importantes, pois podem auxiliar os pesquisadores da área no suporte a tomada de decisão sobre quais algoritmos podem ser escolhidos ou considerados para determinados métodos de transformação do problema. Neste contexto, este trabalho apresenta um estudo sobre as métricas de avaliação de desempenho dos algoritmos de classificação multirrótulo e as correlações existentes entre elas. O objetivo principal desta pesquisa foi identificar as correlações entre as métricas de avaliação de desempenho dos classificadores multirrótulo. Para que o objetivo fosse atingido foram utilizadas dez bases de dados multirrótulo; cinco métodos de transformação do problema multirrótulo para monorrótulo (BR, CC, LP, PS e RAkEL); cinco classificadores base (J48, KNN, NB, SVM e RIPPER); e doze métricas de avaliação de desempenho (HLoss, SAcc, Prec, Rec, FM, Acc, AvPrec, Cov, 1-Err, IsErr, ErrSS e RLoss). A metodologia de validação utilizada foi a validação cruzada com dez folds. Para a execução dos experimentos e o cálculo das métricas, a linguagem de programação JAVA e a biblioteca MULAN foram utilizadas. As correlações foram calculadas por meio dos coeficientes de correlação linear de Pearson e de correlação não linear de Spearman. Após a análise dos resultados, foi possível concluir que existem tanto correlações lineares quanto correlações não lineares entre as métricas selecionadas. As correlações encontradas possibilitaram identificar potenciais algoritmos de classificação os quais são mais apropriados para serem utilizados juntamente com os métodos de transformação do problema
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-09-30T10:42:55Z
dc.date.available.fl_str_mv 2020-09-30
2020-09-30T10:42:55Z
dc.date.issued.fl_str_mv 2020-05-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Nascimento Junior (2020) (NASCIMENTO JUNIOR, 2020)
dc.identifier.uri.fl_str_mv https://repositorio.ufersa.edu.br/handle/prefix/5549
identifier_str_mv Nascimento Junior (2020) (NASCIMENTO JUNIOR, 2020)
url https://repositorio.ufersa.edu.br/handle/prefix/5549
dc.language.iso.fl_str_mv por
language por
dc.relation.references.pt_BR.fl_str_mv NASCIMENTO JUNIOR, Serafim do. Análise das correlações entre as métricas de avaliação de desempenho de classificadores multirrótulo. 2020. 320 f. Tese (Doutorado em Ciência da Computação), Universidade Federal Rural do Semi-Árido, Mossoró, 2020.
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal Rural do Semi-Árido
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFERSA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Ciências Exatas e Naturais - CCEN
publisher.none.fl_str_mv Universidade Federal Rural do Semi-Árido
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFERSA
instname:Universidade Federal Rural do Semi-Árido (UFERSA)
instacron:UFERSA
instname_str Universidade Federal Rural do Semi-Árido (UFERSA)
instacron_str UFERSA
institution UFERSA
reponame_str Biblioteca Digital de Teses e Dissertações da UFERSA
collection Biblioteca Digital de Teses e Dissertações da UFERSA
bitstream.url.fl_str_mv https://repositorio.ufersa.edu.br//bitstream/prefix/5549/3/SerafimNJ_DISSERT.pdf.txt
https://repositorio.ufersa.edu.br//bitstream/prefix/5549/4/SerafimNJ_DISSERT.pdf.jpg
https://repositorio.ufersa.edu.br//bitstream/prefix/5549/1/SerafimNJ_DISSERT.pdf
https://repositorio.ufersa.edu.br//bitstream/prefix/5549/2/license.txt
bitstream.checksum.fl_str_mv b0ea8c197d4c566f66c9dbeb5c86286b
54dacb71e80364627908551eb5a2e6f3
c3b1c4e982f2134f9da67d12965750be
43cd690d6a359e86c1fe3d5b7cba0c9b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFERSA - Universidade Federal Rural do Semi-Árido (UFERSA)
repository.mail.fl_str_mv direcaosisbi@ufersa.edu.br|| direcaosisbi@ufersa.edu.br
_version_ 1766778974998888448