Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo

Detalhes bibliográficos
Autor(a) principal: Gatto, Elaine Cecília
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/19284
Resumo: Inducing a model capable of predicting a set of labels for an instance is the objective of multi-label classification, a supervised predictive machine learning task. Work in the literature has shown that identifying, modeling and exploring correlations between labels improves the predictive performance of multi-label classifiers. However, the traditional approaches, referred to here as global and local, used to solve multi-label classification problems may not be taking advantage of these correlations, as in both these correlations are not fully considered. In the global approach, all labels are learned at once and more specific information or correlations can be ignored, while in the local approach labels are learned individually, making correlation learning impractical. There are also works in the literature that show that the currently available multi-label datasets have a very low level of label dependence, and therefore exploring correlations is impractical, while others claim that learning the labels individually is the most compatible solution, and even works that recommend global approach methods as they generate a single, more compact model. In this work, a hybrid approach is proposed, which explores the advantages and tries to mitigate the disadvantages of traditional global and local approaches, which is called Hybrid Partitions for Multi-label Classification - \ac{HPML}. This approach aims to find several label partitions, which are composed of disjoint groups of correlated labels, here called hybrid partitions. Four experiments were conducted to test and validate the hypothesis with different versions of hybrid partitions, which were compared with the partitions generated by the global, local approach and also different random versions. In general, the experiments showed that it is possible to find a hybrid partition capable of improving the predictive performance of classifiers on various data sets and that traditional methods still fail to learn the labels as well as correctly deal with the correlations between labels.
id SCAR_76fed31a691a91de348a2490409c9f1b
oai_identifier_str oai:repositorio.ufscar.br:ufscar/19284
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Gatto, Elaine CecíliaCerri, Ricardohttp://lattes.cnpq.br/6266519868438512Ferrandin, Maurihttp://lattes.cnpq.br/4132238007682356http://lattes.cnpq.br/8559022477811603https://orcid.org/0000-0002-3322-6407https://orcid.org/0000-0002-2582-1695https://orcid.org/0000-0002-4248-12072024-02-15T16:58:07Z2024-02-15T16:58:07Z2023-11-14GATTO, Elaine Cecília. Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19284.https://repositorio.ufscar.br/handle/ufscar/19284Inducing a model capable of predicting a set of labels for an instance is the objective of multi-label classification, a supervised predictive machine learning task. Work in the literature has shown that identifying, modeling and exploring correlations between labels improves the predictive performance of multi-label classifiers. However, the traditional approaches, referred to here as global and local, used to solve multi-label classification problems may not be taking advantage of these correlations, as in both these correlations are not fully considered. In the global approach, all labels are learned at once and more specific information or correlations can be ignored, while in the local approach labels are learned individually, making correlation learning impractical. There are also works in the literature that show that the currently available multi-label datasets have a very low level of label dependence, and therefore exploring correlations is impractical, while others claim that learning the labels individually is the most compatible solution, and even works that recommend global approach methods as they generate a single, more compact model. In this work, a hybrid approach is proposed, which explores the advantages and tries to mitigate the disadvantages of traditional global and local approaches, which is called Hybrid Partitions for Multi-label Classification - \ac{HPML}. This approach aims to find several label partitions, which are composed of disjoint groups of correlated labels, here called hybrid partitions. Four experiments were conducted to test and validate the hypothesis with different versions of hybrid partitions, which were compared with the partitions generated by the global, local approach and also different random versions. In general, the experiments showed that it is possible to find a hybrid partition capable of improving the predictive performance of classifiers on various data sets and that traditional methods still fail to learn the labels as well as correctly deal with the correlations between labels.Induzir um modelo capaz de predizer um conjunto de rótulos para uma instância é objetivo da classificação multirrótulo, uma tarefa preditiva supervisionada do aprendizado de máquina. Trabalhos na literatura têm mostrado que identificar, modelar e explorar as correlações entre rótulos, melhora o desempenho preditivo dos classificadores multirrótulo. No entanto, as abordagens tradicionais, chamadas aqui de global e local, usadas para solucionar problemas de classificação multirrótulo podem não estar tirando proveito dessas correlações, já que em ambas essas correlações não são totalmente consideradas. Na abordagem global, todos os rótulos são aprendidos de uma única vez e informações ou correlações mais específicas podem ser ignoradas, enquanto que na abordagem local os rótulos são aprendidos de forma individual, tornando o aprendizado de correlações impraticável. Também há na literatura trabalhos que mostram que os conjuntos de dados mutirrótulos disponíveis atualmente têm um nível de dependência de rótulos muito baixo, e por isso explorar as correlações é impraticável, enquanto outros afirmam que aprender os rótulos individualmente é a solução mais compatível, e ainda trabalhos que recomendam os métodos da abordagem global por gerarem um único modelo mais compacto. Neste trabalho é proposta uma abordagem híbrida, que explora as vantagens e tenta mitigar as desvantagens das tradicionais abordagens global e local, a qual é chamada aqui de \ac{HPML}. Essa abordagem tem como objetivo encontrar diversas partições de rótulos, que são compostas por grupos disjuntos de rótulos correlacionados, aqui chamadas de partições híbridas. Quatro experimentos foram conduzidos para testar e validar a hipótese com diferentes versões de partições híbridas, as quais foram comparadas com as partições geradas pela abordagem global, local e também diferentes versões aleatórias. De forma geral, os experimentos mostraram que é possível encontrar uma partição híbrida capaz de melhorar o desempenho preditivo dos classificadores em vários conjuntos de dados e que métodos tradicionais ainda falham em aprender os rótulos assim como também lidar corretamente com as correlações entre rótulos.Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Processo Número 001, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Processo Número 200371/2022-3, Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ)porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificação multirrótuloCorrelações entre rótulosParticionamento do espaço de rótulosPartições multirrótuloMultiLabel classificationLabel correlationsLabel space partitioningMultiLabel partitionsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAlém do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótuloBeyond local and global learning: partitioning the class space in multi-label classification problemsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTese_Elaine_Gatto_Final.pdfTese_Elaine_Gatto_Final.pdfTese de Doutoradoapplication/pdf9951002https://repositorio.ufscar.br/bitstream/ufscar/19284/3/Tese_Elaine_Gatto_Final.pdf1f19d75f7199974094a079bee6c86a72MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/19284/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTTese_Elaine_Gatto_Final.pdf.txtTese_Elaine_Gatto_Final.pdf.txtExtracted texttext/plain522445https://repositorio.ufscar.br/bitstream/ufscar/19284/4/Tese_Elaine_Gatto_Final.pdf.txtf9f93511099e75563af46ce707429fb6MD54ufscar/192842024-05-14 17:31:38.066oai:repositorio.ufscar.br:ufscar/19284Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T17:31:38Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
dc.title.alternative.eng.fl_str_mv Beyond local and global learning: partitioning the class space in multi-label classification problems
title Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
spellingShingle Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
Gatto, Elaine Cecília
Classificação multirrótulo
Correlações entre rótulos
Particionamento do espaço de rótulos
Partições multirrótulo
MultiLabel classification
Label correlations
Label space partitioning
MultiLabel partitions
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
title_full Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
title_fullStr Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
title_full_unstemmed Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
title_sort Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
author Gatto, Elaine Cecília
author_facet Gatto, Elaine Cecília
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/8559022477811603
dc.contributor.authororcid.por.fl_str_mv https://orcid.org/0000-0002-3322-6407
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0002-2582-1695
dc.contributor.advisor-co1orcid.por.fl_str_mv https://orcid.org/0000-0002-4248-1207
dc.contributor.author.fl_str_mv Gatto, Elaine Cecília
dc.contributor.advisor1.fl_str_mv Cerri, Ricardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6266519868438512
dc.contributor.advisor-co1.fl_str_mv Ferrandin, Mauri
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/4132238007682356
contributor_str_mv Cerri, Ricardo
Ferrandin, Mauri
dc.subject.por.fl_str_mv Classificação multirrótulo
Correlações entre rótulos
Particionamento do espaço de rótulos
Partições multirrótulo
topic Classificação multirrótulo
Correlações entre rótulos
Particionamento do espaço de rótulos
Partições multirrótulo
MultiLabel classification
Label correlations
Label space partitioning
MultiLabel partitions
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv MultiLabel classification
Label correlations
Label space partitioning
MultiLabel partitions
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Inducing a model capable of predicting a set of labels for an instance is the objective of multi-label classification, a supervised predictive machine learning task. Work in the literature has shown that identifying, modeling and exploring correlations between labels improves the predictive performance of multi-label classifiers. However, the traditional approaches, referred to here as global and local, used to solve multi-label classification problems may not be taking advantage of these correlations, as in both these correlations are not fully considered. In the global approach, all labels are learned at once and more specific information or correlations can be ignored, while in the local approach labels are learned individually, making correlation learning impractical. There are also works in the literature that show that the currently available multi-label datasets have a very low level of label dependence, and therefore exploring correlations is impractical, while others claim that learning the labels individually is the most compatible solution, and even works that recommend global approach methods as they generate a single, more compact model. In this work, a hybrid approach is proposed, which explores the advantages and tries to mitigate the disadvantages of traditional global and local approaches, which is called Hybrid Partitions for Multi-label Classification - \ac{HPML}. This approach aims to find several label partitions, which are composed of disjoint groups of correlated labels, here called hybrid partitions. Four experiments were conducted to test and validate the hypothesis with different versions of hybrid partitions, which were compared with the partitions generated by the global, local approach and also different random versions. In general, the experiments showed that it is possible to find a hybrid partition capable of improving the predictive performance of classifiers on various data sets and that traditional methods still fail to learn the labels as well as correctly deal with the correlations between labels.
publishDate 2023
dc.date.issued.fl_str_mv 2023-11-14
dc.date.accessioned.fl_str_mv 2024-02-15T16:58:07Z
dc.date.available.fl_str_mv 2024-02-15T16:58:07Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GATTO, Elaine Cecília. Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19284.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/19284
identifier_str_mv GATTO, Elaine Cecília. Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19284.
url https://repositorio.ufscar.br/handle/ufscar/19284
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/19284/3/Tese_Elaine_Gatto_Final.pdf
https://repositorio.ufscar.br/bitstream/ufscar/19284/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/19284/4/Tese_Elaine_Gatto_Final.pdf.txt
bitstream.checksum.fl_str_mv 1f19d75f7199974094a079bee6c86a72
f337d95da1fce0a22c77480e5e9a7aec
f9f93511099e75563af46ce707429fb6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1813715674475790336