Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/19284 |
Resumo: | Inducing a model capable of predicting a set of labels for an instance is the objective of multi-label classification, a supervised predictive machine learning task. Work in the literature has shown that identifying, modeling and exploring correlations between labels improves the predictive performance of multi-label classifiers. However, the traditional approaches, referred to here as global and local, used to solve multi-label classification problems may not be taking advantage of these correlations, as in both these correlations are not fully considered. In the global approach, all labels are learned at once and more specific information or correlations can be ignored, while in the local approach labels are learned individually, making correlation learning impractical. There are also works in the literature that show that the currently available multi-label datasets have a very low level of label dependence, and therefore exploring correlations is impractical, while others claim that learning the labels individually is the most compatible solution, and even works that recommend global approach methods as they generate a single, more compact model. In this work, a hybrid approach is proposed, which explores the advantages and tries to mitigate the disadvantages of traditional global and local approaches, which is called Hybrid Partitions for Multi-label Classification - \ac{HPML}. This approach aims to find several label partitions, which are composed of disjoint groups of correlated labels, here called hybrid partitions. Four experiments were conducted to test and validate the hypothesis with different versions of hybrid partitions, which were compared with the partitions generated by the global, local approach and also different random versions. In general, the experiments showed that it is possible to find a hybrid partition capable of improving the predictive performance of classifiers on various data sets and that traditional methods still fail to learn the labels as well as correctly deal with the correlations between labels. |
id |
SCAR_76fed31a691a91de348a2490409c9f1b |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/19284 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Gatto, Elaine CecíliaCerri, Ricardohttp://lattes.cnpq.br/6266519868438512Ferrandin, Maurihttp://lattes.cnpq.br/4132238007682356http://lattes.cnpq.br/8559022477811603https://orcid.org/0000-0002-3322-6407https://orcid.org/0000-0002-2582-1695https://orcid.org/0000-0002-4248-12072024-02-15T16:58:07Z2024-02-15T16:58:07Z2023-11-14GATTO, Elaine Cecília. Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19284.https://repositorio.ufscar.br/handle/ufscar/19284Inducing a model capable of predicting a set of labels for an instance is the objective of multi-label classification, a supervised predictive machine learning task. Work in the literature has shown that identifying, modeling and exploring correlations between labels improves the predictive performance of multi-label classifiers. However, the traditional approaches, referred to here as global and local, used to solve multi-label classification problems may not be taking advantage of these correlations, as in both these correlations are not fully considered. In the global approach, all labels are learned at once and more specific information or correlations can be ignored, while in the local approach labels are learned individually, making correlation learning impractical. There are also works in the literature that show that the currently available multi-label datasets have a very low level of label dependence, and therefore exploring correlations is impractical, while others claim that learning the labels individually is the most compatible solution, and even works that recommend global approach methods as they generate a single, more compact model. In this work, a hybrid approach is proposed, which explores the advantages and tries to mitigate the disadvantages of traditional global and local approaches, which is called Hybrid Partitions for Multi-label Classification - \ac{HPML}. This approach aims to find several label partitions, which are composed of disjoint groups of correlated labels, here called hybrid partitions. Four experiments were conducted to test and validate the hypothesis with different versions of hybrid partitions, which were compared with the partitions generated by the global, local approach and also different random versions. In general, the experiments showed that it is possible to find a hybrid partition capable of improving the predictive performance of classifiers on various data sets and that traditional methods still fail to learn the labels as well as correctly deal with the correlations between labels.Induzir um modelo capaz de predizer um conjunto de rótulos para uma instância é objetivo da classificação multirrótulo, uma tarefa preditiva supervisionada do aprendizado de máquina. Trabalhos na literatura têm mostrado que identificar, modelar e explorar as correlações entre rótulos, melhora o desempenho preditivo dos classificadores multirrótulo. No entanto, as abordagens tradicionais, chamadas aqui de global e local, usadas para solucionar problemas de classificação multirrótulo podem não estar tirando proveito dessas correlações, já que em ambas essas correlações não são totalmente consideradas. Na abordagem global, todos os rótulos são aprendidos de uma única vez e informações ou correlações mais específicas podem ser ignoradas, enquanto que na abordagem local os rótulos são aprendidos de forma individual, tornando o aprendizado de correlações impraticável. Também há na literatura trabalhos que mostram que os conjuntos de dados mutirrótulos disponíveis atualmente têm um nível de dependência de rótulos muito baixo, e por isso explorar as correlações é impraticável, enquanto outros afirmam que aprender os rótulos individualmente é a solução mais compatível, e ainda trabalhos que recomendam os métodos da abordagem global por gerarem um único modelo mais compacto. Neste trabalho é proposta uma abordagem híbrida, que explora as vantagens e tenta mitigar as desvantagens das tradicionais abordagens global e local, a qual é chamada aqui de \ac{HPML}. Essa abordagem tem como objetivo encontrar diversas partições de rótulos, que são compostas por grupos disjuntos de rótulos correlacionados, aqui chamadas de partições híbridas. Quatro experimentos foram conduzidos para testar e validar a hipótese com diferentes versões de partições híbridas, as quais foram comparadas com as partições geradas pela abordagem global, local e também diferentes versões aleatórias. De forma geral, os experimentos mostraram que é possível encontrar uma partição híbrida capaz de melhorar o desempenho preditivo dos classificadores em vários conjuntos de dados e que métodos tradicionais ainda falham em aprender os rótulos assim como também lidar corretamente com as correlações entre rótulos.Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Processo Número 001, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Processo Número 200371/2022-3, Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ)porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificação multirrótuloCorrelações entre rótulosParticionamento do espaço de rótulosPartições multirrótuloMultiLabel classificationLabel correlationsLabel space partitioningMultiLabel partitionsCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAlém do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótuloBeyond local and global learning: partitioning the class space in multi-label classification problemsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTese_Elaine_Gatto_Final.pdfTese_Elaine_Gatto_Final.pdfTese de Doutoradoapplication/pdf9951002https://repositorio.ufscar.br/bitstream/ufscar/19284/3/Tese_Elaine_Gatto_Final.pdf1f19d75f7199974094a079bee6c86a72MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/19284/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTTese_Elaine_Gatto_Final.pdf.txtTese_Elaine_Gatto_Final.pdf.txtExtracted texttext/plain522445https://repositorio.ufscar.br/bitstream/ufscar/19284/4/Tese_Elaine_Gatto_Final.pdf.txtf9f93511099e75563af46ce707429fb6MD54ufscar/192842024-05-14 17:31:38.066oai:repositorio.ufscar.br:ufscar/19284Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T17:31:38Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo |
dc.title.alternative.eng.fl_str_mv |
Beyond local and global learning: partitioning the class space in multi-label classification problems |
title |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo |
spellingShingle |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo Gatto, Elaine Cecília Classificação multirrótulo Correlações entre rótulos Particionamento do espaço de rótulos Partições multirrótulo MultiLabel classification Label correlations Label space partitioning MultiLabel partitions CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo |
title_full |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo |
title_fullStr |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo |
title_full_unstemmed |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo |
title_sort |
Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo |
author |
Gatto, Elaine Cecília |
author_facet |
Gatto, Elaine Cecília |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/8559022477811603 |
dc.contributor.authororcid.por.fl_str_mv |
https://orcid.org/0000-0002-3322-6407 |
dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0002-2582-1695 |
dc.contributor.advisor-co1orcid.por.fl_str_mv |
https://orcid.org/0000-0002-4248-1207 |
dc.contributor.author.fl_str_mv |
Gatto, Elaine Cecília |
dc.contributor.advisor1.fl_str_mv |
Cerri, Ricardo |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6266519868438512 |
dc.contributor.advisor-co1.fl_str_mv |
Ferrandin, Mauri |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/4132238007682356 |
contributor_str_mv |
Cerri, Ricardo Ferrandin, Mauri |
dc.subject.por.fl_str_mv |
Classificação multirrótulo Correlações entre rótulos Particionamento do espaço de rótulos Partições multirrótulo |
topic |
Classificação multirrótulo Correlações entre rótulos Particionamento do espaço de rótulos Partições multirrótulo MultiLabel classification Label correlations Label space partitioning MultiLabel partitions CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
MultiLabel classification Label correlations Label space partitioning MultiLabel partitions |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
Inducing a model capable of predicting a set of labels for an instance is the objective of multi-label classification, a supervised predictive machine learning task. Work in the literature has shown that identifying, modeling and exploring correlations between labels improves the predictive performance of multi-label classifiers. However, the traditional approaches, referred to here as global and local, used to solve multi-label classification problems may not be taking advantage of these correlations, as in both these correlations are not fully considered. In the global approach, all labels are learned at once and more specific information or correlations can be ignored, while in the local approach labels are learned individually, making correlation learning impractical. There are also works in the literature that show that the currently available multi-label datasets have a very low level of label dependence, and therefore exploring correlations is impractical, while others claim that learning the labels individually is the most compatible solution, and even works that recommend global approach methods as they generate a single, more compact model. In this work, a hybrid approach is proposed, which explores the advantages and tries to mitigate the disadvantages of traditional global and local approaches, which is called Hybrid Partitions for Multi-label Classification - \ac{HPML}. This approach aims to find several label partitions, which are composed of disjoint groups of correlated labels, here called hybrid partitions. Four experiments were conducted to test and validate the hypothesis with different versions of hybrid partitions, which were compared with the partitions generated by the global, local approach and also different random versions. In general, the experiments showed that it is possible to find a hybrid partition capable of improving the predictive performance of classifiers on various data sets and that traditional methods still fail to learn the labels as well as correctly deal with the correlations between labels. |
publishDate |
2023 |
dc.date.issued.fl_str_mv |
2023-11-14 |
dc.date.accessioned.fl_str_mv |
2024-02-15T16:58:07Z |
dc.date.available.fl_str_mv |
2024-02-15T16:58:07Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
GATTO, Elaine Cecília. Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19284. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/19284 |
identifier_str_mv |
GATTO, Elaine Cecília. Além do aprendizado local e global: particionando o espaço de classes em problemas de classificação multirrótulo. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19284. |
url |
https://repositorio.ufscar.br/handle/ufscar/19284 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/19284/3/Tese_Elaine_Gatto_Final.pdf https://repositorio.ufscar.br/bitstream/ufscar/19284/2/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/19284/4/Tese_Elaine_Gatto_Final.pdf.txt |
bitstream.checksum.fl_str_mv |
1f19d75f7199974094a079bee6c86a72 f337d95da1fce0a22c77480e5e9a7aec f9f93511099e75563af46ce707429fb6 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715674475790336 |