Automated Multi-Label Classification: Methods, Issues and Prospects

Detalhes bibliográficos
Autor(a) principal: Alex Guimarães Cardoso de Sá
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: eng
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/58601
https://orcid.org/0000-0002-7276-7839
Resumo: Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.
id UFMG_0527d08363afef87f5eab1f1b3b08967
oai_identifier_str oai:repositorio.ufmg.br:1843/58601
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Gisele Lobo Pappahttp://lattes.cnpq.br/5936682335701497André Carlos Ponce de Leon Ferreira de CarvalhoLuiz Henrique de Campos MerschmannAdriano César Machado PereiraRenato Vimieirohttp://lattes.cnpq.br/5790948729956103Alex Guimarães Cardoso de Sá2023-09-12T21:17:12Z2023-09-12T21:17:12Z2019-12-17http://hdl.handle.net/1843/58601https://orcid.org/0000-0002-7276-7839Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.Automated Machine Learning (AutoML) has emerged to deal with the task of automatically selecting learning algorithms and their hyper-parameters to successfully solve a given ML problem. This is mainly done to avoid ad hoc approaches to perform this task. With the outgrowing popularity of Machine Learning (ML) algorithms and their indiscriminate use by practitioners, who do not necessarily know the peculiarities of these algorithms, the field of AutoML has become more relevant than ever. This thesis, in particular, is centered on AutoML for Multi-Label Classification (MLC) problems. In MLC, each example in the dataset can be simultaneously associated with several class labels, making it a generalization of its canonical single-label version (i.e., with a single class label per example). Essentially, MLC is concerned with learning a model that separates each class label into relevant and irrelevant for each example in the dataset. Although we have experienced the progression of the field of AutoML, which introduced effective methods for Single-Label Classification (SLC) and regression problems, there are still several issues in AutoML research that remain open. This thesis focuses on three of them. First, we investigate if our four proposed AutoML methods can work for MLC problems as well as they work for SLC and regression problems. Apart from the inherent challenges in MLC (e.g., the hardness of learning from this type of data, the strain to evaluate its models, and the computational cost involved), our results showed that it is possible to develop AutoML methods for MLC problems that perform as good as or better than well-known global and local search methods. Second, we present an analysis relating to the size of three designed search spaces and the performance of the AutoML methods in recommending configured learning algorithms. By increasing and decreasing the search space size, we show that the proposed AutoML methods do not satisfactorily trade-off between exploration (novelty) and exploitation (locality) besides their results. Our convergence analysis also indicated that we must still improve the proposed AutoML methods (i.e., their internal mechanisms) to ensure this trade-off. Finally, we investigate how distinct time budgets (constraining the whole AutoML process) can influence and constrain the behavior of the AutoML search methods and their overall predictive performance.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorengUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Ciência da ComputaçãoUFMGBrasilICEX - INSTITUTO DE CIÊNCIAS EXATASICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOComputação – TesesAprendizado de máquina – TesesClassificação multirrótulo – TesesMineração de dados – TesesAutomated machine learning (AutoML)Multi-label classificationConfigurationSearch spacesSearch methodsAutomated Multi-Label Classification: Methods, Issues and Prospectsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALthesis_alex_g_c_de_sa_final_version.pdfthesis_alex_g_c_de_sa_final_version.pdfapplication/pdf2220142https://repositorio.ufmg.br/bitstream/1843/58601/3/thesis_alex_g_c_de_sa_final_version.pdf66b1d04834a67e95fd6a3a26b261fd03MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/58601/4/license.txtcda590c95a0b51b4d15f60c9642ca272MD541843/586012023-09-12 18:17:13.282oai:repositorio.ufmg.br:1843/58601TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-09-12T21:17:13Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Automated Multi-Label Classification: Methods, Issues and Prospects
title Automated Multi-Label Classification: Methods, Issues and Prospects
spellingShingle Automated Multi-Label Classification: Methods, Issues and Prospects
Alex Guimarães Cardoso de Sá
Automated machine learning (AutoML)
Multi-label classification
Configuration
Search spaces
Search methods
Computação – Teses
Aprendizado de máquina – Teses
Classificação multirrótulo – Teses
Mineração de dados – Teses
title_short Automated Multi-Label Classification: Methods, Issues and Prospects
title_full Automated Multi-Label Classification: Methods, Issues and Prospects
title_fullStr Automated Multi-Label Classification: Methods, Issues and Prospects
title_full_unstemmed Automated Multi-Label Classification: Methods, Issues and Prospects
title_sort Automated Multi-Label Classification: Methods, Issues and Prospects
author Alex Guimarães Cardoso de Sá
author_facet Alex Guimarães Cardoso de Sá
author_role author
dc.contributor.advisor1.fl_str_mv Gisele Lobo Pappa
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/5936682335701497
dc.contributor.referee1.fl_str_mv André Carlos Ponce de Leon Ferreira de Carvalho
dc.contributor.referee2.fl_str_mv Luiz Henrique de Campos Merschmann
dc.contributor.referee3.fl_str_mv Adriano César Machado Pereira
dc.contributor.referee4.fl_str_mv Renato Vimieiro
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5790948729956103
dc.contributor.author.fl_str_mv Alex Guimarães Cardoso de Sá
contributor_str_mv Gisele Lobo Pappa
André Carlos Ponce de Leon Ferreira de Carvalho
Luiz Henrique de Campos Merschmann
Adriano César Machado Pereira
Renato Vimieiro
dc.subject.por.fl_str_mv Automated machine learning (AutoML)
Multi-label classification
Configuration
Search spaces
Search methods
topic Automated machine learning (AutoML)
Multi-label classification
Configuration
Search spaces
Search methods
Computação – Teses
Aprendizado de máquina – Teses
Classificação multirrótulo – Teses
Mineração de dados – Teses
dc.subject.other.pt_BR.fl_str_mv Computação – Teses
Aprendizado de máquina – Teses
Classificação multirrótulo – Teses
Mineração de dados – Teses
description Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.
publishDate 2019
dc.date.issued.fl_str_mv 2019-12-17
dc.date.accessioned.fl_str_mv 2023-09-12T21:17:12Z
dc.date.available.fl_str_mv 2023-09-12T21:17:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/58601
dc.identifier.orcid.pt_BR.fl_str_mv https://orcid.org/0000-0002-7276-7839
url http://hdl.handle.net/1843/58601
https://orcid.org/0000-0002-7276-7839
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICEX - INSTITUTO DE CIÊNCIAS EXATAS
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/58601/3/thesis_alex_g_c_de_sa_final_version.pdf
https://repositorio.ufmg.br/bitstream/1843/58601/4/license.txt
bitstream.checksum.fl_str_mv 66b1d04834a67e95fd6a3a26b261fd03
cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589236436238336