Automated Multi-Label Classification: Methods, Issues and Prospects
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/58601 https://orcid.org/0000-0002-7276-7839 |
Resumo: | Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral. |
id |
UFMG_0527d08363afef87f5eab1f1b3b08967 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/58601 |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Gisele Lobo Pappahttp://lattes.cnpq.br/5936682335701497André Carlos Ponce de Leon Ferreira de CarvalhoLuiz Henrique de Campos MerschmannAdriano César Machado PereiraRenato Vimieirohttp://lattes.cnpq.br/5790948729956103Alex Guimarães Cardoso de Sá2023-09-12T21:17:12Z2023-09-12T21:17:12Z2019-12-17http://hdl.handle.net/1843/58601https://orcid.org/0000-0002-7276-7839Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.Automated Machine Learning (AutoML) has emerged to deal with the task of automatically selecting learning algorithms and their hyper-parameters to successfully solve a given ML problem. This is mainly done to avoid ad hoc approaches to perform this task. With the outgrowing popularity of Machine Learning (ML) algorithms and their indiscriminate use by practitioners, who do not necessarily know the peculiarities of these algorithms, the field of AutoML has become more relevant than ever. This thesis, in particular, is centered on AutoML for Multi-Label Classification (MLC) problems. In MLC, each example in the dataset can be simultaneously associated with several class labels, making it a generalization of its canonical single-label version (i.e., with a single class label per example). Essentially, MLC is concerned with learning a model that separates each class label into relevant and irrelevant for each example in the dataset. Although we have experienced the progression of the field of AutoML, which introduced effective methods for Single-Label Classification (SLC) and regression problems, there are still several issues in AutoML research that remain open. This thesis focuses on three of them. First, we investigate if our four proposed AutoML methods can work for MLC problems as well as they work for SLC and regression problems. Apart from the inherent challenges in MLC (e.g., the hardness of learning from this type of data, the strain to evaluate its models, and the computational cost involved), our results showed that it is possible to develop AutoML methods for MLC problems that perform as good as or better than well-known global and local search methods. Second, we present an analysis relating to the size of three designed search spaces and the performance of the AutoML methods in recommending configured learning algorithms. By increasing and decreasing the search space size, we show that the proposed AutoML methods do not satisfactorily trade-off between exploration (novelty) and exploitation (locality) besides their results. Our convergence analysis also indicated that we must still improve the proposed AutoML methods (i.e., their internal mechanisms) to ensure this trade-off. Finally, we investigate how distinct time budgets (constraining the whole AutoML process) can influence and constrain the behavior of the AutoML search methods and their overall predictive performance.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorengUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Ciência da ComputaçãoUFMGBrasilICEX - INSTITUTO DE CIÊNCIAS EXATASICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOComputação – TesesAprendizado de máquina – TesesClassificação multirrótulo – TesesMineração de dados – TesesAutomated machine learning (AutoML)Multi-label classificationConfigurationSearch spacesSearch methodsAutomated Multi-Label Classification: Methods, Issues and Prospectsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALthesis_alex_g_c_de_sa_final_version.pdfthesis_alex_g_c_de_sa_final_version.pdfapplication/pdf2220142https://repositorio.ufmg.br/bitstream/1843/58601/3/thesis_alex_g_c_de_sa_final_version.pdf66b1d04834a67e95fd6a3a26b261fd03MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/58601/4/license.txtcda590c95a0b51b4d15f60c9642ca272MD541843/586012023-09-12 18:17:13.282oai:repositorio.ufmg.br:1843/58601TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-09-12T21:17:13Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Automated Multi-Label Classification: Methods, Issues and Prospects |
title |
Automated Multi-Label Classification: Methods, Issues and Prospects |
spellingShingle |
Automated Multi-Label Classification: Methods, Issues and Prospects Alex Guimarães Cardoso de Sá Automated machine learning (AutoML) Multi-label classification Configuration Search spaces Search methods Computação – Teses Aprendizado de máquina – Teses Classificação multirrótulo – Teses Mineração de dados – Teses |
title_short |
Automated Multi-Label Classification: Methods, Issues and Prospects |
title_full |
Automated Multi-Label Classification: Methods, Issues and Prospects |
title_fullStr |
Automated Multi-Label Classification: Methods, Issues and Prospects |
title_full_unstemmed |
Automated Multi-Label Classification: Methods, Issues and Prospects |
title_sort |
Automated Multi-Label Classification: Methods, Issues and Prospects |
author |
Alex Guimarães Cardoso de Sá |
author_facet |
Alex Guimarães Cardoso de Sá |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Gisele Lobo Pappa |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/5936682335701497 |
dc.contributor.referee1.fl_str_mv |
André Carlos Ponce de Leon Ferreira de Carvalho |
dc.contributor.referee2.fl_str_mv |
Luiz Henrique de Campos Merschmann |
dc.contributor.referee3.fl_str_mv |
Adriano César Machado Pereira |
dc.contributor.referee4.fl_str_mv |
Renato Vimieiro |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/5790948729956103 |
dc.contributor.author.fl_str_mv |
Alex Guimarães Cardoso de Sá |
contributor_str_mv |
Gisele Lobo Pappa André Carlos Ponce de Leon Ferreira de Carvalho Luiz Henrique de Campos Merschmann Adriano César Machado Pereira Renato Vimieiro |
dc.subject.por.fl_str_mv |
Automated machine learning (AutoML) Multi-label classification Configuration Search spaces Search methods |
topic |
Automated machine learning (AutoML) Multi-label classification Configuration Search spaces Search methods Computação – Teses Aprendizado de máquina – Teses Classificação multirrótulo – Teses Mineração de dados – Teses |
dc.subject.other.pt_BR.fl_str_mv |
Computação – Teses Aprendizado de máquina – Teses Classificação multirrótulo – Teses Mineração de dados – Teses |
description |
Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-12-17 |
dc.date.accessioned.fl_str_mv |
2023-09-12T21:17:12Z |
dc.date.available.fl_str_mv |
2023-09-12T21:17:12Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/58601 |
dc.identifier.orcid.pt_BR.fl_str_mv |
https://orcid.org/0000-0002-7276-7839 |
url |
http://hdl.handle.net/1843/58601 https://orcid.org/0000-0002-7276-7839 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UFMG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
ICEX - INSTITUTO DE CIÊNCIAS EXATAS ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/58601/3/thesis_alex_g_c_de_sa_final_version.pdf https://repositorio.ufmg.br/bitstream/1843/58601/4/license.txt |
bitstream.checksum.fl_str_mv |
66b1d04834a67e95fd6a3a26b261fd03 cda590c95a0b51b4d15f60c9642ca272 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589236436238336 |