Automated Multi-Label Classification: Methods, Issues and Prospects

Alex Guimarães Cardoso de Sá

Automated Multi-Label Classification: Methods, Issues and Prospects

Detalhes bibliográficos
Autor(a) principal:	Alex Guimarães Cardoso de Sá
Data de Publicação:	2019
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/58601 https://orcid.org/0000-0002-7276-7839
Resumo:	Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.

Metadados do item

id	UFMG_0527d08363afef87f5eab1f1b3b08967
oai_identifier_str	oai:repositorio.ufmg.br:1843/58601
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Gisele Lobo Pappahttp://lattes.cnpq.br/5936682335701497André Carlos Ponce de Leon Ferreira de CarvalhoLuiz Henrique de Campos MerschmannAdriano César Machado PereiraRenato Vimieirohttp://lattes.cnpq.br/5790948729956103Alex Guimarães Cardoso de Sá2023-09-12T21:17:12Z2023-09-12T21:17:12Z2019-12-17http://hdl.handle.net/1843/58601https://orcid.org/0000-0002-7276-7839Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.Automated Machine Learning (AutoML) has emerged to deal with the task of automatically selecting learning algorithms and their hyper-parameters to successfully solve a given ML problem. This is mainly done to avoid ad hoc approaches to perform this task. With the outgrowing popularity of Machine Learning (ML) algorithms and their indiscriminate use by practitioners, who do not necessarily know the peculiarities of these algorithms, the field of AutoML has become more relevant than ever. This thesis, in particular, is centered on AutoML for Multi-Label Classification (MLC) problems. In MLC, each example in the dataset can be simultaneously associated with several class labels, making it a generalization of its canonical single-label version (i.e., with a single class label per example). Essentially, MLC is concerned with learning a model that separates each class label into relevant and irrelevant for each example in the dataset. Although we have experienced the progression of the field of AutoML, which introduced effective methods for Single-Label Classification (SLC) and regression problems, there are still several issues in AutoML research that remain open. This thesis focuses on three of them. First, we investigate if our four proposed AutoML methods can work for MLC problems as well as they work for SLC and regression problems. Apart from the inherent challenges in MLC (e.g., the hardness of learning from this type of data, the strain to evaluate its models, and the computational cost involved), our results showed that it is possible to develop AutoML methods for MLC problems that perform as good as or better than well-known global and local search methods. Second, we present an analysis relating to the size of three designed search spaces and the performance of the AutoML methods in recommending configured learning algorithms. By increasing and decreasing the search space size, we show that the proposed AutoML methods do not satisfactorily trade-off between exploration (novelty) and exploitation (locality) besides their results. Our convergence analysis also indicated that we must still improve the proposed AutoML methods (i.e., their internal mechanisms) to ensure this trade-off. Finally, we investigate how distinct time budgets (constraining the whole AutoML process) can influence and constrain the behavior of the AutoML search methods and their overall predictive performance.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas GeraisCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorengUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Ciência da ComputaçãoUFMGBrasilICEX - INSTITUTO DE CIÊNCIAS EXATASICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOComputação – TesesAprendizado de máquina – TesesClassificação multirrótulo – TesesMineração de dados – TesesAutomated machine learning (AutoML)Multi-label classificationConfigurationSearch spacesSearch methodsAutomated Multi-Label Classification: Methods, Issues and Prospectsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALthesis_alex_g_c_de_sa_final_version.pdfthesis_alex_g_c_de_sa_final_version.pdfapplication/pdf2220142https://repositorio.ufmg.br/bitstream/1843/58601/3/thesis_alex_g_c_de_sa_final_version.pdf66b1d04834a67e95fd6a3a26b261fd03MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/58601/4/license.txtcda590c95a0b51b4d15f60c9642ca272MD541843/586012023-09-12 18:17:13.282oai:repositorio.ufmg.br:1843/58601TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-09-12T21:17:13Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Automated Multi-Label Classification: Methods, Issues and Prospects
title	Automated Multi-Label Classification: Methods, Issues and Prospects
spellingShingle	Automated Multi-Label Classification: Methods, Issues and Prospects Alex Guimarães Cardoso de Sá Automated machine learning (AutoML) Multi-label classification Configuration Search spaces Search methods Computação – Teses Aprendizado de máquina – Teses Classificação multirrótulo – Teses Mineração de dados – Teses
title_short	Automated Multi-Label Classification: Methods, Issues and Prospects
title_full	Automated Multi-Label Classification: Methods, Issues and Prospects
title_fullStr	Automated Multi-Label Classification: Methods, Issues and Prospects
title_full_unstemmed	Automated Multi-Label Classification: Methods, Issues and Prospects
title_sort	Automated Multi-Label Classification: Methods, Issues and Prospects
author	Alex Guimarães Cardoso de Sá
author_facet	Alex Guimarães Cardoso de Sá
author_role	author
dc.contributor.advisor1.fl_str_mv	Gisele Lobo Pappa
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/5936682335701497
dc.contributor.referee1.fl_str_mv	André Carlos Ponce de Leon Ferreira de Carvalho
dc.contributor.referee2.fl_str_mv	Luiz Henrique de Campos Merschmann
dc.contributor.referee3.fl_str_mv	Adriano César Machado Pereira
dc.contributor.referee4.fl_str_mv	Renato Vimieiro
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/5790948729956103
dc.contributor.author.fl_str_mv	Alex Guimarães Cardoso de Sá
contributor_str_mv	Gisele Lobo Pappa André Carlos Ponce de Leon Ferreira de Carvalho Luiz Henrique de Campos Merschmann Adriano César Machado Pereira Renato Vimieiro
dc.subject.por.fl_str_mv	Automated machine learning (AutoML) Multi-label classification Configuration Search spaces Search methods
topic	Automated machine learning (AutoML) Multi-label classification Configuration Search spaces Search methods Computação – Teses Aprendizado de máquina – Teses Classificação multirrótulo – Teses Mineração de dados – Teses
dc.subject.other.pt_BR.fl_str_mv	Computação – Teses Aprendizado de máquina – Teses Classificação multirrótulo – Teses Mineração de dados – Teses
description	Aprendizado de Máquina Automatizado (AutoAM) surgiu para lidar com a tarefa de selecionar automaticamente algoritmos e seus hiper-parâmetros para resolver com sucesso um determinado problema de Aprendizado de Máquina (AM). Isto é feito principalmente para evitar abordagens ad hoc para essa finalidade. Com a crescente popularidade dos algoritmos de AM e seu uso indiscriminado por profissionais que não necessariamente conhecem as peculiaridades desses algoritmos, a área de AutoAM tornou-se mais relevante do que nunca. Esta tese, em particular, é centrada em AutoAM para problemas de Classificação Multi-Rótulo (CMR). Em CMR, cada exemplo no conjunto de dados pode estar associado simultaneamente a vários rótulos, tornando-o uma generalização de sua versão canônica mono-rotulada (i.e., com a associação de um único rótulo de classe para cada exemplo). Essencialmente, CMR se preocupa em aprender um modelo que separa os rótulos de classe em relevantes e irrelevantes para cada exemplo da base de dados. Embora tenhamos experimentado a progressão do campo de AutoAM, que introduziu métodos eficazes para problemas de classificação tradicional (i.e., mono-rótulo) e de regressão, ainda existem vários problemas na pesquisa de AutoAM que permanecem em aberto. Esta tese se concentra em três deles. Primeiro, investigamos se nossos quatro métodos AutoAM propostos podem funcionar tão bem para problemas de CMR, assim como funcionam para problemas de classificação tradicional e de regressão. Além dos desafios inerentes à CMR (e.g., a dificuldade de aprender com esse tipo de dados, o esforço para avaliar seus modelos e o custo computacional envolvido), nossos resultados mostraram que é possível desenvolver métodos AutoAM para problemas de CMR que executam tão bem quanto, ou melhor, do que métodos de busca conhecidos. Em segundo lugar, apresentamos uma análise relativa ao tamanho de três espaços de busca propostos e ao desempenho dos métodos AutoAM na recomendação de configurações de algoritmos de aprendizado. Ao aumentar e diminuir o tamanho do espaço de busca, mostramos que os métodos AutoAM propostos não balanceiam bem satisfatoriamente entre diversificação e intensificação apesar de seus resultados. Nossa análise de convergência também indicou que ainda devemos melhorar os métodos AutoAM propostos para garantir esse balanceamento. Por fim, investigamos como limitações de tempo distintas podem influenciar e restringir o comportamento dos métodos de busca do AutoAM e seu desempenho preditivo geral.
publishDate	2019
dc.date.issued.fl_str_mv	2019-12-17
dc.date.accessioned.fl_str_mv	2023-09-12T21:17:12Z
dc.date.available.fl_str_mv	2023-09-12T21:17:12Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/58601
dc.identifier.orcid.pt_BR.fl_str_mv	https://orcid.org/0000-0002-7276-7839
url	http://hdl.handle.net/1843/58601 https://orcid.org/0000-0002-7276-7839
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	UFMG
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	ICEX - INSTITUTO DE CIÊNCIAS EXATAS ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/58601/3/thesis_alex_g_c_de_sa_final_version.pdf https://repositorio.ufmg.br/bitstream/1843/58601/4/license.txt
bitstream.checksum.fl_str_mv	66b1d04834a67e95fd6a3a26b261fd03 cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589236436238336

Automated Multi-Label Classification: Methods, Issues and Prospects

Registros relacionados