Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos

Franco, Gabriel Vita Silva

Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos

Detalhes bibliográficos
Autor(a) principal:	Franco, Gabriel Vita Silva
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	LOCUS Repositório Institucional da UFV
Texto Completo:	https://locus.ufv.br//handle/123456789/28000
Resumo:	Esta dissertação propõe estratégias para o problema de seleção de hiperparâmetros no problema de Aprendizado com Proporções de Rótulos, conhecido como LLP. Neste problema, os dados estão divididos em conjuntos, chamados bags, e apenas a proporção dos rótulos em cada bag é conhecida. Primeiro, o problema de LLP é formalmente definido. São apresentadas duas definições: uma que condiz com os cenários apresentados na literatura e outra que abrange cenários que fogem da definição padrão da literatura. Com o problema formalizado, uma estratégia genérica de seleção de hiperparâmetros para LLP é proposta. Esta estratégia divide o problema de seleção de hiperparâmetros em LLP em duas partes: divisão do conjunto de dados entre conjuntos de treino e validação e compu- tação do erro do modelo no conjunto de validação. Para a primeira parte, são propostos três algoritmos que fazem a divisão dos dados por bag. Já para a segunda parte, uma nova função de erro que utiliza pesos para as bags baseados na informação de Fisher é proposta. Com os métodos definidos, todo o cenário de avaliação dos métodos é apresentado, incluindo novos conjuntos de dados sintéticos que incorporam aspectos práticos do problema de LLP. Os resultados mostraram que utilizar amostras com repetição e um conjunto de validação maior na seleção de hiperparâmetros traz ganhos em relação ao estado da arte em cenários de LLP Geral. Palavras-chave: Aprendizado com Proporções de Rótulos. Seleção de hiperparâmetros. Aprendizado semi-supervisionado.

Metadados do item

id	UFV_4e6eff55545f483d9f1a2d7acd073a38
oai_identifier_str	oai:locus.ufv.br:123456789/28000
network_acronym_str	UFV
network_name_str	LOCUS Repositório Institucional da UFV
repository_id_str	2145
spelling	Franco, Gabriel Vita Silvahttp://lattes.cnpq.br/2920034496732915Comarela, Giovanni Ventorim2021-07-26T17:05:03Z2021-07-26T17:05:03Z2021-06-08FRANCO, Gabriel Vita Silva. Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos. 2021. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2021.https://locus.ufv.br//handle/123456789/28000Esta dissertação propõe estratégias para o problema de seleção de hiperparâmetros no problema de Aprendizado com Proporções de Rótulos, conhecido como LLP. Neste problema, os dados estão divididos em conjuntos, chamados bags, e apenas a proporção dos rótulos em cada bag é conhecida. Primeiro, o problema de LLP é formalmente definido. São apresentadas duas definições: uma que condiz com os cenários apresentados na literatura e outra que abrange cenários que fogem da definição padrão da literatura. Com o problema formalizado, uma estratégia genérica de seleção de hiperparâmetros para LLP é proposta. Esta estratégia divide o problema de seleção de hiperparâmetros em LLP em duas partes: divisão do conjunto de dados entre conjuntos de treino e validação e compu- tação do erro do modelo no conjunto de validação. Para a primeira parte, são propostos três algoritmos que fazem a divisão dos dados por bag. Já para a segunda parte, uma nova função de erro que utiliza pesos para as bags baseados na informação de Fisher é proposta. Com os métodos definidos, todo o cenário de avaliação dos métodos é apresentado, incluindo novos conjuntos de dados sintéticos que incorporam aspectos práticos do problema de LLP. Os resultados mostraram que utilizar amostras com repetição e um conjunto de validação maior na seleção de hiperparâmetros traz ganhos em relação ao estado da arte em cenários de LLP Geral. Palavras-chave: Aprendizado com Proporções de Rótulos. Seleção de hiperparâmetros. Aprendizado semi-supervisionado.In this work, we study the hyperparameter selection in the Learning with Label Proportions (LLP) context. In LLP, the data is provided in bags and only the label proportion of each bag is known. The LLP problem was first formalized. Two definitions were intro- duced: the first one is consistent with the scenarios studied in literature and the second one covers scenarios that are not included in the first definition. Then, a generic strategy for hyperparameter selection in LLP was defined. This strategy can be divided into two parts: split the data into training and validation sets and compute the model error in the validation set given a hyperparameter combination. We proposed three algorithms that divide the data per bag to address the first part. For the second part, a new error function that gives weights based on Fisher information for bags was introduced. Thereafter, the evaluation scenario for these methods was presented, including the new synthetic datasets which include some LLP practical aspects. The results showed that using the proposed methods for hyperparameter selection in LLP general scenarios improves the performance when compared with the state-of-art method. Keywords: Learning with Label Proportions. Hyperparameter selection. Semi supervised learning.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de ViçosaAprendizado do computadorMineração de dadosAprendizado supervisionado (Aprendizado do computador)Ciência da ComputaçãoEstratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulosTowards a general hyperparameter selection strategy in Learning with Label Proportionsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2021-06-08Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf11744771https://locus.ufv.br//bitstream/123456789/28000/1/texto%20completo.pdfca6efb913dbbfbe26795627947bea40bMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/28000/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/280002022-06-28 10:03:26.614oai:locus.ufv.br:123456789/28000Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-06-28T13:03:26LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos
dc.title.en.fl_str_mv	Towards a general hyperparameter selection strategy in Learning with Label Proportions
title	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos
spellingShingle	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos Franco, Gabriel Vita Silva Aprendizado do computador Mineração de dados Aprendizado supervisionado (Aprendizado do computador) Ciência da Computação
title_short	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos
title_full	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos
title_fullStr	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos
title_full_unstemmed	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos
title_sort	Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos
author	Franco, Gabriel Vita Silva
author_facet	Franco, Gabriel Vita Silva
author_role	author
dc.contributor.authorLattes.pt-BR.fl_str_mv	http://lattes.cnpq.br/2920034496732915
dc.contributor.author.fl_str_mv	Franco, Gabriel Vita Silva
dc.contributor.advisor1.fl_str_mv	Comarela, Giovanni Ventorim
contributor_str_mv	Comarela, Giovanni Ventorim
dc.subject.pt-BR.fl_str_mv	Aprendizado do computador Mineração de dados Aprendizado supervisionado (Aprendizado do computador)
topic	Aprendizado do computador Mineração de dados Aprendizado supervisionado (Aprendizado do computador) Ciência da Computação
dc.subject.cnpq.fl_str_mv	Ciência da Computação
description	Esta dissertação propõe estratégias para o problema de seleção de hiperparâmetros no problema de Aprendizado com Proporções de Rótulos, conhecido como LLP. Neste problema, os dados estão divididos em conjuntos, chamados bags, e apenas a proporção dos rótulos em cada bag é conhecida. Primeiro, o problema de LLP é formalmente definido. São apresentadas duas definições: uma que condiz com os cenários apresentados na literatura e outra que abrange cenários que fogem da definição padrão da literatura. Com o problema formalizado, uma estratégia genérica de seleção de hiperparâmetros para LLP é proposta. Esta estratégia divide o problema de seleção de hiperparâmetros em LLP em duas partes: divisão do conjunto de dados entre conjuntos de treino e validação e compu- tação do erro do modelo no conjunto de validação. Para a primeira parte, são propostos três algoritmos que fazem a divisão dos dados por bag. Já para a segunda parte, uma nova função de erro que utiliza pesos para as bags baseados na informação de Fisher é proposta. Com os métodos definidos, todo o cenário de avaliação dos métodos é apresentado, incluindo novos conjuntos de dados sintéticos que incorporam aspectos práticos do problema de LLP. Os resultados mostraram que utilizar amostras com repetição e um conjunto de validação maior na seleção de hiperparâmetros traz ganhos em relação ao estado da arte em cenários de LLP Geral. Palavras-chave: Aprendizado com Proporções de Rótulos. Seleção de hiperparâmetros. Aprendizado semi-supervisionado.
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-07-26T17:05:03Z
dc.date.available.fl_str_mv	2021-07-26T17:05:03Z
dc.date.issued.fl_str_mv	2021-06-08
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	FRANCO, Gabriel Vita Silva. Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos. 2021. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2021.
dc.identifier.uri.fl_str_mv	https://locus.ufv.br//handle/123456789/28000
identifier_str_mv	FRANCO, Gabriel Vita Silva. Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos. 2021. 66 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2021.
url	https://locus.ufv.br//handle/123456789/28000
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Viçosa
publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.source.none.fl_str_mv	reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV
instname_str	Universidade Federal de Viçosa (UFV)
instacron_str	UFV
institution	UFV
reponame_str	LOCUS Repositório Institucional da UFV
collection	LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv	https://locus.ufv.br//bitstream/123456789/28000/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/28000/2/license.txt
bitstream.checksum.fl_str_mv	ca6efb913dbbfbe26795627947bea40b 8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv	fabiojreis@ufv.br
_version_	1794528280698683392

Estratégias para seleção de hiperparâmetros em aprendizado com proporções de rótulos

Registros relacionados