Binary quantification in non-stationary scenarios
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19032020-091709/ |
Resumo: | Quantification is a Machine Learning task similar to classification in the sense that it learns from a training set with labeled data. However, quantification is not interested in predicting the class of each observation, but rather measure the representativeness of each class in the test set. This subtle difference between classification and quantification requires specific algorithms, performance measures, and experimental designs. Moreover, most of the existing quantification algorithms were developed for well-controlled scenarios that rely on the assumption that the only change from training to test data is in the prior probability of the classes. This thesis focuses on providing improvements in quantification algorithms as well as the experimental design, including more realistic assumptions. Specifically, the main contributions of this thesis are the following: (i) the first algorithm to quantify non-stationary data under the concept drift presence; (ii) an unsupervised drift detector that are insensible to class imbalance explicitly; (iii) a mixture model framework for quantification with a deep experimental study, redefining the best parametrization of this sort of method; (iv) we show that the batch size, an ignored question in the literature, changes the ranking of quantification algorithms and thus we proposed a metalearning framework to select the best quantifier dynamically; (v) we describe how existing quantifiers are affected under score quality variability and, as response of it, we proposed a new algorithm that accurately quantifies while allowing changes in the quality of the scores, and; (vi) we show the applicability of our proposals in real-world problem and the efforts to contribute with development of new mechanism for trapping mosquitoes. |
id |
USP_23580be009a50aaf970b4120bf33e4e1 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-19032020-091709 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Binary quantification in non-stationary scenariosQuantificação binária em cenários não estacionáriosAprendizado de máquinaArmadilhas de mosquitoConcept driftContagemCountingMachine learningMixture modelsModelos de misturaMosquito trapsMudança de conceitoQuantification is a Machine Learning task similar to classification in the sense that it learns from a training set with labeled data. However, quantification is not interested in predicting the class of each observation, but rather measure the representativeness of each class in the test set. This subtle difference between classification and quantification requires specific algorithms, performance measures, and experimental designs. Moreover, most of the existing quantification algorithms were developed for well-controlled scenarios that rely on the assumption that the only change from training to test data is in the prior probability of the classes. This thesis focuses on providing improvements in quantification algorithms as well as the experimental design, including more realistic assumptions. Specifically, the main contributions of this thesis are the following: (i) the first algorithm to quantify non-stationary data under the concept drift presence; (ii) an unsupervised drift detector that are insensible to class imbalance explicitly; (iii) a mixture model framework for quantification with a deep experimental study, redefining the best parametrization of this sort of method; (iv) we show that the batch size, an ignored question in the literature, changes the ranking of quantification algorithms and thus we proposed a metalearning framework to select the best quantifier dynamically; (v) we describe how existing quantifiers are affected under score quality variability and, as response of it, we proposed a new algorithm that accurately quantifies while allowing changes in the quality of the scores, and; (vi) we show the applicability of our proposals in real-world problem and the efforts to contribute with development of new mechanism for trapping mosquitoes.Quantificação é uma tarefa de Aprendizado de Máquina semelhante à classificação, na qual o aprendizado é realizado a partir de um conjunto de treinamento com dados rotulados. Entretanto, a quantificação não está interessada em prever a classe de cada observação, mas em medir a representatividade de cada classe no conjunto de teste. A diferença sutil entre classificação e quantificação requer algoritmos específicos, medidas de desempenho e projetos experimentais diferentes. Além disso, a maioria dos algoritmos de quantificação existentes foi desenvolvida para cenários bem controlados que se baseiam no pressuposto de que a única mudança entre dados de treinamento e teste está na probabilidade a priori das classes. Esta tese concentra-se em fornecer melhorias nos algoritmos de quantificação, bem como no design experimental, incluindo suposições mais realistas. Especificamente, as principais contribuições desta tese são: (i) o primeiro algoritmo para quantificar dados não estacionários sob a presença de mudança de conceito; (ii) um detector de mudança de conceito não-supervisionado e insensível ao desbalanceamento de classe; (iii) um framework baseado em modelos de mistura juntamente com um extensivo estudo experimental, redefinindo a parametrização desse tipo de método; (iv) estudo sobre como o tamanho do batch altera o ranking dos algoritmos de quantificação e, consequenmente, a proposta de um framework baseado em meta-aprendizado para selecionar dinamicamente o melhor quantificador; (v) uma análise descritiva do impacto da variabilidade na qualidade dos scores sobre quantificadores existentes e, como resposta, a essa influência foi proposto um novo algoritmo que quantifica com precisão sob cenários de mudanças na qualidade dos scores, e; (vi) a aplicabilidade das propostas em um problema do mundo real, bem como os esforços para desenvolver um novo mecanismo de captura e contagem populacional de mosquitos.Biblioteca Digitais de Teses e Dissertações da USPBatista, Gustavo Enrique de Almeida Prado AlvesMaletzke, André Gustavo2019-12-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-19032020-091709/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2020-03-19T15:25:02Zoai:teses.usp.br:tde-19032020-091709Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-03-19T15:25:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Binary quantification in non-stationary scenarios Quantificação binária em cenários não estacionários |
title |
Binary quantification in non-stationary scenarios |
spellingShingle |
Binary quantification in non-stationary scenarios Maletzke, André Gustavo Aprendizado de máquina Armadilhas de mosquito Concept drift Contagem Counting Machine learning Mixture models Modelos de mistura Mosquito traps Mudança de conceito |
title_short |
Binary quantification in non-stationary scenarios |
title_full |
Binary quantification in non-stationary scenarios |
title_fullStr |
Binary quantification in non-stationary scenarios |
title_full_unstemmed |
Binary quantification in non-stationary scenarios |
title_sort |
Binary quantification in non-stationary scenarios |
author |
Maletzke, André Gustavo |
author_facet |
Maletzke, André Gustavo |
author_role |
author |
dc.contributor.none.fl_str_mv |
Batista, Gustavo Enrique de Almeida Prado Alves |
dc.contributor.author.fl_str_mv |
Maletzke, André Gustavo |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Armadilhas de mosquito Concept drift Contagem Counting Machine learning Mixture models Modelos de mistura Mosquito traps Mudança de conceito |
topic |
Aprendizado de máquina Armadilhas de mosquito Concept drift Contagem Counting Machine learning Mixture models Modelos de mistura Mosquito traps Mudança de conceito |
description |
Quantification is a Machine Learning task similar to classification in the sense that it learns from a training set with labeled data. However, quantification is not interested in predicting the class of each observation, but rather measure the representativeness of each class in the test set. This subtle difference between classification and quantification requires specific algorithms, performance measures, and experimental designs. Moreover, most of the existing quantification algorithms were developed for well-controlled scenarios that rely on the assumption that the only change from training to test data is in the prior probability of the classes. This thesis focuses on providing improvements in quantification algorithms as well as the experimental design, including more realistic assumptions. Specifically, the main contributions of this thesis are the following: (i) the first algorithm to quantify non-stationary data under the concept drift presence; (ii) an unsupervised drift detector that are insensible to class imbalance explicitly; (iii) a mixture model framework for quantification with a deep experimental study, redefining the best parametrization of this sort of method; (iv) we show that the batch size, an ignored question in the literature, changes the ranking of quantification algorithms and thus we proposed a metalearning framework to select the best quantifier dynamically; (v) we describe how existing quantifiers are affected under score quality variability and, as response of it, we proposed a new algorithm that accurately quantifies while allowing changes in the quality of the scores, and; (vi) we show the applicability of our proposals in real-world problem and the efforts to contribute with development of new mechanism for trapping mosquitoes. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-12-18 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19032020-091709/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19032020-091709/ |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257164735840256 |