An efficient and accurate method for binary quantification

Detalhes bibliográficos
Autor(a) principal: Hassan, Waqar
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/
Resumo: Quantification is a prosperous research topic that estimates the class prevalences in a test sample. Quantification and classification share several similarities. For instance, the most straightforward (yet biased) quantification method, Classify & Count (CC), utilizes a classifier to predict the class of each instance in a sample and compute the class ratios. However, CC presents a systematic error that grows as the class distribution shifts from a distribution it optimally quantifies. This issue has motivated quantification researchers to propose more reliable counting methods. Such proposals mostly outperform the CC method but are significantly more inefficient during inference. Nonetheless, the rapid inference time is vital for numerous applications. For instance, sensor data, tweets analysis, and news feeding need to process fast-paced streams or a large volume of data. This thesis investigates and proposes a highly efficient quantification algorithm capable of processing vast volumes of data typically required by Big Data and Data Stream applications. Our main technical contribution is Sample Mean Matching (SMM), a quantifier able to count a billion instances per second with state-of-the-art accuracy. Moreover, the performance of quantification methods varies with the changes in test set size, distribution shift, and balanced or imbalanced training data cases. Therefore, we integrate different setups from the literature and recommend a comprehensive experimental setup for assessing the quantifiers performances.
id USP_dea72e5a3ec993fddc421a388c495e7f
oai_identifier_str oai:teses.usp.br:tde-16082022-112629
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling An efficient and accurate method for binary quantificationUm método eficiente e preciso para quantificação bináriaAprendizado de máquinaAprendizado supervisionadoClassificaçãoClassificationDistribution matching methodsMachine learningMétodos de correspondência de distribuiçãoMétodos de misturaMixture methodsQuantificaçãoQuantificationSupervised learningQuantification is a prosperous research topic that estimates the class prevalences in a test sample. Quantification and classification share several similarities. For instance, the most straightforward (yet biased) quantification method, Classify & Count (CC), utilizes a classifier to predict the class of each instance in a sample and compute the class ratios. However, CC presents a systematic error that grows as the class distribution shifts from a distribution it optimally quantifies. This issue has motivated quantification researchers to propose more reliable counting methods. Such proposals mostly outperform the CC method but are significantly more inefficient during inference. Nonetheless, the rapid inference time is vital for numerous applications. For instance, sensor data, tweets analysis, and news feeding need to process fast-paced streams or a large volume of data. This thesis investigates and proposes a highly efficient quantification algorithm capable of processing vast volumes of data typically required by Big Data and Data Stream applications. Our main technical contribution is Sample Mean Matching (SMM), a quantifier able to count a billion instances per second with state-of-the-art accuracy. Moreover, the performance of quantification methods varies with the changes in test set size, distribution shift, and balanced or imbalanced training data cases. Therefore, we integrate different setups from the literature and recommend a comprehensive experimental setup for assessing the quantifiers performances.A quantificação é um tópico de pesquisa próspero que estima as prevalências de classe em uma amostra de teste. Quantificação e classificação compartilham várias semelhanças. Por exemplo, o método de quantificação mais simples (ainda que tendencioso), Classifica & Conta (CC), utiliza um classificador para prever a classe de cada instância em uma amostra e calcular as proporções das classes. No entanto, CC apresenta um erro sistemático que cresce à medida que a distribuição de classe se distancia de uma distribuição que ela quantifica de maneira ideal. Esta questão tem motivado pesquisadores em quantificação a propor métodos de contagem mais confiáveis. Tais propostas superam o método CC, mas são significativamente mais ineficientes durante a inferência. No entanto, o tempo de inferência rápido é vital para inúmeras aplicações. Por exemplo, dados de sensores, análise de tweets e feed de notícias precisam processar fluxos rápidos ou um grande volume de dados. Esta tese investiga e propõe um algoritmo de quantificação altamente eficiente capaz de processar grandes volumes de dados normalmente requeridos por aplicações de Big Data e fluxo de dados. Nossa principal contribuição técnica é o Sample Mean Matching (SMM), um quantificador capaz de contar um bilhão de instâncias por segundo com precisão similar ao estado-da-arte. Além disso, o desempenho dos métodos de quantificação varia com as mudanças no tamanho do conjunto de teste, mudança de distribuição e casos de dados de treinamento equilibrados ou desequilibrados. Portanto, integramos diferentes configurações da literatura e recomendamos uma configuração experimental abrangente para avaliar os desempenhos de quantificares.Biblioteca Digitais de Teses e Dissertações da USPBatista, Gustavo Enrique de Almeida Prado AlvesHassan, Waqar2022-07-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2022-08-16T14:32:24Zoai:teses.usp.br:tde-16082022-112629Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-08-16T14:32:24Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv An efficient and accurate method for binary quantification
Um método eficiente e preciso para quantificação binária
title An efficient and accurate method for binary quantification
spellingShingle An efficient and accurate method for binary quantification
Hassan, Waqar
Aprendizado de máquina
Aprendizado supervisionado
Classificação
Classification
Distribution matching methods
Machine learning
Métodos de correspondência de distribuição
Métodos de mistura
Mixture methods
Quantificação
Quantification
Supervised learning
title_short An efficient and accurate method for binary quantification
title_full An efficient and accurate method for binary quantification
title_fullStr An efficient and accurate method for binary quantification
title_full_unstemmed An efficient and accurate method for binary quantification
title_sort An efficient and accurate method for binary quantification
author Hassan, Waqar
author_facet Hassan, Waqar
author_role author
dc.contributor.none.fl_str_mv Batista, Gustavo Enrique de Almeida Prado Alves
dc.contributor.author.fl_str_mv Hassan, Waqar
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado supervisionado
Classificação
Classification
Distribution matching methods
Machine learning
Métodos de correspondência de distribuição
Métodos de mistura
Mixture methods
Quantificação
Quantification
Supervised learning
topic Aprendizado de máquina
Aprendizado supervisionado
Classificação
Classification
Distribution matching methods
Machine learning
Métodos de correspondência de distribuição
Métodos de mistura
Mixture methods
Quantificação
Quantification
Supervised learning
description Quantification is a prosperous research topic that estimates the class prevalences in a test sample. Quantification and classification share several similarities. For instance, the most straightforward (yet biased) quantification method, Classify & Count (CC), utilizes a classifier to predict the class of each instance in a sample and compute the class ratios. However, CC presents a systematic error that grows as the class distribution shifts from a distribution it optimally quantifies. This issue has motivated quantification researchers to propose more reliable counting methods. Such proposals mostly outperform the CC method but are significantly more inefficient during inference. Nonetheless, the rapid inference time is vital for numerous applications. For instance, sensor data, tweets analysis, and news feeding need to process fast-paced streams or a large volume of data. This thesis investigates and proposes a highly efficient quantification algorithm capable of processing vast volumes of data typically required by Big Data and Data Stream applications. Our main technical contribution is Sample Mean Matching (SMM), a quantifier able to count a billion instances per second with state-of-the-art accuracy. Moreover, the performance of quantification methods varies with the changes in test set size, distribution shift, and balanced or imbalanced training data cases. Therefore, we integrate different setups from the literature and recommend a comprehensive experimental setup for assessing the quantifiers performances.
publishDate 2022
dc.date.none.fl_str_mv 2022-07-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16082022-112629/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257077710323712