Non-stationary and unpredictable data distributions in classification and quantification

Detalhes bibliográficos
Autor(a) principal: Reis, Denis Moreira dos
Data de Publicação: 2020
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/
Resumo: In the last years, we observed a crescent academic interest on nonstationary data. On the one hand, differences between the data that was used to induce a model and the data that is found after the model is deployed cause a decrease of performance for several tasks, such as classification. On the other hand, in several tasks, such as quantification, we are explicitly interested in measuring how a distribution changes over time. For any of these problems, however, we generally run into solutions that rely on strong assumptions, which are impractical or even impracticable in real world applications. In this thesis, we provide solutions that rely on less restrictive and/or more realistic assumptions in order to allow such methods to be employed in real applications. In the concept drift detection area, we introduce unsupervised drift detection methods that allow for performing classification and quantification without ever requesting true labels after deployment. In the quantification area, we bootstrap a new research topic called one-class quantification. Similarly to one-class classification, in one-class quantification we are able to avoid strong assumptions regarding the negative class, which is deemed unpredictable. Our experimental results are promising and provide favorable evidences about the viability of solutions that are focused on solving real-world problems.
id USP_32201111a335c149dc907dfb0d9400b7
oai_identifier_str oai:teses.usp.br:tde-27072020-174834
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Non-stationary and unpredictable data distributions in classification and quantificationDistribuições não estacionárias e imprevisíveis em classificação e quantificaçãoAprendizado com dados positivos e não- rotuladosClassificaçãoClassificationConcept driftDados não estacionáriosMudança de conceitoNonstationary dataPositive and unlabeled learningQuantificaçãoQuantificationIn the last years, we observed a crescent academic interest on nonstationary data. On the one hand, differences between the data that was used to induce a model and the data that is found after the model is deployed cause a decrease of performance for several tasks, such as classification. On the other hand, in several tasks, such as quantification, we are explicitly interested in measuring how a distribution changes over time. For any of these problems, however, we generally run into solutions that rely on strong assumptions, which are impractical or even impracticable in real world applications. In this thesis, we provide solutions that rely on less restrictive and/or more realistic assumptions in order to allow such methods to be employed in real applications. In the concept drift detection area, we introduce unsupervised drift detection methods that allow for performing classification and quantification without ever requesting true labels after deployment. In the quantification area, we bootstrap a new research topic called one-class quantification. Similarly to one-class classification, in one-class quantification we are able to avoid strong assumptions regarding the negative class, which is deemed unpredictable. Our experimental results are promising and provide favorable evidences about the viability of solutions that are focused on solving real-world problems.Nos últimos anos, é crescente a preocupação da academia com dados não estacionários. Por um lado, diferenças entre as distribuições dos dados disponíveis em laboratório, para treino e avaliação, e dos dados encontrados posteriormente, após implantação dos modelos para uso prático na aplicação, levam ao decréscimo de performance em diversas tarefas, como classificação. Por outro, em outras tarefas, como quantificação, há o interesse explícito em mensurar como a distribuição dos dados se altera ao longo do tempo. Em quaisquer casos, porém, é comum a existência de premissas que tornam as soluções disponíveis ao mesmo tempo possíveis em seus campos de estudo, e impráticas para aplicações reais. Esta tese de doutorado propõe soluções com premissas menos restritivas e/ou mais realistas, que possibilitem seu emprego em aplicações reais. Na área de detecção de mudança de conceito, são introduzidas técnicas de detecção não supervisionada que possibilitam classificação e quantificação sem a necessidade de requisitar rótulos verdadeiros após implantação do modelo. Em quantificação, é iniciada uma nova sub-área de pesquisa, one-class quantification. De forma similar à one-class classification, em one-class quantification não é assumida uma distribuição particular para a classe negativa, sendo considerada, portanto, imprevisível. Os resultados obtidos pela avaliação experimental empregada são promissores e demonstram a viabilidade de alternativas mais focadas em solucionar os problemas existentes em aplicações do mundo real.Biblioteca Digitais de Teses e Dissertações da USPBatista, Gustavo Enrique de Almeida Prado AlvesSousa, Elaine Parros Machado deReis, Denis Moreira dos2020-04-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2020-08-13T00:47:57Zoai:teses.usp.br:tde-27072020-174834Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-08-13T00:47:57Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Non-stationary and unpredictable data distributions in classification and quantification
Distribuições não estacionárias e imprevisíveis em classificação e quantificação
title Non-stationary and unpredictable data distributions in classification and quantification
spellingShingle Non-stationary and unpredictable data distributions in classification and quantification
Reis, Denis Moreira dos
Aprendizado com dados positivos e não- rotulados
Classificação
Classification
Concept drift
Dados não estacionários
Mudança de conceito
Nonstationary data
Positive and unlabeled learning
Quantificação
Quantification
title_short Non-stationary and unpredictable data distributions in classification and quantification
title_full Non-stationary and unpredictable data distributions in classification and quantification
title_fullStr Non-stationary and unpredictable data distributions in classification and quantification
title_full_unstemmed Non-stationary and unpredictable data distributions in classification and quantification
title_sort Non-stationary and unpredictable data distributions in classification and quantification
author Reis, Denis Moreira dos
author_facet Reis, Denis Moreira dos
author_role author
dc.contributor.none.fl_str_mv Batista, Gustavo Enrique de Almeida Prado Alves
Sousa, Elaine Parros Machado de
dc.contributor.author.fl_str_mv Reis, Denis Moreira dos
dc.subject.por.fl_str_mv Aprendizado com dados positivos e não- rotulados
Classificação
Classification
Concept drift
Dados não estacionários
Mudança de conceito
Nonstationary data
Positive and unlabeled learning
Quantificação
Quantification
topic Aprendizado com dados positivos e não- rotulados
Classificação
Classification
Concept drift
Dados não estacionários
Mudança de conceito
Nonstationary data
Positive and unlabeled learning
Quantificação
Quantification
description In the last years, we observed a crescent academic interest on nonstationary data. On the one hand, differences between the data that was used to induce a model and the data that is found after the model is deployed cause a decrease of performance for several tasks, such as classification. On the other hand, in several tasks, such as quantification, we are explicitly interested in measuring how a distribution changes over time. For any of these problems, however, we generally run into solutions that rely on strong assumptions, which are impractical or even impracticable in real world applications. In this thesis, we provide solutions that rely on less restrictive and/or more realistic assumptions in order to allow such methods to be employed in real applications. In the concept drift detection area, we introduce unsupervised drift detection methods that allow for performing classification and quantification without ever requesting true labels after deployment. In the quantification area, we bootstrap a new research topic called one-class quantification. Similarly to one-class classification, in one-class quantification we are able to avoid strong assumptions regarding the negative class, which is deemed unpredictable. Our experimental results are promising and provide favorable evidences about the viability of solutions that are focused on solving real-world problems.
publishDate 2020
dc.date.none.fl_str_mv 2020-04-08
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257414842187776