Non-stationary and unpredictable data distributions in classification and quantification
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/ |
Resumo: | In the last years, we observed a crescent academic interest on nonstationary data. On the one hand, differences between the data that was used to induce a model and the data that is found after the model is deployed cause a decrease of performance for several tasks, such as classification. On the other hand, in several tasks, such as quantification, we are explicitly interested in measuring how a distribution changes over time. For any of these problems, however, we generally run into solutions that rely on strong assumptions, which are impractical or even impracticable in real world applications. In this thesis, we provide solutions that rely on less restrictive and/or more realistic assumptions in order to allow such methods to be employed in real applications. In the concept drift detection area, we introduce unsupervised drift detection methods that allow for performing classification and quantification without ever requesting true labels after deployment. In the quantification area, we bootstrap a new research topic called one-class quantification. Similarly to one-class classification, in one-class quantification we are able to avoid strong assumptions regarding the negative class, which is deemed unpredictable. Our experimental results are promising and provide favorable evidences about the viability of solutions that are focused on solving real-world problems. |
id |
USP_32201111a335c149dc907dfb0d9400b7 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-27072020-174834 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Non-stationary and unpredictable data distributions in classification and quantificationDistribuições não estacionárias e imprevisíveis em classificação e quantificaçãoAprendizado com dados positivos e não- rotuladosClassificaçãoClassificationConcept driftDados não estacionáriosMudança de conceitoNonstationary dataPositive and unlabeled learningQuantificaçãoQuantificationIn the last years, we observed a crescent academic interest on nonstationary data. On the one hand, differences between the data that was used to induce a model and the data that is found after the model is deployed cause a decrease of performance for several tasks, such as classification. On the other hand, in several tasks, such as quantification, we are explicitly interested in measuring how a distribution changes over time. For any of these problems, however, we generally run into solutions that rely on strong assumptions, which are impractical or even impracticable in real world applications. In this thesis, we provide solutions that rely on less restrictive and/or more realistic assumptions in order to allow such methods to be employed in real applications. In the concept drift detection area, we introduce unsupervised drift detection methods that allow for performing classification and quantification without ever requesting true labels after deployment. In the quantification area, we bootstrap a new research topic called one-class quantification. Similarly to one-class classification, in one-class quantification we are able to avoid strong assumptions regarding the negative class, which is deemed unpredictable. Our experimental results are promising and provide favorable evidences about the viability of solutions that are focused on solving real-world problems.Nos últimos anos, é crescente a preocupação da academia com dados não estacionários. Por um lado, diferenças entre as distribuições dos dados disponíveis em laboratório, para treino e avaliação, e dos dados encontrados posteriormente, após implantação dos modelos para uso prático na aplicação, levam ao decréscimo de performance em diversas tarefas, como classificação. Por outro, em outras tarefas, como quantificação, há o interesse explícito em mensurar como a distribuição dos dados se altera ao longo do tempo. Em quaisquer casos, porém, é comum a existência de premissas que tornam as soluções disponíveis ao mesmo tempo possíveis em seus campos de estudo, e impráticas para aplicações reais. Esta tese de doutorado propõe soluções com premissas menos restritivas e/ou mais realistas, que possibilitem seu emprego em aplicações reais. Na área de detecção de mudança de conceito, são introduzidas técnicas de detecção não supervisionada que possibilitam classificação e quantificação sem a necessidade de requisitar rótulos verdadeiros após implantação do modelo. Em quantificação, é iniciada uma nova sub-área de pesquisa, one-class quantification. De forma similar à one-class classification, em one-class quantification não é assumida uma distribuição particular para a classe negativa, sendo considerada, portanto, imprevisível. Os resultados obtidos pela avaliação experimental empregada são promissores e demonstram a viabilidade de alternativas mais focadas em solucionar os problemas existentes em aplicações do mundo real.Biblioteca Digitais de Teses e Dissertações da USPBatista, Gustavo Enrique de Almeida Prado AlvesSousa, Elaine Parros Machado deReis, Denis Moreira dos2020-04-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2020-08-13T00:47:57Zoai:teses.usp.br:tde-27072020-174834Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-08-13T00:47:57Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Non-stationary and unpredictable data distributions in classification and quantification Distribuições não estacionárias e imprevisíveis em classificação e quantificação |
title |
Non-stationary and unpredictable data distributions in classification and quantification |
spellingShingle |
Non-stationary and unpredictable data distributions in classification and quantification Reis, Denis Moreira dos Aprendizado com dados positivos e não- rotulados Classificação Classification Concept drift Dados não estacionários Mudança de conceito Nonstationary data Positive and unlabeled learning Quantificação Quantification |
title_short |
Non-stationary and unpredictable data distributions in classification and quantification |
title_full |
Non-stationary and unpredictable data distributions in classification and quantification |
title_fullStr |
Non-stationary and unpredictable data distributions in classification and quantification |
title_full_unstemmed |
Non-stationary and unpredictable data distributions in classification and quantification |
title_sort |
Non-stationary and unpredictable data distributions in classification and quantification |
author |
Reis, Denis Moreira dos |
author_facet |
Reis, Denis Moreira dos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Batista, Gustavo Enrique de Almeida Prado Alves Sousa, Elaine Parros Machado de |
dc.contributor.author.fl_str_mv |
Reis, Denis Moreira dos |
dc.subject.por.fl_str_mv |
Aprendizado com dados positivos e não- rotulados Classificação Classification Concept drift Dados não estacionários Mudança de conceito Nonstationary data Positive and unlabeled learning Quantificação Quantification |
topic |
Aprendizado com dados positivos e não- rotulados Classificação Classification Concept drift Dados não estacionários Mudança de conceito Nonstationary data Positive and unlabeled learning Quantificação Quantification |
description |
In the last years, we observed a crescent academic interest on nonstationary data. On the one hand, differences between the data that was used to induce a model and the data that is found after the model is deployed cause a decrease of performance for several tasks, such as classification. On the other hand, in several tasks, such as quantification, we are explicitly interested in measuring how a distribution changes over time. For any of these problems, however, we generally run into solutions that rely on strong assumptions, which are impractical or even impracticable in real world applications. In this thesis, we provide solutions that rely on less restrictive and/or more realistic assumptions in order to allow such methods to be employed in real applications. In the concept drift detection area, we introduce unsupervised drift detection methods that allow for performing classification and quantification without ever requesting true labels after deployment. In the quantification area, we bootstrap a new research topic called one-class quantification. Similarly to one-class classification, in one-class quantification we are able to avoid strong assumptions regarding the negative class, which is deemed unpredictable. Our experimental results are promising and provide favorable evidences about the viability of solutions that are focused on solving real-world problems. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-04-08 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-27072020-174834/ |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257414842187776 |