A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico

Detalhes bibliográficos
Autor(a) principal: Erica da Silva Lopes
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://doi.org/10.11606/D.55.2021.tde-10052021-093703
Resumo: O uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada.
id USP_13a8bce29987c88e8eb5525bc53b3261
oai_identifier_str oai:teses.usp.br:tde-10052021-093703
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico The influence of correlated data on Machine Learning models - An empirical study 2021-03-10Adriano Kamimura SuzukiPaulino Ribeiro Villas BoasRodrigo Rossetto PescimAnderson Luiz Ara SouzaErica da Silva LopesUniversidade de São PauloMestrado Profissional Matemática, Estatística e Computação Aplicadas à IndústriaUSPBR Aprendizado de máquina Aprendizado estatístico Generalização Generalization Independência amostral Machine learning Sampling independence Statistical learning O uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada. The use of Machine Learning models has been widespread in different areas of the industry, either to assess brand satisfaction according to comments on the internet, or to recommend products, or to assess credit risk. However, many people associate this subject exclusively to computer science area, disregarding fundamental statistical concepts to guarantee the learning, generalization, of the model. Bearing in mind that the Theory of Statistical Learning has five premises for a guarantee of generalization, the aim of this study is to empirically evaluate the effects by disregarding one of the premises, an independence among the necessary ones. In this sense, two databases of the banking sector were evaluated, both with data collected in a temporal window. The databases were divided into training, validation and testing, in which the first two were collected at the same time window, but the validation was not used in the development of the model. We note that the teste contains new information not belonging to the time frame of the training base. The Machine Learning textit Light Gradient Boosting Machine technique was used to model each of the training bases. The performance of the models was measured with the AUC metric and compared with the different types of autocorrelation for each base (dependence between sample and temporal units). The results showed that a temporal autocorrelation, statistically significant for the two data sets, influences the decrease in performance for the temporal window of development of the models (test subsets). On the other hand, for a database in which there is not autocorrelation between for a database in which there is not autocorrelation between the observations, the fitted model presented good performance for the validation data. Also, we note this not occur for the fitted model with the base that has significant autocorralation between the observations. Thus, there are indications that if the premise of independence in the data set is disregarded, the ability of the model to learn is impaired. https://doi.org/10.11606/D.55.2021.tde-10052021-093703info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2023-12-21T18:36:30Zoai:teses.usp.br:tde-10052021-093703Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-12-22T12:26:05.821968Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.pt.fl_str_mv A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
dc.title.alternative.en.fl_str_mv The influence of correlated data on Machine Learning models - An empirical study
title A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
spellingShingle A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
Erica da Silva Lopes
title_short A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_full A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_fullStr A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_full_unstemmed A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
title_sort A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
author Erica da Silva Lopes
author_facet Erica da Silva Lopes
author_role author
dc.contributor.advisor1.fl_str_mv Adriano Kamimura Suzuki
dc.contributor.referee1.fl_str_mv Paulino Ribeiro Villas Boas
dc.contributor.referee2.fl_str_mv Rodrigo Rossetto Pescim
dc.contributor.referee3.fl_str_mv Anderson Luiz Ara Souza
dc.contributor.author.fl_str_mv Erica da Silva Lopes
contributor_str_mv Adriano Kamimura Suzuki
Paulino Ribeiro Villas Boas
Rodrigo Rossetto Pescim
Anderson Luiz Ara Souza
description O uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada.
publishDate 2021
dc.date.issued.fl_str_mv 2021-03-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.11606/D.55.2021.tde-10052021-093703
url https://doi.org/10.11606/D.55.2021.tde-10052021-093703
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de São Paulo
dc.publisher.program.fl_str_mv Mestrado Profissional Matemática, Estatística e Computação Aplicadas à Indústria
dc.publisher.initials.fl_str_mv USP
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade de São Paulo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1794502621935960064