A utilização de algoritmos de aprendizado de máquina em problemas de classificação

Detalhes bibliográficos
Autor(a) principal: Batista, Maria Rita Sifuentes
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55137/tde-25032019-141126/
Resumo: Os últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados.
id USP_e10027513167e986d73745978b9256d2
oai_identifier_str oai:teses.usp.br:tde-25032019-141126
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling A utilização de algoritmos de aprendizado de máquina em problemas de classificaçãoThe use of machine learning algorithms in classification problemsAlgorithmAlgoritmoAprendizado de máquinaClassificaçãoClassificationMachine learningPredictionPrevisãoVariablesVariáveisOs últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados.The last few years were remarkable by relevant advances in technology, mainly related to computers. These advances, when added to the diversity of products offered by companies from different segments and their efforts in capturing and storing data from their customers and operations, helps to explain the amount of information that is currently being produced. Overall, the organizations have been efficient in capturing, organizing, and storing large amounts of data, but not all of them uses it adequately to make them useful knowledge for their activities. Learning algorithms are a powerful machine toll to acquire knowledge based on experience. The use of these algorithms allows advances and discoveries that brings a competitive advantage to the companies. The most common machine learning task is supervised learning, whose objective is to learn a predictive model from a set of data. This model should be able to generalize the acquired knowledge to a set of unknown data. This allows the model to have a good predictive capability. An important and widely used application of supervised learning are the classification problems, commonly seen in the financial industry. One of the challenges of this industry is to predict the payment capacity of its customers, rating them as good or bad payers. In this study, five supervised machine learning algorithms, logistic regression, Bayesian classifiers, k-neighbors, random forests and neural networks were investigated and applied to a real classification problem. Since the performance of these algorithms are affected by the variables used, variable selection techniques were applied to the original data set. The use of these techniques allows a computational reduction time by removing redundant and irrelevant information. Performance measures for binary classification were used to evaluate the predictive performance of the models generated by the five algorithms and to compare them. Since it is increasing the importance to have easily interpretable models, the interpretability and complexity of the models generated were also evaluated.Biblioteca Digitais de Teses e Dissertações da USPSousa, Fabrício Simeoni deBatista, Maria Rita Sifuentes2018-10-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55137/tde-25032019-141126/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-04-09T23:21:59Zoai:teses.usp.br:tde-25032019-141126Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-04-09T23:21:59Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv A utilização de algoritmos de aprendizado de máquina em problemas de classificação
The use of machine learning algorithms in classification problems
title A utilização de algoritmos de aprendizado de máquina em problemas de classificação
spellingShingle A utilização de algoritmos de aprendizado de máquina em problemas de classificação
Batista, Maria Rita Sifuentes
Algorithm
Algoritmo
Aprendizado de máquina
Classificação
Classification
Machine learning
Prediction
Previsão
Variables
Variáveis
title_short A utilização de algoritmos de aprendizado de máquina em problemas de classificação
title_full A utilização de algoritmos de aprendizado de máquina em problemas de classificação
title_fullStr A utilização de algoritmos de aprendizado de máquina em problemas de classificação
title_full_unstemmed A utilização de algoritmos de aprendizado de máquina em problemas de classificação
title_sort A utilização de algoritmos de aprendizado de máquina em problemas de classificação
author Batista, Maria Rita Sifuentes
author_facet Batista, Maria Rita Sifuentes
author_role author
dc.contributor.none.fl_str_mv Sousa, Fabrício Simeoni de
dc.contributor.author.fl_str_mv Batista, Maria Rita Sifuentes
dc.subject.por.fl_str_mv Algorithm
Algoritmo
Aprendizado de máquina
Classificação
Classification
Machine learning
Prediction
Previsão
Variables
Variáveis
topic Algorithm
Algoritmo
Aprendizado de máquina
Classificação
Classification
Machine learning
Prediction
Previsão
Variables
Variáveis
description Os últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados.
publishDate 2018
dc.date.none.fl_str_mv 2018-10-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55137/tde-25032019-141126/
url http://www.teses.usp.br/teses/disponiveis/55/55137/tde-25032019-141126/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809091060180189184