Sistema de Previsão de Preço de Carros Usados através de Machine Learning

Detalhes bibliográficos
Autor(a) principal: Magalhães, Tomás Silva de
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/24011
Resumo: O avanço da Inteligência Artificial tem fomentado o lançamento de automóveis com especificações cada vez mais inovadoras e, consequentemente, a preços mais elevados. Tal aumento de preços conduz a uma maior procura na compra/venda de carros usados. Esta procura leva, muitas vezes, à atribuição de preços irrealistas aos mesmos, aumentando o número de fraudes neste setor, e a uma elevada discrepância nos preços praticados. Neste âmbito, a área de Machine Learning pode ter um papel preponderante, nomeadamente na elaboração de modelos de previsão de preços de carros usados. Assim, o objetivo do presente trabalho prendeu-se com a análise dos modelos já desenvolvidos neste contexto, do grau de precisão dos mesmos e com a criação de um modelo que colmatasse as falhas nos já existentes, de forma a se aumentar o referido grau de precisão. Neste contexto, foram testados os algoritmos RF, XGBoost, LightGBM, RL, MLP e CNN em quatro conjuntos de dados A, B, C e D. O conjunto de dados A possui 50 características e 57038 carros, o conjunto de dados B possui 30 características e 70253 automóveis, o conjunto de dados C possui 10 características e 192799 veículos e o conjunto de dados D possui as 13 características mais preponderantes e 144702 carros. Os algoritmos aplicados aos conjuntos de dados A, B e C foram testados duas vezes, com hiperparâmetros padrão e hiperparâmetros modificados. Todos os algoritmos dos quatro conjuntos de dados foram sujeitos a uma metodologia de 80% de treino e de 20% de testes e avaliados, maioritariamente, através das métricas R2, MSE, RMSE e MAE. Os algoritmos testados com os conjuntos de dados A, B e C obtiveram melhores resultados aquando da alteração de hiperparâmetros padrão, com a exceção do algoritmo MLP no conjunto de dados A e o algoritmo RL nos quatro conjuntos de dados. Dentro dos algoritmos testados, os algoritmos XGBoost e LightGBM foram os que apresentaram melhores resultados, tendo os mesmos sido muito idênticos entre si nos 4 conjuntos de dados. Entre os dois algoritmos, o XGBoost foi o que apresentou melhores resultados. Por fim, o algoritmo XGBoost do conjunto de dados A (MAE=0.12892, RMSE=0.18947, MSE=0.03590, R2=0.96432) e D (MAE=0.12389, RMSE=0.18913, MSE=0.03577, R2=0.96404) foram os que apresentaram melhores resultados entre os algoritmos testados, bem como quando comparados com os algoritmos estudados aquando da revisão do estado da arte.
id RCAP_04c5ed25d6a4e09ac07d0f06f412bca9
oai_identifier_str oai:recipp.ipp.pt:10400.22/24011
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Sistema de Previsão de Preço de Carros Usados através de Machine LearningInteligência ArtificialMachine LearningDeep LearningSistema de PrevisãoCarros usadosRFRLXGBoostLightGBMMLPCNNDomínio/Área Científica::Engenharia e TecnologiaO avanço da Inteligência Artificial tem fomentado o lançamento de automóveis com especificações cada vez mais inovadoras e, consequentemente, a preços mais elevados. Tal aumento de preços conduz a uma maior procura na compra/venda de carros usados. Esta procura leva, muitas vezes, à atribuição de preços irrealistas aos mesmos, aumentando o número de fraudes neste setor, e a uma elevada discrepância nos preços praticados. Neste âmbito, a área de Machine Learning pode ter um papel preponderante, nomeadamente na elaboração de modelos de previsão de preços de carros usados. Assim, o objetivo do presente trabalho prendeu-se com a análise dos modelos já desenvolvidos neste contexto, do grau de precisão dos mesmos e com a criação de um modelo que colmatasse as falhas nos já existentes, de forma a se aumentar o referido grau de precisão. Neste contexto, foram testados os algoritmos RF, XGBoost, LightGBM, RL, MLP e CNN em quatro conjuntos de dados A, B, C e D. O conjunto de dados A possui 50 características e 57038 carros, o conjunto de dados B possui 30 características e 70253 automóveis, o conjunto de dados C possui 10 características e 192799 veículos e o conjunto de dados D possui as 13 características mais preponderantes e 144702 carros. Os algoritmos aplicados aos conjuntos de dados A, B e C foram testados duas vezes, com hiperparâmetros padrão e hiperparâmetros modificados. Todos os algoritmos dos quatro conjuntos de dados foram sujeitos a uma metodologia de 80% de treino e de 20% de testes e avaliados, maioritariamente, através das métricas R2, MSE, RMSE e MAE. Os algoritmos testados com os conjuntos de dados A, B e C obtiveram melhores resultados aquando da alteração de hiperparâmetros padrão, com a exceção do algoritmo MLP no conjunto de dados A e o algoritmo RL nos quatro conjuntos de dados. Dentro dos algoritmos testados, os algoritmos XGBoost e LightGBM foram os que apresentaram melhores resultados, tendo os mesmos sido muito idênticos entre si nos 4 conjuntos de dados. Entre os dois algoritmos, o XGBoost foi o que apresentou melhores resultados. Por fim, o algoritmo XGBoost do conjunto de dados A (MAE=0.12892, RMSE=0.18947, MSE=0.03590, R2=0.96432) e D (MAE=0.12389, RMSE=0.18913, MSE=0.03577, R2=0.96404) foram os que apresentaram melhores resultados entre os algoritmos testados, bem como quando comparados com os algoritmos estudados aquando da revisão do estado da arte.The development of Artificial Intelligence has fostered the launch of cars with increasingly innovative specifications and, consequently, at higher prices. Such price increases lead to a bigger demand for the purchase/sale of used cars. This demand often leads to the attribution of unrealistic prices to used cars, increasing the number of frauds in this setor, and a high discrepancy in prices. In this context, the area of Machine Learning can play a preponderant role, namely in the elaboration of used car price-prediction models. Thus, the goal of this study was to analyze the models already developed in this context, their precision level as well as the creation of a model that would fill the gaps in the existing models, to increase the referred precision level. In this context, the algorithms RF, XGBoost, LightGBM, RL, MLP, and CNN were tested on four data sets A, B, C, and D. Dataset A has 50 features and 57038 cars, dataset B has 30 features and 70253 cars, dataset C has 10 features and 192799 vehicles, and dataset D has the 13 most prevalent features and 144702 cars. The algorithms applied to datasets A, B, and C were tested twice, with default hyperparameters and modified hyperparameters. All algorithms of the four datasets were submitted to an 80% training and 20% testing methodology and mostly evaluated using the R2, MSE, RMSE, and MAE metrics. The algorithms tested with datasets A, B, and C obtained better results when changing default hyperparameters, except for the MLP algorithm of dataset A and RL algorithm of datasets, A, B, C, and D. XGBoost and LightGBM algorithms were the most successful ones, being their results very similar to each other in all 4 datasets. Among the two algorithms, XGBoost was the one that presented the best results. The algorithm XGBoost on datasets A (MAE=0.12892, RMSE=0.18947, MSE=0.03590, R2=0.96432) and D (MAE=0.12389, RMSE=0.18913, MSE=0.03577, R2=0.96404) were the ones that presented better results among the tested algorithms, as well as when compared with the algorithms studied when reviewing the state of the art.Faria, Luiz Felipe Rocha deRepositório Científico do Instituto Politécnico do PortoMagalhães, Tomás Silva de2023-11-28T10:04:15Z2023-07-252023-07-25T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/24011TID:203381165porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-06T01:46:16Zoai:recipp.ipp.pt:10400.22/24011Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:20:01.906853Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Sistema de Previsão de Preço de Carros Usados através de Machine Learning
title Sistema de Previsão de Preço de Carros Usados através de Machine Learning
spellingShingle Sistema de Previsão de Preço de Carros Usados através de Machine Learning
Magalhães, Tomás Silva de
Inteligência Artificial
Machine Learning
Deep Learning
Sistema de Previsão
Carros usados
RF
RL
XGBoost
LightGBM
MLP
CNN
Domínio/Área Científica::Engenharia e Tecnologia
title_short Sistema de Previsão de Preço de Carros Usados através de Machine Learning
title_full Sistema de Previsão de Preço de Carros Usados através de Machine Learning
title_fullStr Sistema de Previsão de Preço de Carros Usados através de Machine Learning
title_full_unstemmed Sistema de Previsão de Preço de Carros Usados através de Machine Learning
title_sort Sistema de Previsão de Preço de Carros Usados através de Machine Learning
author Magalhães, Tomás Silva de
author_facet Magalhães, Tomás Silva de
author_role author
dc.contributor.none.fl_str_mv Faria, Luiz Felipe Rocha de
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Magalhães, Tomás Silva de
dc.subject.por.fl_str_mv Inteligência Artificial
Machine Learning
Deep Learning
Sistema de Previsão
Carros usados
RF
RL
XGBoost
LightGBM
MLP
CNN
Domínio/Área Científica::Engenharia e Tecnologia
topic Inteligência Artificial
Machine Learning
Deep Learning
Sistema de Previsão
Carros usados
RF
RL
XGBoost
LightGBM
MLP
CNN
Domínio/Área Científica::Engenharia e Tecnologia
description O avanço da Inteligência Artificial tem fomentado o lançamento de automóveis com especificações cada vez mais inovadoras e, consequentemente, a preços mais elevados. Tal aumento de preços conduz a uma maior procura na compra/venda de carros usados. Esta procura leva, muitas vezes, à atribuição de preços irrealistas aos mesmos, aumentando o número de fraudes neste setor, e a uma elevada discrepância nos preços praticados. Neste âmbito, a área de Machine Learning pode ter um papel preponderante, nomeadamente na elaboração de modelos de previsão de preços de carros usados. Assim, o objetivo do presente trabalho prendeu-se com a análise dos modelos já desenvolvidos neste contexto, do grau de precisão dos mesmos e com a criação de um modelo que colmatasse as falhas nos já existentes, de forma a se aumentar o referido grau de precisão. Neste contexto, foram testados os algoritmos RF, XGBoost, LightGBM, RL, MLP e CNN em quatro conjuntos de dados A, B, C e D. O conjunto de dados A possui 50 características e 57038 carros, o conjunto de dados B possui 30 características e 70253 automóveis, o conjunto de dados C possui 10 características e 192799 veículos e o conjunto de dados D possui as 13 características mais preponderantes e 144702 carros. Os algoritmos aplicados aos conjuntos de dados A, B e C foram testados duas vezes, com hiperparâmetros padrão e hiperparâmetros modificados. Todos os algoritmos dos quatro conjuntos de dados foram sujeitos a uma metodologia de 80% de treino e de 20% de testes e avaliados, maioritariamente, através das métricas R2, MSE, RMSE e MAE. Os algoritmos testados com os conjuntos de dados A, B e C obtiveram melhores resultados aquando da alteração de hiperparâmetros padrão, com a exceção do algoritmo MLP no conjunto de dados A e o algoritmo RL nos quatro conjuntos de dados. Dentro dos algoritmos testados, os algoritmos XGBoost e LightGBM foram os que apresentaram melhores resultados, tendo os mesmos sido muito idênticos entre si nos 4 conjuntos de dados. Entre os dois algoritmos, o XGBoost foi o que apresentou melhores resultados. Por fim, o algoritmo XGBoost do conjunto de dados A (MAE=0.12892, RMSE=0.18947, MSE=0.03590, R2=0.96432) e D (MAE=0.12389, RMSE=0.18913, MSE=0.03577, R2=0.96404) foram os que apresentaram melhores resultados entre os algoritmos testados, bem como quando comparados com os algoritmos estudados aquando da revisão do estado da arte.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-28T10:04:15Z
2023-07-25
2023-07-25T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/24011
TID:203381165
url http://hdl.handle.net/10400.22/24011
identifier_str_mv TID:203381165
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135499212816384