Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport

Detalhes bibliográficos
Autor(a) principal: Feiteira, Inês Viana
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/42529
Resumo: Project Work presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business Intelligence
id RCAP_558d80c19782e4bbd052f9aa9fb2b502
oai_identifier_str oai:run.unl.pt:10362/42529
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airportData MiningFlight DelaysAtraso AéreoAtlanta International AirportAeroporto Internacional de AtlantaPredictive AnalysisAnálise PreditivaHartsfield–Jackson International AirportProject Work presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business IntelligenceAtualmente, um ponto negativo nas viagens de avião são os atrasos que, constantemente, são anunciados aos passageiros resultando numa diminuição da sua satisfação enquanto clientes. Este e outros fatores fazem com que elevados custos, tanto quantitativos como qualitativos sejam imputados às companhias. Consequentemente, existe a necessidade de prever e mitigar a existência de atrasos aéreos que pode ajudar as companhias aéreas bem como aeroportos a melhorar a sua performance e a aplicar algumas medidas, dirigidas ao consumidor, que permitiam atenuar ou até anular o efeito que estes atrasos provoca nos seus passageiros. Deste modo, este estudo tem como principal objetivo prever a ocorrência de atrasos nas chegadas ao aeroporto internacional de Hartsfield-Jackson. Esta estimativa será possível através da elaboração de um modelo preditivo, recorrendo a diversas técnicas de Data Mining. Com a aplicação destas técnicas, foi possível identificar as variáveis que mais contribuíram para a existência do atraso. No desenvolvimento deste trabalho, foi seguida a metodologia da descoberta de conhecimento em base de dados (conhecida em inglês por Knowledge Discovery Database, KDD). Fases como a recolha dos dados, a aplicação de técnicas de amostragem (SMOTE e Undersampling), a partição dos dados em treino e teste, o pré-processamento (dados omissos e outliers) e transformação dos dados (normalização dos dados e seleção de atributos), a definição de modelos a treinar (Decision Trees, Random Forest e Multilayer Perceptron) bem como a avaliação da performance dos modelos através de métricas variadas foram aplicadas. Depois de testar diferentes abordagens, concluiu-se que o melhor modelo é alcançado com as variáveis relacionadas com a partida, usando o algoritmo Multilayer Perceptron e aplicando a técnica de SMOTE para lidar com dados não balanceados, removendo outliers e selecionando dez variáveis usando GainRatio. Por outro lado, quando as variáveis com informação da partida são excluídas, o algoritmo que melhor se destaca é o Multilayer Perceptron usando a técnica SMOTE, mas desta vez, incluindo os outliers e com quinze variáveis selecionadas novamente pelo GainRatio. Em ambas as hipóteses, as variáveis explicativas que mais contribuem para a existência do atraso na chegada são relacionadas com o clima, com as características do avião e com a propagação do atraso. Os resultados do algoritmo de Random Forests mostraram melhor desempenho, em relação à precisão, em comparação com outros autores (Belcastro, Marozzo, Talia, & Trunfio, 2016; Choi, Kim, Briceno, & Mavris, 2016). Contrariamente, o algoritmo Multilayer Perceptron, apresentou menor precisão em comparação com outro estudo equivalente (Y. J. Kim, Choi, Briceno, & Mavris, 2016).Nowadays, a downside to traveling is the delays that are constantly advertised to passengers resulting in a decrease in customer satisfaction. These delays associated with other factors can cause costs, both quantitative and qualitative. Consequently, there is a need to anticipate and mitigate the existence of airborne delays that can help airlines and airports improving their performance or even take some consumer-oriented measures that can undo or attenuate the effect that these delays have on their passengers. This study has as primary objective to predict the occurrence of arrival delays of the international airport of Hartsfield-Jackson. It was possible by building a predictive model, applying several Data Mining techniques. With these applications, it was possible to show the variables, among the proposals, that most contributed to the existence of the delay. In this work, the Knowledge Discovery Database (KDD) methodology was followed. Phases such as data collection; sampling techniques (SMOTE and Undersampling); Data partitioning in training and testing; Pre-processing (missing data and outliers) and data transformation (data normalization and attribute selection); And, finally the definition of models to be trained (Decision Trees, Random Forests, and Multilayer Perceptron), as well as the evaluation of the performance of the models through varied metrics, were used. After testing different approaches, it was concluded that the best model is achieved with the variables related to departure, using the Multilayer Perceptron algorithm and applying SMOTE to deal with unbalanced data, removing outliers and selecting ten variables using GainRatio. On the other hand, when the variables with information of the departure are excluded, the algorithm that performs best is also the Multilayer Perceptron using the SMOTE technique but, this time, including the outliers and with fifteen variables selected again by the GainRatio. On both hypotheses, the explanatory variables that most contributed to the existence of the delay in arrivals were related to the weather, the airplane characteristics and the propagation of the delay. Our results for the Random Forests algorithm shown better performance, regarding accuracy, compared to other authors (Belcastro et al., 2016; Choi et al., 2016). Contrary, for the Multilayer Perceptron algorithm, was presented a lower accuracy compared to another equivalent study (Y. J. Kim et al., 2016).Henriques, Roberto André PereiraRUNFeiteira, Inês Viana2018-07-26T12:41:44Z2018-07-192018-07-19T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/42529TID:201955784enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T04:22:57Zoai:run.unl.pt:10362/42529Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:31:30.390143Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
title Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
spellingShingle Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
Feiteira, Inês Viana
Data Mining
Flight Delays
Atraso Aéreo
Atlanta International Airport
Aeroporto Internacional de Atlanta
Predictive Analysis
Análise Preditiva
Hartsfield–Jackson International Airport
title_short Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
title_full Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
title_fullStr Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
title_full_unstemmed Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
title_sort Predictive modelling : flight delays and associated factors hartsfield–Jackson Atlanta international airport
author Feiteira, Inês Viana
author_facet Feiteira, Inês Viana
author_role author
dc.contributor.none.fl_str_mv Henriques, Roberto André Pereira
RUN
dc.contributor.author.fl_str_mv Feiteira, Inês Viana
dc.subject.por.fl_str_mv Data Mining
Flight Delays
Atraso Aéreo
Atlanta International Airport
Aeroporto Internacional de Atlanta
Predictive Analysis
Análise Preditiva
Hartsfield–Jackson International Airport
topic Data Mining
Flight Delays
Atraso Aéreo
Atlanta International Airport
Aeroporto Internacional de Atlanta
Predictive Analysis
Análise Preditiva
Hartsfield–Jackson International Airport
description Project Work presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business Intelligence
publishDate 2018
dc.date.none.fl_str_mv 2018-07-26T12:41:44Z
2018-07-19
2018-07-19T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/42529
TID:201955784
url http://hdl.handle.net/10362/42529
identifier_str_mv TID:201955784
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137938088394752