Understanding Fairness Bias in Missing Data Imputation

Detalhes bibliográficos
Autor(a) principal: Ramos, João Xavier Carvalho
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/105997
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_0bfc1713486d4b7fe6cf5305007ce565
oai_identifier_str oai:estudogeral.uc.pt:10316/105997
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Understanding Fairness Bias in Missing Data ImputationCompreender o Preconceito na Imputação de Dados em FaltaDados em FaltaMecanismos de Dados em FaltaPreconceitoImputação de DadosEquidadeMissing DataMissing MechanismsBiasData ImputationFairnessDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaIn the past few years, rapid developments in artificial intelligence technology have culminated in its widespread adoption. The application of AI in real-world scenarios has revealed the importance of fairness in machine learning, in order words, the capacity of decision-making systems to operate in a way that doesn't discriminate against any particular group or individual. Because of this, algorithmic fairness has become a booming field in Machine Learning research with an increasing number of papers being released each year. Missing values are extremely prevalent in large datasets like those used in real-world applications by the industry. These missing values can be generated according to the three missing data mechanisms: Missing Completely At Random, Missing At Random, and Missing Not At Random. Since most machine learning algorithms can't handle these missing values, they have to be dealt with. This is normally accomplished through data imputation. Because of these unique circumstances, the effect that missing data and the imputation process have on the fairness of decision-making systems has become an ignored but important topic in Machine Learning research. This thesis presents a thorough study of the effects that data imputation has on the fairness of machine learning models. We conducted our experiments considering different missing data mechanisms, imputation methods, and missing rates. To analyze the fairness of our models we utilized 7 fairness metrics: Disparate Impact, CV, Equal Opportunity, Equal Mis-Opportunity, Positive Calibration, Negative Calibration, and Generalized Entropy Index. The main findings include how each of these metrics reacts to imputed data. Disparate Impact, and CV, show a positive correlation with missing rate. According to the Generalized Entropy Index and Equal Mis-Opportunity, classifier became less fair the higher the missing rate. The other metrics showed no correlation with the percentage of imputed data.Nos últimos anos, os rápidos desenvolvimentos na tecnologia da inteligência artificial culmi-naram na sua adopção generalizada. A aplicação de IA em cenários do mundo real reveloua importância da equidade em machine learning, por outras palavras, a capacidade dossistemas de tomada de decisão autónoma de operarem de uma forma que não discriminequalquer grupo ou indivíduo. Devido a isto, a equidade algorítmica tornou-se um campoem expansão na investigação sobre Inteligência Artificial, com um crescente número detrabalhos a serem publicados todos os anos.Valores em falta são extremamente prevalecentes em grandes datasets como aqueles quesão utilizados em aplicações no mundo real pela indústria. Estes valores em falta podemser gerados de acordo com os três mecanismos de dados em falta: Missing Completely AtRandom, Missing At Random, and Missing Not At Random. Uma vez que, a maioria dosalgoritmos de machine learning não consegue lidar com valores em falta, estes têm de sertratados. Isto é normalmente alcançado através da imputação de dados. Devido a estascircunstâncias únicas, o efeito que os dados em falta e o processo de imputação têm sobre aequidade dos sistemas de inteligência artificial encontra-se com um tópico importante masignorado na investigação de ML.Esta tese apresenta um estudo aprofundado dos efeitos que a imputação de dados temsobre a equidade dos modelos de inteligencia artificial. Conduzimos as nossas experiênciasconsiderando diferentes mecanismos de dados em falta, métodos de imputação, e taxas defaltas. Para analisar a equidade dos nossos modelos, utilizámos 7 métricas de equidade:Disparate Impact, CV, Equal Opportunity, Equal Mis-Opportunity, Positive Calibration,Negative Calibration, and Generalized Entropy Index. As principais conclusões incluem aforma como cada uma destas métricas reage a dados imputados. O Disparate Impact, eo CV, mostram uma correlação positiva com a taxa em falta. De acordo com o Índice deEntropia Generalizada e a Equal Mis-Opportunity, os modelos tornaram-se menos justosquanto mais alta for a taxa em falta. As outras métricas não mostraram qualquer correlaçãocom a percentagem de dados imputados.2023-01-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/105997http://hdl.handle.net/10316/105997TID:203250141engRamos, João Xavier Carvalhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-16T21:34:26Zoai:estudogeral.uc.pt:10316/105997Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:22:28.077898Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Understanding Fairness Bias in Missing Data Imputation
Compreender o Preconceito na Imputação de Dados em Falta
title Understanding Fairness Bias in Missing Data Imputation
spellingShingle Understanding Fairness Bias in Missing Data Imputation
Ramos, João Xavier Carvalho
Dados em Falta
Mecanismos de Dados em Falta
Preconceito
Imputação de Dados
Equidade
Missing Data
Missing Mechanisms
Bias
Data Imputation
Fairness
title_short Understanding Fairness Bias in Missing Data Imputation
title_full Understanding Fairness Bias in Missing Data Imputation
title_fullStr Understanding Fairness Bias in Missing Data Imputation
title_full_unstemmed Understanding Fairness Bias in Missing Data Imputation
title_sort Understanding Fairness Bias in Missing Data Imputation
author Ramos, João Xavier Carvalho
author_facet Ramos, João Xavier Carvalho
author_role author
dc.contributor.author.fl_str_mv Ramos, João Xavier Carvalho
dc.subject.por.fl_str_mv Dados em Falta
Mecanismos de Dados em Falta
Preconceito
Imputação de Dados
Equidade
Missing Data
Missing Mechanisms
Bias
Data Imputation
Fairness
topic Dados em Falta
Mecanismos de Dados em Falta
Preconceito
Imputação de Dados
Equidade
Missing Data
Missing Mechanisms
Bias
Data Imputation
Fairness
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2023
dc.date.none.fl_str_mv 2023-01-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/105997
http://hdl.handle.net/10316/105997
TID:203250141
url http://hdl.handle.net/10316/105997
identifier_str_mv TID:203250141
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134114277752832