Mitigando o impacto de dados non-IID em federated learning com entropia
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/267028 |
Resumo: | Algoritmos de Machine Learning (ML) possibilitam processar um conjunto de dados de entradas para gerar coeficientes que ajustem a saída a um resultado previamente conhecido, como menor erro possível, fazendo com que seja possível reconhecer e extrair padrões de um grande volume de dados (Big Data). Isso permite construir um modelo de aprendizagem para tomada de decisão. Essa aprendizagem pode ser de forma colaborativa, onde a aprendizagem envolve grupos de indivíduos trabalhando juntos para resolver determinado problema. Essa abordagem chama-se Collaborative Learning e demonstra desempenho bastante otimizado em relação aos métodos tradicionais de ML em várias aplicações, como por exemplo, compreensão de imagem e reconhecimento de voz. Também é possível ter uma aprendizagem de máquina em ambiente federado, mais conhecido como Federated Learning, onde os dispositivos compartilham dados não sensíveis entre si, como seus parâmetros, ajustando o modelo no dispositivo e o modelo global, através de hiperparâmetros. No entanto, um modelo de Federated Learning pode sofrer com dados non-IID (não independentes e identicamente distribuídos), que podem ser dados heterogêneos, surgindo de diversas fontes de dados e dispositivos. Os dados non-IID causam baixa convergência para algoritmos de ML e alto consumo de energia, aumentando também a largura de banda. Um dos conceitos da Teoria da Informação, que é a entropia, serve para medir o grau de aleatoriedade dos dados. Este trabalho propõe um modelo de Federated Learning que mitiga o impacto dos dados non-IID por meio de um algoritmo FedAvg-BE, que fornece aprendizado federado com a avaliação de entropia de borda para selecionar dados com melhor qualidade, em um ambiente de dados non-IID. A avaliação do desempenho do algoritmo, no melhor caso, demonstra 26% de economia de tempo de execução do modelo proposto em configurações de FL para datasets conhecidos da literatura. Os resultados dos 115 experimentos realizados neste trabalho demonstram a viabilidade do modelo proposto para mitigar o impacto dos dados non-IID. |
id |
URGS_b811ca01ca636ebfe81c5f497d97aa61 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/267028 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Orlandi, Fernanda CavalheiroGeyer, Claudio Fernando ResinAnjos, Julio Cesar Santos dos2023-11-11T03:25:22Z2023http://hdl.handle.net/10183/267028001187560Algoritmos de Machine Learning (ML) possibilitam processar um conjunto de dados de entradas para gerar coeficientes que ajustem a saída a um resultado previamente conhecido, como menor erro possível, fazendo com que seja possível reconhecer e extrair padrões de um grande volume de dados (Big Data). Isso permite construir um modelo de aprendizagem para tomada de decisão. Essa aprendizagem pode ser de forma colaborativa, onde a aprendizagem envolve grupos de indivíduos trabalhando juntos para resolver determinado problema. Essa abordagem chama-se Collaborative Learning e demonstra desempenho bastante otimizado em relação aos métodos tradicionais de ML em várias aplicações, como por exemplo, compreensão de imagem e reconhecimento de voz. Também é possível ter uma aprendizagem de máquina em ambiente federado, mais conhecido como Federated Learning, onde os dispositivos compartilham dados não sensíveis entre si, como seus parâmetros, ajustando o modelo no dispositivo e o modelo global, através de hiperparâmetros. No entanto, um modelo de Federated Learning pode sofrer com dados non-IID (não independentes e identicamente distribuídos), que podem ser dados heterogêneos, surgindo de diversas fontes de dados e dispositivos. Os dados non-IID causam baixa convergência para algoritmos de ML e alto consumo de energia, aumentando também a largura de banda. Um dos conceitos da Teoria da Informação, que é a entropia, serve para medir o grau de aleatoriedade dos dados. Este trabalho propõe um modelo de Federated Learning que mitiga o impacto dos dados non-IID por meio de um algoritmo FedAvg-BE, que fornece aprendizado federado com a avaliação de entropia de borda para selecionar dados com melhor qualidade, em um ambiente de dados non-IID. A avaliação do desempenho do algoritmo, no melhor caso, demonstra 26% de economia de tempo de execução do modelo proposto em configurações de FL para datasets conhecidos da literatura. Os resultados dos 115 experimentos realizados neste trabalho demonstram a viabilidade do modelo proposto para mitigar o impacto dos dados non-IID.Machine Learning (ML) algorithms make it possible to process a set of input data to generate coefficients that adjust the output to a previously known result, with the smallest possible error, making it possible to recognize and extract patterns from a large volume of data (Big Data). This will allow building a learning model for decision making. This learning can be collaborative, where learning involves groups of individuals working together to solve a given problem. This approach is called Collaborative Learning and demonstrates highly optimized performance compared to traditional ML methods in several applications, such as image understanding and voice recognition. It is also possible to have machine learning in a federated environment, better known as Federated Learning, where IoT devices share non sensitive data with each other, such as their parameters, adjusting the model on the device and the global model, through hyperparameters. However, a Federated Learning model can suffer from non-IID (non-independent and identically distributed) data, which can be heterogeneous data, being produced from diverse data sources and devices. Non-IID data causes low convergence for ML algorithms and high power consumption, also increasing bandwidth. One of the concepts of Information Theory, which is entropy, serves to measure the degree of randomness of data. This work proposes a Federated Learning model that mitigates the impact of non-IID data through a FedAvg-BE algorithm, which provides federated learning with border entropy evaluation to select data with better quality, in a non-IID data environment. The evaluation of the performance of the algorithm, in the best case, demonstrates 26% of execution time savings of the proposed model in FL configurations for datasets known in the literature. The results of the 115 experiments carried out in this work demonstrate the viability of the proposed model to mitigate the impact of non-IID data.application/pdfporBig dataAprendizado de máquinaAlgoritmosCollaborative learningFederated learningHeterogeneous dataNon-IIDMitigando o impacto de dados non-IID em federated learning com entropiaMitigating non-IID data impact in federated learning with entropy info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001187560.pdf.txt001187560.pdf.txtExtracted Texttext/plain163465http://www.lume.ufrgs.br/bitstream/10183/267028/2/001187560.pdf.txt3f3816a7c0d56ef5ae7fe70fe9a1f346MD52ORIGINAL001187560.pdfTexto parcialapplication/pdf4451731http://www.lume.ufrgs.br/bitstream/10183/267028/1/001187560.pdf9ca47360cd6dcde0e69e4ef71ccdb7edMD5110183/2670282023-11-12 04:24:18.320559oai:www.lume.ufrgs.br:10183/267028Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532023-11-12T06:24:18Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Mitigando o impacto de dados non-IID em federated learning com entropia |
dc.title.alternative.en.fl_str_mv |
Mitigating non-IID data impact in federated learning with entropy |
title |
Mitigando o impacto de dados non-IID em federated learning com entropia |
spellingShingle |
Mitigando o impacto de dados non-IID em federated learning com entropia Orlandi, Fernanda Cavalheiro Big data Aprendizado de máquina Algoritmos Collaborative learning Federated learning Heterogeneous data Non-IID |
title_short |
Mitigando o impacto de dados non-IID em federated learning com entropia |
title_full |
Mitigando o impacto de dados non-IID em federated learning com entropia |
title_fullStr |
Mitigando o impacto de dados non-IID em federated learning com entropia |
title_full_unstemmed |
Mitigando o impacto de dados non-IID em federated learning com entropia |
title_sort |
Mitigando o impacto de dados non-IID em federated learning com entropia |
author |
Orlandi, Fernanda Cavalheiro |
author_facet |
Orlandi, Fernanda Cavalheiro |
author_role |
author |
dc.contributor.author.fl_str_mv |
Orlandi, Fernanda Cavalheiro |
dc.contributor.advisor1.fl_str_mv |
Geyer, Claudio Fernando Resin |
dc.contributor.advisor-co1.fl_str_mv |
Anjos, Julio Cesar Santos dos |
contributor_str_mv |
Geyer, Claudio Fernando Resin Anjos, Julio Cesar Santos dos |
dc.subject.por.fl_str_mv |
Big data Aprendizado de máquina Algoritmos |
topic |
Big data Aprendizado de máquina Algoritmos Collaborative learning Federated learning Heterogeneous data Non-IID |
dc.subject.eng.fl_str_mv |
Collaborative learning Federated learning Heterogeneous data Non-IID |
description |
Algoritmos de Machine Learning (ML) possibilitam processar um conjunto de dados de entradas para gerar coeficientes que ajustem a saída a um resultado previamente conhecido, como menor erro possível, fazendo com que seja possível reconhecer e extrair padrões de um grande volume de dados (Big Data). Isso permite construir um modelo de aprendizagem para tomada de decisão. Essa aprendizagem pode ser de forma colaborativa, onde a aprendizagem envolve grupos de indivíduos trabalhando juntos para resolver determinado problema. Essa abordagem chama-se Collaborative Learning e demonstra desempenho bastante otimizado em relação aos métodos tradicionais de ML em várias aplicações, como por exemplo, compreensão de imagem e reconhecimento de voz. Também é possível ter uma aprendizagem de máquina em ambiente federado, mais conhecido como Federated Learning, onde os dispositivos compartilham dados não sensíveis entre si, como seus parâmetros, ajustando o modelo no dispositivo e o modelo global, através de hiperparâmetros. No entanto, um modelo de Federated Learning pode sofrer com dados non-IID (não independentes e identicamente distribuídos), que podem ser dados heterogêneos, surgindo de diversas fontes de dados e dispositivos. Os dados non-IID causam baixa convergência para algoritmos de ML e alto consumo de energia, aumentando também a largura de banda. Um dos conceitos da Teoria da Informação, que é a entropia, serve para medir o grau de aleatoriedade dos dados. Este trabalho propõe um modelo de Federated Learning que mitiga o impacto dos dados non-IID por meio de um algoritmo FedAvg-BE, que fornece aprendizado federado com a avaliação de entropia de borda para selecionar dados com melhor qualidade, em um ambiente de dados non-IID. A avaliação do desempenho do algoritmo, no melhor caso, demonstra 26% de economia de tempo de execução do modelo proposto em configurações de FL para datasets conhecidos da literatura. Os resultados dos 115 experimentos realizados neste trabalho demonstram a viabilidade do modelo proposto para mitigar o impacto dos dados non-IID. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-11-11T03:25:22Z |
dc.date.issued.fl_str_mv |
2023 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/267028 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001187560 |
url |
http://hdl.handle.net/10183/267028 |
identifier_str_mv |
001187560 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/267028/2/001187560.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/267028/1/001187560.pdf |
bitstream.checksum.fl_str_mv |
3f3816a7c0d56ef5ae7fe70fe9a1f346 9ca47360cd6dcde0e69e4ef71ccdb7ed |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085632834273280 |