Optimizing data augmentation to improve al model performance

Detalhes bibliográficos
Autor(a) principal: Silva, Henrique Matheus Ferreira da
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/344
Resumo: Abstract The accuracy of Machine Learning (ML) based classification algorithms is highly dependent on the training dataset quality. However, many research topics have classification problems in which the examples distribution may vary widely, and in which specific classes may be strongly underrepresented (such as patient-specific medicine), or training data may be scarce (such as plant species classification), leading to unbalanced datasets. In both scenarios, this may result in a poor model’s efficiency. Data Augmentation Techniques try to mitigate this problem, by expanding the available training data in order to increase models performance. In this work, we present two novel techniques for data augmentation over tabular data. First, we present a method denominated SAGAD (Synthetic Data Generator for Tabular Datasets), which is based on the concept of conditional entropy. SAGAD can balance minority classes, at the same time increasing the overall size of the training set. Next, we present an extension of SAGAD for iterative learning algorithms, called DABEL (Data Generation Based on Complexity per Classes), which iteratively produces new training data samples based on class ambiguity. To validate our proposal, we simulated a small data scenario by using datasets well known in literature and also evaluated our methods on real world data. We evaluated SAGAD using four machine learning algorithms and DABEL using a neural network model. To measure our method’s performance, we developed a baseline use-case in which models are trained on small data, comparing both SAGAD and DABEL to it. We also tested other data augmentation techniques, against SAGAD. SAGAD is implemented and available via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), which is an R package in CRAN, for data augmentation which currently has more than 2200 downloads.
id LNCC_1f995bdf1d216fed1000ddb31bca9ff4
oai_identifier_str oai:tede-server.lncc.br:tede/344
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Optimizing data augmentation to improve al model performanceData AugmentationSmall dataAlgoritmos (Computação)Redes neurais (Computação)Aprendizado por computadorCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAbstract The accuracy of Machine Learning (ML) based classification algorithms is highly dependent on the training dataset quality. However, many research topics have classification problems in which the examples distribution may vary widely, and in which specific classes may be strongly underrepresented (such as patient-specific medicine), or training data may be scarce (such as plant species classification), leading to unbalanced datasets. In both scenarios, this may result in a poor model’s efficiency. Data Augmentation Techniques try to mitigate this problem, by expanding the available training data in order to increase models performance. In this work, we present two novel techniques for data augmentation over tabular data. First, we present a method denominated SAGAD (Synthetic Data Generator for Tabular Datasets), which is based on the concept of conditional entropy. SAGAD can balance minority classes, at the same time increasing the overall size of the training set. Next, we present an extension of SAGAD for iterative learning algorithms, called DABEL (Data Generation Based on Complexity per Classes), which iteratively produces new training data samples based on class ambiguity. To validate our proposal, we simulated a small data scenario by using datasets well known in literature and also evaluated our methods on real world data. We evaluated SAGAD using four machine learning algorithms and DABEL using a neural network model. To measure our method’s performance, we developed a baseline use-case in which models are trained on small data, comparing both SAGAD and DABEL to it. We also tested other data augmentation techniques, against SAGAD. SAGAD is implemented and available via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), which is an R package in CRAN, for data augmentation which currently has more than 2200 downloads.A acurácia dos algoritmos de classificação baseados em Aprendizado de Máquina (ML) é altamente dependente da qualidade do conjunto de dados de treinamento. No entanto, um entrave na área de pesquisa é classificação, pois a distribuição de exemplos pode variar amplamente e classes específicas podem ser fortemente sub-representadas (como medicamentos específicos do paciente); assim como os dados de treinamento podem ser escassos (como classificação de espécies de plantas), resultando em conjuntos de dados não balanceados. Em ambos os cenários, esse aspecto pode resultar na baixa eficiência do modelo. As Técnicas de Aumento de Dados tentam mitigar esses problemas, expandindo os dados de treinamento disponíveis, para assim aumentar o desempenho dos modelos. No presente estudo, apresentamos duas novas técnicas para aumento de dados tabulares. Apresentamos, primeiramente, um método denominado SAGAD (Synthetic Data Generator for Tabular Datasets), baseado no conceito de entropia condicional. O SAGAD pode equilibrar classes minoritárias; permitindo o aumento do tamanho geral do conjunto de treinamento. Em seguida é apresentada uma extensão do SAGAD para algoritmos de aprendizagem iterativa, denominada DABEL (Data Genetarion Based on Complexity per Classes), que produz novas amostras de dados de treinamento, com base na ambiguidade da classe. Para validar nossa proposta, simulamos um cenário de poucos dados.A avaliação do SAGAD foi feita usando quatro diferentes algoritmos de aprendizado de máquina. Já o DABEL foi avalaliado a partir de uma rede neural. Também foram realizadas comparações entre outras técnicas de geração de dados e o SAGAD. O SAGAD está implementado e disponível via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), que é um pacote R no CRAN para aumento de dados e que, atualmente, tem mais de 2200 downloads.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalPorto, Fábio André MachadoPorto, Fábio André MachadoNicolás, Marisa FabianaSilva, Eduardo Bezerra daPedroso, Marcel MoraesSilva, Henrique Matheus Ferreira da2023-04-05T17:57:10Z2021-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSILVA, H. M. F. Optimizing data augmentation to improve al model performance. 2021. 83 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2021.https://tede.lncc.br/handle/tede/344enghttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-04-06T04:31:27Zoai:tede-server.lncc.br:tede/344Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-04-06T04:31:27Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Optimizing data augmentation to improve al model performance
title Optimizing data augmentation to improve al model performance
spellingShingle Optimizing data augmentation to improve al model performance
Silva, Henrique Matheus Ferreira da
Data Augmentation
Small data
Algoritmos (Computação)
Redes neurais (Computação)
Aprendizado por computador
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Optimizing data augmentation to improve al model performance
title_full Optimizing data augmentation to improve al model performance
title_fullStr Optimizing data augmentation to improve al model performance
title_full_unstemmed Optimizing data augmentation to improve al model performance
title_sort Optimizing data augmentation to improve al model performance
author Silva, Henrique Matheus Ferreira da
author_facet Silva, Henrique Matheus Ferreira da
author_role author
dc.contributor.none.fl_str_mv Porto, Fábio André Machado
Porto, Fábio André Machado
Nicolás, Marisa Fabiana
Silva, Eduardo Bezerra da
Pedroso, Marcel Moraes
dc.contributor.author.fl_str_mv Silva, Henrique Matheus Ferreira da
dc.subject.por.fl_str_mv Data Augmentation
Small data
Algoritmos (Computação)
Redes neurais (Computação)
Aprendizado por computador
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Data Augmentation
Small data
Algoritmos (Computação)
Redes neurais (Computação)
Aprendizado por computador
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Abstract The accuracy of Machine Learning (ML) based classification algorithms is highly dependent on the training dataset quality. However, many research topics have classification problems in which the examples distribution may vary widely, and in which specific classes may be strongly underrepresented (such as patient-specific medicine), or training data may be scarce (such as plant species classification), leading to unbalanced datasets. In both scenarios, this may result in a poor model’s efficiency. Data Augmentation Techniques try to mitigate this problem, by expanding the available training data in order to increase models performance. In this work, we present two novel techniques for data augmentation over tabular data. First, we present a method denominated SAGAD (Synthetic Data Generator for Tabular Datasets), which is based on the concept of conditional entropy. SAGAD can balance minority classes, at the same time increasing the overall size of the training set. Next, we present an extension of SAGAD for iterative learning algorithms, called DABEL (Data Generation Based on Complexity per Classes), which iteratively produces new training data samples based on class ambiguity. To validate our proposal, we simulated a small data scenario by using datasets well known in literature and also evaluated our methods on real world data. We evaluated SAGAD using four machine learning algorithms and DABEL using a neural network model. To measure our method’s performance, we developed a baseline use-case in which models are trained on small data, comparing both SAGAD and DABEL to it. We also tested other data augmentation techniques, against SAGAD. SAGAD is implemented and available via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), which is an R package in CRAN, for data augmentation which currently has more than 2200 downloads.
publishDate 2021
dc.date.none.fl_str_mv 2021-08-30
2023-04-05T17:57:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, H. M. F. Optimizing data augmentation to improve al model performance. 2021. 83 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2021.
https://tede.lncc.br/handle/tede/344
identifier_str_mv SILVA, H. M. F. Optimizing data augmentation to improve al model performance. 2021. 83 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2021.
url https://tede.lncc.br/handle/tede/344
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1816081207254843392