Optimizing data augmentation to improve al model performance
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/344 |
Resumo: | Abstract The accuracy of Machine Learning (ML) based classification algorithms is highly dependent on the training dataset quality. However, many research topics have classification problems in which the examples distribution may vary widely, and in which specific classes may be strongly underrepresented (such as patient-specific medicine), or training data may be scarce (such as plant species classification), leading to unbalanced datasets. In both scenarios, this may result in a poor model’s efficiency. Data Augmentation Techniques try to mitigate this problem, by expanding the available training data in order to increase models performance. In this work, we present two novel techniques for data augmentation over tabular data. First, we present a method denominated SAGAD (Synthetic Data Generator for Tabular Datasets), which is based on the concept of conditional entropy. SAGAD can balance minority classes, at the same time increasing the overall size of the training set. Next, we present an extension of SAGAD for iterative learning algorithms, called DABEL (Data Generation Based on Complexity per Classes), which iteratively produces new training data samples based on class ambiguity. To validate our proposal, we simulated a small data scenario by using datasets well known in literature and also evaluated our methods on real world data. We evaluated SAGAD using four machine learning algorithms and DABEL using a neural network model. To measure our method’s performance, we developed a baseline use-case in which models are trained on small data, comparing both SAGAD and DABEL to it. We also tested other data augmentation techniques, against SAGAD. SAGAD is implemented and available via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), which is an R package in CRAN, for data augmentation which currently has more than 2200 downloads. |
id |
LNCC_1f995bdf1d216fed1000ddb31bca9ff4 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/344 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Optimizing data augmentation to improve al model performanceData AugmentationSmall dataAlgoritmos (Computação)Redes neurais (Computação)Aprendizado por computadorCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAbstract The accuracy of Machine Learning (ML) based classification algorithms is highly dependent on the training dataset quality. However, many research topics have classification problems in which the examples distribution may vary widely, and in which specific classes may be strongly underrepresented (such as patient-specific medicine), or training data may be scarce (such as plant species classification), leading to unbalanced datasets. In both scenarios, this may result in a poor model’s efficiency. Data Augmentation Techniques try to mitigate this problem, by expanding the available training data in order to increase models performance. In this work, we present two novel techniques for data augmentation over tabular data. First, we present a method denominated SAGAD (Synthetic Data Generator for Tabular Datasets), which is based on the concept of conditional entropy. SAGAD can balance minority classes, at the same time increasing the overall size of the training set. Next, we present an extension of SAGAD for iterative learning algorithms, called DABEL (Data Generation Based on Complexity per Classes), which iteratively produces new training data samples based on class ambiguity. To validate our proposal, we simulated a small data scenario by using datasets well known in literature and also evaluated our methods on real world data. We evaluated SAGAD using four machine learning algorithms and DABEL using a neural network model. To measure our method’s performance, we developed a baseline use-case in which models are trained on small data, comparing both SAGAD and DABEL to it. We also tested other data augmentation techniques, against SAGAD. SAGAD is implemented and available via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), which is an R package in CRAN, for data augmentation which currently has more than 2200 downloads.A acurácia dos algoritmos de classificação baseados em Aprendizado de Máquina (ML) é altamente dependente da qualidade do conjunto de dados de treinamento. No entanto, um entrave na área de pesquisa é classificação, pois a distribuição de exemplos pode variar amplamente e classes específicas podem ser fortemente sub-representadas (como medicamentos específicos do paciente); assim como os dados de treinamento podem ser escassos (como classificação de espécies de plantas), resultando em conjuntos de dados não balanceados. Em ambos os cenários, esse aspecto pode resultar na baixa eficiência do modelo. As Técnicas de Aumento de Dados tentam mitigar esses problemas, expandindo os dados de treinamento disponíveis, para assim aumentar o desempenho dos modelos. No presente estudo, apresentamos duas novas técnicas para aumento de dados tabulares. Apresentamos, primeiramente, um método denominado SAGAD (Synthetic Data Generator for Tabular Datasets), baseado no conceito de entropia condicional. O SAGAD pode equilibrar classes minoritárias; permitindo o aumento do tamanho geral do conjunto de treinamento. Em seguida é apresentada uma extensão do SAGAD para algoritmos de aprendizagem iterativa, denominada DABEL (Data Genetarion Based on Complexity per Classes), que produz novas amostras de dados de treinamento, com base na ambiguidade da classe. Para validar nossa proposta, simulamos um cenário de poucos dados.A avaliação do SAGAD foi feita usando quatro diferentes algoritmos de aprendizado de máquina. Já o DABEL foi avalaliado a partir de uma rede neural. Também foram realizadas comparações entre outras técnicas de geração de dados e o SAGAD. O SAGAD está implementado e disponível via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), que é um pacote R no CRAN para aumento de dados e que, atualmente, tem mais de 2200 downloads.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalPorto, Fábio André MachadoPorto, Fábio André MachadoNicolás, Marisa FabianaSilva, Eduardo Bezerra daPedroso, Marcel MoraesSilva, Henrique Matheus Ferreira da2023-04-05T17:57:10Z2021-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSILVA, H. M. F. Optimizing data augmentation to improve al model performance. 2021. 83 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2021.https://tede.lncc.br/handle/tede/344enghttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-04-06T04:31:27Zoai:tede-server.lncc.br:tede/344Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-04-06T04:31:27Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.none.fl_str_mv |
Optimizing data augmentation to improve al model performance |
title |
Optimizing data augmentation to improve al model performance |
spellingShingle |
Optimizing data augmentation to improve al model performance Silva, Henrique Matheus Ferreira da Data Augmentation Small data Algoritmos (Computação) Redes neurais (Computação) Aprendizado por computador CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Optimizing data augmentation to improve al model performance |
title_full |
Optimizing data augmentation to improve al model performance |
title_fullStr |
Optimizing data augmentation to improve al model performance |
title_full_unstemmed |
Optimizing data augmentation to improve al model performance |
title_sort |
Optimizing data augmentation to improve al model performance |
author |
Silva, Henrique Matheus Ferreira da |
author_facet |
Silva, Henrique Matheus Ferreira da |
author_role |
author |
dc.contributor.none.fl_str_mv |
Porto, Fábio André Machado Porto, Fábio André Machado Nicolás, Marisa Fabiana Silva, Eduardo Bezerra da Pedroso, Marcel Moraes |
dc.contributor.author.fl_str_mv |
Silva, Henrique Matheus Ferreira da |
dc.subject.por.fl_str_mv |
Data Augmentation Small data Algoritmos (Computação) Redes neurais (Computação) Aprendizado por computador CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
Data Augmentation Small data Algoritmos (Computação) Redes neurais (Computação) Aprendizado por computador CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Abstract The accuracy of Machine Learning (ML) based classification algorithms is highly dependent on the training dataset quality. However, many research topics have classification problems in which the examples distribution may vary widely, and in which specific classes may be strongly underrepresented (such as patient-specific medicine), or training data may be scarce (such as plant species classification), leading to unbalanced datasets. In both scenarios, this may result in a poor model’s efficiency. Data Augmentation Techniques try to mitigate this problem, by expanding the available training data in order to increase models performance. In this work, we present two novel techniques for data augmentation over tabular data. First, we present a method denominated SAGAD (Synthetic Data Generator for Tabular Datasets), which is based on the concept of conditional entropy. SAGAD can balance minority classes, at the same time increasing the overall size of the training set. Next, we present an extension of SAGAD for iterative learning algorithms, called DABEL (Data Generation Based on Complexity per Classes), which iteratively produces new training data samples based on class ambiguity. To validate our proposal, we simulated a small data scenario by using datasets well known in literature and also evaluated our methods on real world data. We evaluated SAGAD using four machine learning algorithms and DABEL using a neural network model. To measure our method’s performance, we developed a baseline use-case in which models are trained on small data, comparing both SAGAD and DABEL to it. We also tested other data augmentation techniques, against SAGAD. SAGAD is implemented and available via AugmenteR (S. Pereira; ferreira da silva; A.M Porto, 2021), which is an R package in CRAN, for data augmentation which currently has more than 2200 downloads. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-08-30 2023-04-05T17:57:10Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SILVA, H. M. F. Optimizing data augmentation to improve al model performance. 2021. 83 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2021. https://tede.lncc.br/handle/tede/344 |
identifier_str_mv |
SILVA, H. M. F. Optimizing data augmentation to improve al model performance. 2021. 83 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2021. |
url |
https://tede.lncc.br/handle/tede/344 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1816081207254843392 |