Pre-trained data augmentation for text classification

Detalhes bibliográficos
Autor(a) principal: Abonizio, Hugo Queiroz
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UEL
Texto Completo: https://repositorio.uel.br/handle/123456789/8381
Resumo: Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto
id UEL_2ffa1b52127c705fe33ecc24b86ab0b7
oai_identifier_str oai:repositorio.uel.br:123456789/8381
network_acronym_str UEL
network_name_str Repositório Institucional da UEL
repository_id_str
spelling Pre-trained data augmentation for text classificationComputaçãoData augmentationRedes sociais on-lineProcessamento da linguagem natural (Computação)Classificação de textos (Computação)Computer scienceData augmentationOnline social networksNatural language processing (Computer science)TextResumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de textoDissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da ComputaçãoAbstract: Data augmentation is a widely adopted method for improving model performance in image classification tasks Despite not being as ubiquitous in the Natural Language Processing (NLP) community, some methods have already been proposed to increase training data using simple text transformations or text generation through language models However, recent text classification tasks need to deal with domains characterized by a small amount of text and informal writing, eg, Online Social Networks content, reducing current methods’ capabilities Facing these challenges by taking advantage of pre-trained language models and model compression, we proposed the PRE-trained Data Augmen- TOR (PREDATOR) method Our data augmentation method is composed of two modules: the Generator, which synthesizes new samples grounded on a lightweight model, and the Filter, which selects only the high-quality ones The experiments comparing Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) and Multinomial Naïve Bayes (NB) in six datasets exposed an effective improvement in performance It obtained 285% of accuracy improvement with LSTM on the best scenario and an average improvement of 8% on the low-data regime On imbalanced datasets, it improved in 64% the ??1-score PREDATOR was able to augment real-world datasets from social media, clinical reports, among other domains, overcoming recent text augmentation techniquesBarbon Junior, Sylvio [Orientador]Kaster, Daniel dos SantosZarpelão, Bruno BogazParaiso, Emerson CabreraAbonizio, Hugo Queiroz2024-05-01T11:33:22Z2024-05-01T11:33:22Z2021.0026.02.2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio.uel.br/handle/123456789/8381porMestradoCiência da ComputaçãoCentro de Ciências ExatasPrograma de Pós-Graduação em Ciência da ComputaçãoLondrinareponame:Repositório Institucional da UELinstname:Universidade Estadual de Londrina (UEL)instacron:UELinfo:eu-repo/semantics/openAccess2024-07-12T04:20:14Zoai:repositorio.uel.br:123456789/8381Biblioteca Digital de Teses e Dissertaçõeshttp://www.bibliotecadigital.uel.br/PUBhttp://www.bibliotecadigital.uel.br/OAI/oai2.phpbcuel@uel.br||opendoar:2024-07-12T04:20:14Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)false
dc.title.none.fl_str_mv Pre-trained data augmentation for text classification
title Pre-trained data augmentation for text classification
spellingShingle Pre-trained data augmentation for text classification
Abonizio, Hugo Queiroz
Computação
Data augmentation
Redes sociais on-line
Processamento da linguagem natural (Computação)
Classificação de textos (Computação)
Computer science
Data augmentation
Online social networks
Natural language processing (Computer science)
Text
title_short Pre-trained data augmentation for text classification
title_full Pre-trained data augmentation for text classification
title_fullStr Pre-trained data augmentation for text classification
title_full_unstemmed Pre-trained data augmentation for text classification
title_sort Pre-trained data augmentation for text classification
author Abonizio, Hugo Queiroz
author_facet Abonizio, Hugo Queiroz
author_role author
dc.contributor.none.fl_str_mv Barbon Junior, Sylvio [Orientador]
Kaster, Daniel dos Santos
Zarpelão, Bruno Bogaz
Paraiso, Emerson Cabrera
dc.contributor.author.fl_str_mv Abonizio, Hugo Queiroz
dc.subject.por.fl_str_mv Computação
Data augmentation
Redes sociais on-line
Processamento da linguagem natural (Computação)
Classificação de textos (Computação)
Computer science
Data augmentation
Online social networks
Natural language processing (Computer science)
Text
topic Computação
Data augmentation
Redes sociais on-line
Processamento da linguagem natural (Computação)
Classificação de textos (Computação)
Computer science
Data augmentation
Online social networks
Natural language processing (Computer science)
Text
description Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto
publishDate 2024
dc.date.none.fl_str_mv 2021.00
2024-05-01T11:33:22Z
2024-05-01T11:33:22Z
26.02.2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.uel.br/handle/123456789/8381
url https://repositorio.uel.br/handle/123456789/8381
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Mestrado
Ciência da Computação
Centro de Ciências Exatas
Programa de Pós-Graduação em Ciência da Computação
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv Londrina
dc.source.none.fl_str_mv reponame:Repositório Institucional da UEL
instname:Universidade Estadual de Londrina (UEL)
instacron:UEL
instname_str Universidade Estadual de Londrina (UEL)
instacron_str UEL
institution UEL
reponame_str Repositório Institucional da UEL
collection Repositório Institucional da UEL
repository.name.fl_str_mv Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)
repository.mail.fl_str_mv bcuel@uel.br||
_version_ 1809823296826376192