Pre-trained data augmentation for text classification

Abonizio, Hugo Queiroz

Pre-trained data augmentation for text classification

Detalhes bibliográficos
Autor(a) principal:	Abonizio, Hugo Queiroz
Data de Publicação:	2024
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UEL
Texto Completo:	https://repositorio.uel.br/handle/123456789/8381
Resumo:	Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto

Metadados do item

id	UEL_2ffa1b52127c705fe33ecc24b86ab0b7
oai_identifier_str	oai:repositorio.uel.br:123456789/8381
network_acronym_str	UEL
network_name_str	Repositório Institucional da UEL
repository_id_str
spelling	Pre-trained data augmentation for text classificationComputaçãoData augmentationRedes sociais on-lineProcessamento da linguagem natural (Computação)Classificação de textos (Computação)Computer scienceData augmentationOnline social networksNatural language processing (Computer science)TextResumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de textoDissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da ComputaçãoAbstract: Data augmentation is a widely adopted method for improving model performance in image classification tasks Despite not being as ubiquitous in the Natural Language Processing (NLP) community, some methods have already been proposed to increase training data using simple text transformations or text generation through language models However, recent text classification tasks need to deal with domains characterized by a small amount of text and informal writing, eg, Online Social Networks content, reducing current methods’ capabilities Facing these challenges by taking advantage of pre-trained language models and model compression, we proposed the PRE-trained Data Augmen- TOR (PREDATOR) method Our data augmentation method is composed of two modules: the Generator, which synthesizes new samples grounded on a lightweight model, and the Filter, which selects only the high-quality ones The experiments comparing Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) and Multinomial Naïve Bayes (NB) in six datasets exposed an effective improvement in performance It obtained 285% of accuracy improvement with LSTM on the best scenario and an average improvement of 8% on the low-data regime On imbalanced datasets, it improved in 64% the ??1-score PREDATOR was able to augment real-world datasets from social media, clinical reports, among other domains, overcoming recent text augmentation techniquesBarbon Junior, Sylvio [Orientador]Kaster, Daniel dos SantosZarpelão, Bruno BogazParaiso, Emerson CabreraAbonizio, Hugo Queiroz2024-05-01T11:33:22Z2024-05-01T11:33:22Z2021.0026.02.2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://repositorio.uel.br/handle/123456789/8381porMestradoCiência da ComputaçãoCentro de Ciências ExatasPrograma de Pós-Graduação em Ciência da ComputaçãoLondrinareponame:Repositório Institucional da UELinstname:Universidade Estadual de Londrina (UEL)instacron:UELinfo:eu-repo/semantics/openAccess2024-07-12T04:20:14Zoai:repositorio.uel.br:123456789/8381Biblioteca Digital de Teses e Dissertaçõeshttp://www.bibliotecadigital.uel.br/PUBhttp://www.bibliotecadigital.uel.br/OAI/oai2.phpbcuel@uel.br\|\|opendoar:2024-07-12T04:20:14Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)false
dc.title.none.fl_str_mv	Pre-trained data augmentation for text classification
title	Pre-trained data augmentation for text classification
spellingShingle	Pre-trained data augmentation for text classification Abonizio, Hugo Queiroz Computação Data augmentation Redes sociais on-line Processamento da linguagem natural (Computação) Classificação de textos (Computação) Computer science Data augmentation Online social networks Natural language processing (Computer science) Text
title_short	Pre-trained data augmentation for text classification
title_full	Pre-trained data augmentation for text classification
title_fullStr	Pre-trained data augmentation for text classification
title_full_unstemmed	Pre-trained data augmentation for text classification
title_sort	Pre-trained data augmentation for text classification
author	Abonizio, Hugo Queiroz
author_facet	Abonizio, Hugo Queiroz
author_role	author
dc.contributor.none.fl_str_mv	Barbon Junior, Sylvio [Orientador] Kaster, Daniel dos Santos Zarpelão, Bruno Bogaz Paraiso, Emerson Cabrera
dc.contributor.author.fl_str_mv	Abonizio, Hugo Queiroz
dc.subject.por.fl_str_mv	Computação Data augmentation Redes sociais on-line Processamento da linguagem natural (Computação) Classificação de textos (Computação) Computer science Data augmentation Online social networks Natural language processing (Computer science) Text
topic	Computação Data augmentation Redes sociais on-line Processamento da linguagem natural (Computação) Classificação de textos (Computação) Computer science Data augmentation Online social networks Natural language processing (Computer science) Text
description	Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto
publishDate	2024
dc.date.none.fl_str_mv	2021.00 2024-05-01T11:33:22Z 2024-05-01T11:33:22Z 26.02.2021
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.uel.br/handle/123456789/8381
url	https://repositorio.uel.br/handle/123456789/8381
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	Mestrado Ciência da Computação Centro de Ciências Exatas Programa de Pós-Graduação em Ciência da Computação
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv	Londrina
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UEL instname:Universidade Estadual de Londrina (UEL) instacron:UEL
instname_str	Universidade Estadual de Londrina (UEL)
instacron_str	UEL
institution	UEL
reponame_str	Repositório Institucional da UEL
collection	Repositório Institucional da UEL
repository.name.fl_str_mv	Repositório Institucional da UEL - Universidade Estadual de Londrina (UEL)
repository.mail.fl_str_mv	bcuel@uel.br\|\|
_version_	1809823296826376192

Pre-trained data augmentation for text classification

Registros relacionados