Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Duarte, José Marcio [UNIFESP]

Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Detalhes bibliográficos
Autor(a) principal:	Duarte, José Marcio [UNIFESP]
Data de Publicação:	2023
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UNIFESP
dARK ID:	ark:/48912/00130000042rg
Texto Completo:	https://repositorio.unifesp.br/handle/11600/70610
Resumo:	O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.

Metadados do item

id	UFSP_475224e5c7c4785ee7d6744a7a3f5f3b
oai_identifier_str	oai:repositorio.unifesp.br/:11600/70610
network_acronym_str	UFSP
network_name_str	Repositório Institucional da UNIFESP
repository_id_str	3465
spelling	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textosPerturbation development in attention mechanism and virutal adversarial training to improve the semi-supevised learning to text classificationClassificação de textoProcessamento de linguagem naturalInteligência artificialAprendizado semissupervisionadoTreinamento adversário virtualText classificationNatural language processingArtificial InteligenceSemi-supervised learningVirtual adversarial trainingO advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.The advent of the Internet has transformed the way people and companies interact and communicate information and has generated a significant amount of data in natural language text format. Textual documents are unstructured data and Natural Language Processing (NLP) is a method to treat them, which is a sub-area of Artificial Intelligence, aimed at developing techniques capable of computationally interpreting and processing texts. With the support of machine learning algorithms, especially neural networks, relevant results have been achieved in the understanding and analysis of natural languages. One of the NLP tasks that is widely useful is automatic text classification. In the text classification process, textual representation has been attract attention, and has been improved with advanced neural network techniques that generate a distributed representation of words considering their contexts, aiming to contribute to the classifier's performance. In this work, we carried out an analysis of static and contextual text representation methods for NLP tasks, including word sense disambiguation and text classification. In automatic classification, the supervised approach is commonly used, where the data needs to be labeled for model training, however, the labeling task involves costs and requires a considerable period of time. Therefore, a strategy to overcome the difficulty of the data annotation process is semi-supervised learning, whose approach requires a small amount of labeled data and the most part of the data does not need to be annotated. In order to map the state of the art in the use of semi-supervised learning in textual classification, we carried out a systematic review and we identified that this approach is prominent in several applications. In semi-supervised text classification, Virtual Adversarial Training (TAV) presents itself as a suitable method to regularize the classifier and reduce overfitting. Inspired by the attention mechanism and adversarial training for semi-supervised learning, this research proposed a new approach with adversarial perturbation for the attention mechanism. The proposed method investigated perturbation methods to attention mechanisms to generate adversarial examples and with the virtual adversarial training regularize the classification model. The results obtained considering four benchmarks datasets (AgNews, IMDB, SST, 20News) show good performance of the model with a gain in accuracy in some datasets and shorter processing time, surpassing TAV with embeddings perturbation, previously explored in the literature.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)88887.661868/2022-00Universidade Federal de São PauloBerton, Lilianhttp://lattes.cnpq.br/9064767888093340http://lattes.cnpq.br/9673214814425178Duarte, José Marcio [UNIFESP]2024-01-23T12:23:17Z2024-01-23T12:23:17Z2023-11-27info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersion142 f.application/pdfapplication/pdfDuarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023.https://repositorio.unifesp.br/handle/11600/70610ark:/48912/00130000042rgporInstituto de Ciência e Tecnologia da Universidade Federal de São Pauloinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-08-13T19:10:36Zoai:repositorio.unifesp.br/:11600/70610Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-12-11T19:55:53.842723Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos Perturbation development in attention mechanism and virutal adversarial training to improve the semi-supevised learning to text classification
title	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
spellingShingle	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos Duarte, José Marcio [UNIFESP] Classificação de texto Processamento de linguagem natural Inteligência artificial Aprendizado semissupervisionado Treinamento adversário virtual Text classification Natural language processing Artificial Inteligence Semi-supervised learning Virtual adversarial training
title_short	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_full	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_fullStr	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_full_unstemmed	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
title_sort	Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos
author	Duarte, José Marcio [UNIFESP]
author_facet	Duarte, José Marcio [UNIFESP]
author_role	author
dc.contributor.none.fl_str_mv	Berton, Lilian http://lattes.cnpq.br/9064767888093340 http://lattes.cnpq.br/9673214814425178
dc.contributor.author.fl_str_mv	Duarte, José Marcio [UNIFESP]
dc.subject.por.fl_str_mv	Classificação de texto Processamento de linguagem natural Inteligência artificial Aprendizado semissupervisionado Treinamento adversário virtual Text classification Natural language processing Artificial Inteligence Semi-supervised learning Virtual adversarial training
topic	Classificação de texto Processamento de linguagem natural Inteligência artificial Aprendizado semissupervisionado Treinamento adversário virtual Text classification Natural language processing Artificial Inteligence Semi-supervised learning Virtual adversarial training
description	O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.
publishDate	2023
dc.date.none.fl_str_mv	2023-11-27 2024-01-23T12:23:17Z 2024-01-23T12:23:17Z
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023. https://repositorio.unifesp.br/handle/11600/70610
dc.identifier.dark.fl_str_mv	ark:/48912/00130000042rg
identifier_str_mv	Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023. ark:/48912/00130000042rg
url	https://repositorio.unifesp.br/handle/11600/70610
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	142 f. application/pdf application/pdf
dc.coverage.none.fl_str_mv	Instituto de Ciência e Tecnologia da Universidade Federal de São Paulo
dc.publisher.none.fl_str_mv	Universidade Federal de São Paulo
publisher.none.fl_str_mv	Universidade Federal de São Paulo
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP
instname_str	Universidade Federal de São Paulo (UNIFESP)
instacron_str	UNIFESP
institution	UNIFESP
reponame_str	Repositório Institucional da UNIFESP
collection	Repositório Institucional da UNIFESP
repository.name.fl_str_mv	Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv	biblioteca.csp@unifesp.br
_version_	1818602398803820544

Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Registros relacionados