Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados

Felipe Freitas de Carvalho

Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados

Detalhes bibliográficos
Autor(a) principal:	Felipe Freitas de Carvalho
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/60359
Resumo:	Desenvolvimentos recentes no campo de processamento de linguagem natural demonstraram que redes profundas, baseadas na arquitetura transformer, treinadas como um modelo de linguagem em um corpus extenso de texto, de maneira não supervisionada, são capazes de transferir o aprendizado obtido através deste treinamento para tarefas relacionadas através do procedimento de ajuste fino do modelo. Em particular, as arquiteturas BERT e XLNet demonstraram resultados expressivos, atingindo performances que superam o estado da arte em diversas tarefas. Parte do mérito se deve ao fato destes modelos serem capazes de gerar melhores representações de texto, na forma de embeddings contextuais. No entanto, não muito foi explorado na literatura a capacidade de transferência de aprendizado destes modelos em cenários de baixa volumetria de dados e também como estes se comportam na tarefa de ajuste fino com diferentes quantidades de dados disponíveis para tal. Além disso, não existem muitos estudos sobre a diferença de ganhos de performance advinda da representação na forma de embeddings contextuais em comparação outros tipos de representação de texto, como por exemplo embeddings tradicionais, dado um cenário reduzido de dados. Este trabalho endereça estas questões através de uma série de experimentos que buscam, de forma empírica, avaliar o comportamento desses modelos quando sujeitos ao procedimento de ajuste fino em subconjuntos de bases de dados diversas e com volumetria progressivamente menor. Também são avaliados os ganhos de performance advindos desta nova forma de representação de dados, utilizando os modelos como extratores de características na tarefa de transferência de aprendizado. Mediante os resultados dos experimentos é possível observar que os modelos BERT e XLNet são capazes de terem performances boas, com baixa volumetria de dados disponíveis, na maioria dos casos. Além disso, é possível ver que embora exista um efeito positivo em utilizar um volume maior de dados, um volume pequeno já se mostra suficiente para obter uma performance melhor ou comparável a outros tipos de modelos treinados com mais dados. Também é possível observar que parte do poder destes métodos de fato deriva de representações mais robustas, dado que estas geram resultados melhores que embeddings tradicionais ao serem usadas como entrada para outros modelos, na maior parte dos casos. No entanto, é possível perceber que a arquitetura transformer como um todo, após o procedimento de ajuste fino, tem uma performance substancialmente melhor em baixas volumetrias de dados quando comparada a utilização destes modelos com extratores de características.

Metadados do item

id	UFMG_13365dc2e1140eee2462815450bc4856
oai_identifier_str	oai:repositorio.ufmg.br:1843/60359
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Cristiano Leite de Castrohttp://lattes.cnpq.br/7892966809901738Frederico Gadelha GuimarãesAndre Paim Lemoshttps://lattes.cnpq.br/3671986245001114Felipe Freitas de Carvalho2023-10-31T17:54:46Z2023-10-31T17:54:46Z2020-02-20http://hdl.handle.net/1843/60359Desenvolvimentos recentes no campo de processamento de linguagem natural demonstraram que redes profundas, baseadas na arquitetura transformer, treinadas como um modelo de linguagem em um corpus extenso de texto, de maneira não supervisionada, são capazes de transferir o aprendizado obtido através deste treinamento para tarefas relacionadas através do procedimento de ajuste fino do modelo. Em particular, as arquiteturas BERT e XLNet demonstraram resultados expressivos, atingindo performances que superam o estado da arte em diversas tarefas. Parte do mérito se deve ao fato destes modelos serem capazes de gerar melhores representações de texto, na forma de embeddings contextuais. No entanto, não muito foi explorado na literatura a capacidade de transferência de aprendizado destes modelos em cenários de baixa volumetria de dados e também como estes se comportam na tarefa de ajuste fino com diferentes quantidades de dados disponíveis para tal. Além disso, não existem muitos estudos sobre a diferença de ganhos de performance advinda da representação na forma de embeddings contextuais em comparação outros tipos de representação de texto, como por exemplo embeddings tradicionais, dado um cenário reduzido de dados. Este trabalho endereça estas questões através de uma série de experimentos que buscam, de forma empírica, avaliar o comportamento desses modelos quando sujeitos ao procedimento de ajuste fino em subconjuntos de bases de dados diversas e com volumetria progressivamente menor. Também são avaliados os ganhos de performance advindos desta nova forma de representação de dados, utilizando os modelos como extratores de características na tarefa de transferência de aprendizado. Mediante os resultados dos experimentos é possível observar que os modelos BERT e XLNet são capazes de terem performances boas, com baixa volumetria de dados disponíveis, na maioria dos casos. Além disso, é possível ver que embora exista um efeito positivo em utilizar um volume maior de dados, um volume pequeno já se mostra suficiente para obter uma performance melhor ou comparável a outros tipos de modelos treinados com mais dados. Também é possível observar que parte do poder destes métodos de fato deriva de representações mais robustas, dado que estas geram resultados melhores que embeddings tradicionais ao serem usadas como entrada para outros modelos, na maior parte dos casos. No entanto, é possível perceber que a arquitetura transformer como um todo, após o procedimento de ajuste fino, tem uma performance substancialmente melhor em baixas volumetrias de dados quando comparada a utilização destes modelos com extratores de características.Recent developments in the NLP (Natural Language Processing) field have shown that deep transformer based language model architectures trained on a large corpus of unlabeled data are able to transfer knowledge to downstream tasks efficiently through fine-tuning. In particular, BERT and XLNet have shown impressive results, achieving state of the art performance in many tasks through this process. This is partially due to the ability these models have to create better representations of text in the form of contextual embeddings. However not much has been explored in the literature about the robustness of the transfer learning process of these models on a small data scenario. Also not a lot of effort has been put on analyzing the behavior of the two models fine-tuning process with different amounts of training data available. Besides that, that are no studies about the difference, in terms of performance, that come from the contextual embedding representation versus traditional embedding representations, in a small data scenario. This paper addresses these questions through an empirical evaluation of these models on some datasets when fine-tuned on progressively smaller fractions of training data, for the task of text classification. The performance gains from the new way of text representation are also evaluated by using the models as feature extractors for transfer learning. It is shown that BERT and XLNet perform well with small data and can achieve good performance with very few labels available, in most cases. Results yielded with varying fractions of training data indicate that few examples are necessary in order to fine-tune the models and, although there is a positive effect in training with more labeled data, using only a subset of data is already enough to achieve a comparable performance in comparison to other models trained with substantially more data. It is also possible to observe that part of these models power is in fact due to more robust representations, given they yield better results than traditional embedding representations when used as features for other models, in most cases. However, it is noticeable how the transformer architecture as a whole is able to, after the fine tuning process, yield substantially better results in comparison to using the model as a feature extractor.porUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Engenharia ElétricaUFMGBrasilENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICAEngenharia elétricaProcessamento da linguagem natural (Computação)Aprendizado profundoBaixo volume de dadosClassificação de textoProcessamento de linguagem naturalRepresentações contextuaisAprendizado de representaçãoAprendizado profundoTransferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALMestrado_final_pdfa.pdfMestrado_final_pdfa.pdfapplication/pdf22337073https://repositorio.ufmg.br/bitstream/1843/60359/1/Mestrado_final_pdfa.pdf98f746cdb720668c71e2fb76d651bd00MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/60359/2/license.txtcda590c95a0b51b4d15f60c9642ca272MD521843/603592023-10-31 14:54:47.121oai:repositorio.ufmg.br:1843/60359TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-10-31T17:54:47Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados
title	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados
spellingShingle	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados Felipe Freitas de Carvalho Baixo volume de dados Classificação de texto Processamento de linguagem natural Representações contextuais Aprendizado de representação Aprendizado profundo Engenharia elétrica Processamento da linguagem natural (Computação) Aprendizado profundo
title_short	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados
title_full	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados
title_fullStr	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados
title_full_unstemmed	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados
title_sort	Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados
author	Felipe Freitas de Carvalho
author_facet	Felipe Freitas de Carvalho
author_role	author
dc.contributor.advisor1.fl_str_mv	Cristiano Leite de Castro
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/7892966809901738
dc.contributor.referee1.fl_str_mv	Frederico Gadelha Guimarães
dc.contributor.referee2.fl_str_mv	Andre Paim Lemos
dc.contributor.authorLattes.fl_str_mv	https://lattes.cnpq.br/3671986245001114
dc.contributor.author.fl_str_mv	Felipe Freitas de Carvalho
contributor_str_mv	Cristiano Leite de Castro Frederico Gadelha Guimarães Andre Paim Lemos
dc.subject.por.fl_str_mv	Baixo volume de dados Classificação de texto Processamento de linguagem natural Representações contextuais Aprendizado de representação Aprendizado profundo
topic	Baixo volume de dados Classificação de texto Processamento de linguagem natural Representações contextuais Aprendizado de representação Aprendizado profundo Engenharia elétrica Processamento da linguagem natural (Computação) Aprendizado profundo
dc.subject.other.pt_BR.fl_str_mv	Engenharia elétrica Processamento da linguagem natural (Computação) Aprendizado profundo
description	Desenvolvimentos recentes no campo de processamento de linguagem natural demonstraram que redes profundas, baseadas na arquitetura transformer, treinadas como um modelo de linguagem em um corpus extenso de texto, de maneira não supervisionada, são capazes de transferir o aprendizado obtido através deste treinamento para tarefas relacionadas através do procedimento de ajuste fino do modelo. Em particular, as arquiteturas BERT e XLNet demonstraram resultados expressivos, atingindo performances que superam o estado da arte em diversas tarefas. Parte do mérito se deve ao fato destes modelos serem capazes de gerar melhores representações de texto, na forma de embeddings contextuais. No entanto, não muito foi explorado na literatura a capacidade de transferência de aprendizado destes modelos em cenários de baixa volumetria de dados e também como estes se comportam na tarefa de ajuste fino com diferentes quantidades de dados disponíveis para tal. Além disso, não existem muitos estudos sobre a diferença de ganhos de performance advinda da representação na forma de embeddings contextuais em comparação outros tipos de representação de texto, como por exemplo embeddings tradicionais, dado um cenário reduzido de dados. Este trabalho endereça estas questões através de uma série de experimentos que buscam, de forma empírica, avaliar o comportamento desses modelos quando sujeitos ao procedimento de ajuste fino em subconjuntos de bases de dados diversas e com volumetria progressivamente menor. Também são avaliados os ganhos de performance advindos desta nova forma de representação de dados, utilizando os modelos como extratores de características na tarefa de transferência de aprendizado. Mediante os resultados dos experimentos é possível observar que os modelos BERT e XLNet são capazes de terem performances boas, com baixa volumetria de dados disponíveis, na maioria dos casos. Além disso, é possível ver que embora exista um efeito positivo em utilizar um volume maior de dados, um volume pequeno já se mostra suficiente para obter uma performance melhor ou comparável a outros tipos de modelos treinados com mais dados. Também é possível observar que parte do poder destes métodos de fato deriva de representações mais robustas, dado que estas geram resultados melhores que embeddings tradicionais ao serem usadas como entrada para outros modelos, na maior parte dos casos. No entanto, é possível perceber que a arquitetura transformer como um todo, após o procedimento de ajuste fino, tem uma performance substancialmente melhor em baixas volumetrias de dados quando comparada a utilização destes modelos com extratores de características.
publishDate	2020
dc.date.issued.fl_str_mv	2020-02-20
dc.date.accessioned.fl_str_mv	2023-10-31T17:54:46Z
dc.date.available.fl_str_mv	2023-10-31T17:54:46Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/60359
url	http://hdl.handle.net/1843/60359
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv	UFMG
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/60359/1/Mestrado_final_pdfa.pdf https://repositorio.ufmg.br/bitstream/1843/60359/2/license.txt
bitstream.checksum.fl_str_mv	98f746cdb720668c71e2fb76d651bd00 cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589524087898112

Transferência de aprendizado com embeddings contextuais para classificação de texto em cenários de baixo volume de dados

Registros relacionados