Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset

Fernandes Junior, Ricardo Corso

Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset

Detalhes bibliográficos
Autor(a) principal:	Fernandes Junior, Ricardo Corso
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo:	http://repositorio.utfpr.edu.br/jspui/handle/1/30886
Resumo:	Redes Neurais Profundas, uma classe de algoritmos de aprendizado de máquina, ocasionaram um grande salto de performance para várias tarefas diferentes desde que ganharam a competição ImageNet, em 2012. Entre as áreas beneficiadas, Processamento de Linguagem Natural (PLN) foi especialmente impactada desde a publicação do artigo “Attention is All YouNeed”, em 2017, o qual deu base para muitos dos avanços recentes no campo. Desde então, modelos estão ficando cada vez mais precisos, ao custo de se tornarem maiores e mais custosos de treinar. A Transferência de Aprendizado permite o reuso dos parâmetros pré-treinados de grandes Modelos de Língua. Esse torna possível fazer o ajuste-fino dos modelos à partir do Modelo de Língua pré-treinado para a realização de tarefas afluentes. Isso contribui para a redução dos custos computacionais de treinar um modelo deste tamanho, assim como evita a necessidade de coletar todos os dados necessários para a realização de um pré-treinamento. Estratégias de Ajuste Eficiente de Parâmetros de Modelos de Língua (PELT, do inglês) buscam aprofundar as vantagens do ajuste-fino ao pelo menos manter a performance do modelo com ajuste-fino de todos os parâmetros com o mínimo de parâmetros ajustados possível. Isso permite duas coisas: um custo computacional ainda menor e performance competitiva para ajuste-fino em conjuntos de dados pequenos. Este trabalho utilizou destas vantagens para melhorar a performance do modelo no conjunto de dados de classificação de texto jurídico, feito ao decorrer deste trabalho. Foi comparada a performance entre o ajuste-fino parcial com BitFit e o ajuste-fino completo para um conjunto de dados pequeno, de domínio específico e do mundo real, utilizando-se do ambiente do Google Collaboratory. Os resultados mostraram que o ajuste-fino com BitFit é mais resistente a ruídos nos dados de ajuste-fino e, talvez, resolve o problema de “Esquecimento Catastrófico”. Ajuste-fino com BitFit também superou o ajuste-fino completo em 3 das 5 versões do conjunto de dados construído. Finalmente, o modelo foi apresentado e causou uma boa impressão no Tribunal de Contas da União.

Metadados do item

id	UTFPR-12_b5c176ce43dad7a9fd39c3f481f45ad3
oai_identifier_str	oai:repositorio.utfpr.edu.br:1/30886
network_acronym_str	UTFPR-12
network_name_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling	2023-03-21T16:47:03Z2023-03-21T16:47:03Z2022-11-28FERNANDES JUNIOR, Ricardo Corso. Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/30886Redes Neurais Profundas, uma classe de algoritmos de aprendizado de máquina, ocasionaram um grande salto de performance para várias tarefas diferentes desde que ganharam a competição ImageNet, em 2012. Entre as áreas beneficiadas, Processamento de Linguagem Natural (PLN) foi especialmente impactada desde a publicação do artigo “Attention is All YouNeed”, em 2017, o qual deu base para muitos dos avanços recentes no campo. Desde então, modelos estão ficando cada vez mais precisos, ao custo de se tornarem maiores e mais custosos de treinar. A Transferência de Aprendizado permite o reuso dos parâmetros pré-treinados de grandes Modelos de Língua. Esse torna possível fazer o ajuste-fino dos modelos à partir do Modelo de Língua pré-treinado para a realização de tarefas afluentes. Isso contribui para a redução dos custos computacionais de treinar um modelo deste tamanho, assim como evita a necessidade de coletar todos os dados necessários para a realização de um pré-treinamento. Estratégias de Ajuste Eficiente de Parâmetros de Modelos de Língua (PELT, do inglês) buscam aprofundar as vantagens do ajuste-fino ao pelo menos manter a performance do modelo com ajuste-fino de todos os parâmetros com o mínimo de parâmetros ajustados possível. Isso permite duas coisas: um custo computacional ainda menor e performance competitiva para ajuste-fino em conjuntos de dados pequenos. Este trabalho utilizou destas vantagens para melhorar a performance do modelo no conjunto de dados de classificação de texto jurídico, feito ao decorrer deste trabalho. Foi comparada a performance entre o ajuste-fino parcial com BitFit e o ajuste-fino completo para um conjunto de dados pequeno, de domínio específico e do mundo real, utilizando-se do ambiente do Google Collaboratory. Os resultados mostraram que o ajuste-fino com BitFit é mais resistente a ruídos nos dados de ajuste-fino e, talvez, resolve o problema de “Esquecimento Catastrófico”. Ajuste-fino com BitFit também superou o ajuste-fino completo em 3 das 5 versões do conjunto de dados construído. Finalmente, o modelo foi apresentado e causou uma boa impressão no Tribunal de Contas da União.Deep neural networks, a class of machine learning algorithms, added a huge leap in performance for many different tasks since they won ImageNet competition in 2012. Among the benefited fields, Natural Language Processing (NLP) was specially impacted by the publication of “Attention is All you Need” paper, in 2017, which gave foundation to many posterior advancesin the field. Since then, models are getting progressively more accurate, at the cost of getting bigger and more expensive to train. Transfer Learning contributes by enabling the reuse of large Language Models pre-trained parameters, as they are expensive to optimize. It is possible tofine-tune them from the pre-trained model checkpoint for downstream (derived) tasks. This helps with computational costs of training such large models as well as it avoids the need to gather all data needed for such endeavour. Parameter Efficient Language-model Tuning (PELT) strategies tries to deepen fine-tuning advantages by at least maintaining final model performance whilefine-tuning as few parameters as possible. This enables two things: even less computational costs and competitive performance on small data sets for fine-tuning. This work leveraged these advantages in order to obtain better model performance on a legal text classification dataset,built during this work. BitFit performance on small, domain-specific, real-world dataset wascompared with complete fine-tuning performance. Results have shown that BitFit fine-tuningis more resistant to fine-tuning data noise and, perhaps, solves the “Catastrophic Forgetting”problem. Also, BitFit outperformed complete fine-tuning on 3 out 5 dataset versions. Finally, themodel was presented to and amused the brazillian Federal Court of Audits (from Portuguese: TCU - Tribunal de Contas da União).engUniversidade Tecnológica Federal do ParanáMedianeiraCiência da ComputaçãoUTFPRBrasilhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProcessamento de linguagem natural (Computação)Aprendizado do computadorRedes neurais (Computação)Natural language processing (Computer science)Machine learningNeural networks (Computer science)Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, datasetMelhorando a performance do modelo: comparando ajuste-fino completo com ajuste-fino eficiente de modelos de língua em um conjunto de dados pequeno, em português e de domínio específicoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisMedianeiraAikes Junior, JorgeCandido Junior, ArnaldoAikes Junior, JorgeGavioli, AlanHoffmann, Alessandra Bortoletto GarbelottiFernandes Junior, Ricardo Corsoreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8908http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/2/license_rdf0175ea4a2d4caec4bbcc37e300941108MD52ORIGINALmodelperformancelanguagemodel.pdfmodelperformancelanguagemodel.pdfapplication/pdf1368703http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/1/modelperformancelanguagemodel.pdf76be5edad097c06cc6f331db14da67b2MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/3/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD53TEXTmodelperformancelanguagemodel.pdf.txtmodelperformancelanguagemodel.pdf.txtExtracted texttext/plain92088http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/4/modelperformancelanguagemodel.pdf.txtdc33225f1a435d47fe5a5aa50cf27a25MD54THUMBNAILmodelperformancelanguagemodel.pdf.jpgmodelperformancelanguagemodel.pdf.jpgGenerated Thumbnailimage/jpeg1282http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/5/modelperformancelanguagemodel.pdf.jpg35868787e2d5b8c808b2e7a5a6ac9b1cMD551/308862023-03-22 03:07:44.965oai:repositorio.utfpr.edu.br:1/30886TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2023-03-22T06:07:44Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
dc.title.alternative.pt_BR.fl_str_mv	Melhorando a performance do modelo: comparando ajuste-fino completo com ajuste-fino eficiente de modelos de língua em um conjunto de dados pequeno, em português e de domínio específico
title	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
spellingShingle	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset Fernandes Junior, Ricardo Corso CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Processamento de linguagem natural (Computação) Aprendizado do computador Redes neurais (Computação) Natural language processing (Computer science) Machine learning Neural networks (Computer science)
title_short	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
title_full	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
title_fullStr	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
title_full_unstemmed	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
title_sort	Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
author	Fernandes Junior, Ricardo Corso
author_facet	Fernandes Junior, Ricardo Corso
author_role	author
dc.contributor.advisor1.fl_str_mv	Aikes Junior, Jorge
dc.contributor.advisor-co1.fl_str_mv	Candido Junior, Arnaldo
dc.contributor.referee1.fl_str_mv	Aikes Junior, Jorge
dc.contributor.referee2.fl_str_mv	Gavioli, Alan
dc.contributor.referee3.fl_str_mv	Hoffmann, Alessandra Bortoletto Garbelotti
dc.contributor.author.fl_str_mv	Fernandes Junior, Ricardo Corso
contributor_str_mv	Aikes Junior, Jorge Candido Junior, Arnaldo Aikes Junior, Jorge Gavioli, Alan Hoffmann, Alessandra Bortoletto Garbelotti
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Processamento de linguagem natural (Computação) Aprendizado do computador Redes neurais (Computação) Natural language processing (Computer science) Machine learning Neural networks (Computer science)
dc.subject.por.fl_str_mv	Processamento de linguagem natural (Computação) Aprendizado do computador Redes neurais (Computação) Natural language processing (Computer science) Machine learning Neural networks (Computer science)
description	Redes Neurais Profundas, uma classe de algoritmos de aprendizado de máquina, ocasionaram um grande salto de performance para várias tarefas diferentes desde que ganharam a competição ImageNet, em 2012. Entre as áreas beneficiadas, Processamento de Linguagem Natural (PLN) foi especialmente impactada desde a publicação do artigo “Attention is All YouNeed”, em 2017, o qual deu base para muitos dos avanços recentes no campo. Desde então, modelos estão ficando cada vez mais precisos, ao custo de se tornarem maiores e mais custosos de treinar. A Transferência de Aprendizado permite o reuso dos parâmetros pré-treinados de grandes Modelos de Língua. Esse torna possível fazer o ajuste-fino dos modelos à partir do Modelo de Língua pré-treinado para a realização de tarefas afluentes. Isso contribui para a redução dos custos computacionais de treinar um modelo deste tamanho, assim como evita a necessidade de coletar todos os dados necessários para a realização de um pré-treinamento. Estratégias de Ajuste Eficiente de Parâmetros de Modelos de Língua (PELT, do inglês) buscam aprofundar as vantagens do ajuste-fino ao pelo menos manter a performance do modelo com ajuste-fino de todos os parâmetros com o mínimo de parâmetros ajustados possível. Isso permite duas coisas: um custo computacional ainda menor e performance competitiva para ajuste-fino em conjuntos de dados pequenos. Este trabalho utilizou destas vantagens para melhorar a performance do modelo no conjunto de dados de classificação de texto jurídico, feito ao decorrer deste trabalho. Foi comparada a performance entre o ajuste-fino parcial com BitFit e o ajuste-fino completo para um conjunto de dados pequeno, de domínio específico e do mundo real, utilizando-se do ambiente do Google Collaboratory. Os resultados mostraram que o ajuste-fino com BitFit é mais resistente a ruídos nos dados de ajuste-fino e, talvez, resolve o problema de “Esquecimento Catastrófico”. Ajuste-fino com BitFit também superou o ajuste-fino completo em 3 das 5 versões do conjunto de dados construído. Finalmente, o modelo foi apresentado e causou uma boa impressão no Tribunal de Contas da União.
publishDate	2022
dc.date.issued.fl_str_mv	2022-11-28
dc.date.accessioned.fl_str_mv	2023-03-21T16:47:03Z
dc.date.available.fl_str_mv	2023-03-21T16:47:03Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	FERNANDES JUNIOR, Ricardo Corso. Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022.
dc.identifier.uri.fl_str_mv	http://repositorio.utfpr.edu.br/jspui/handle/1/30886
identifier_str_mv	FERNANDES JUNIOR, Ricardo Corso. Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022.
url	http://repositorio.utfpr.edu.br/jspui/handle/1/30886
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Medianeira
dc.publisher.program.fl_str_mv	Ciência da Computação
dc.publisher.initials.fl_str_mv	UTFPR
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Medianeira
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR
instname_str	Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str	UTFPR
institution	UTFPR
reponame_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv	http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/2/license_rdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/1/modelperformancelanguagemodel.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/3/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/4/modelperformancelanguagemodel.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/5/modelperformancelanguagemodel.pdf.jpg
bitstream.checksum.fl_str_mv	0175ea4a2d4caec4bbcc37e300941108 76be5edad097c06cc6f331db14da67b2 b9d82215ab23456fa2d8b49c5df1b95b dc33225f1a435d47fe5a5aa50cf27a25 35868787e2d5b8c808b2e7a5a6ac9b1c
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_	1805922932766015488

Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset

Registros relacionados