Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/30886 |
Resumo: | Redes Neurais Profundas, uma classe de algoritmos de aprendizado de máquina, ocasionaram um grande salto de performance para várias tarefas diferentes desde que ganharam a competição ImageNet, em 2012. Entre as áreas beneficiadas, Processamento de Linguagem Natural (PLN) foi especialmente impactada desde a publicação do artigo “Attention is All YouNeed”, em 2017, o qual deu base para muitos dos avanços recentes no campo. Desde então, modelos estão ficando cada vez mais precisos, ao custo de se tornarem maiores e mais custosos de treinar. A Transferência de Aprendizado permite o reuso dos parâmetros pré-treinados de grandes Modelos de Língua. Esse torna possível fazer o ajuste-fino dos modelos à partir do Modelo de Língua pré-treinado para a realização de tarefas afluentes. Isso contribui para a redução dos custos computacionais de treinar um modelo deste tamanho, assim como evita a necessidade de coletar todos os dados necessários para a realização de um pré-treinamento. Estratégias de Ajuste Eficiente de Parâmetros de Modelos de Língua (PELT, do inglês) buscam aprofundar as vantagens do ajuste-fino ao pelo menos manter a performance do modelo com ajuste-fino de todos os parâmetros com o mínimo de parâmetros ajustados possível. Isso permite duas coisas: um custo computacional ainda menor e performance competitiva para ajuste-fino em conjuntos de dados pequenos. Este trabalho utilizou destas vantagens para melhorar a performance do modelo no conjunto de dados de classificação de texto jurídico, feito ao decorrer deste trabalho. Foi comparada a performance entre o ajuste-fino parcial com BitFit e o ajuste-fino completo para um conjunto de dados pequeno, de domínio específico e do mundo real, utilizando-se do ambiente do Google Collaboratory. Os resultados mostraram que o ajuste-fino com BitFit é mais resistente a ruídos nos dados de ajuste-fino e, talvez, resolve o problema de “Esquecimento Catastrófico”. Ajuste-fino com BitFit também superou o ajuste-fino completo em 3 das 5 versões do conjunto de dados construído. Finalmente, o modelo foi apresentado e causou uma boa impressão no Tribunal de Contas da União. |
id |
UTFPR-12_b5c176ce43dad7a9fd39c3f481f45ad3 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/30886 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2023-03-21T16:47:03Z2023-03-21T16:47:03Z2022-11-28FERNANDES JUNIOR, Ricardo Corso. Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/30886Redes Neurais Profundas, uma classe de algoritmos de aprendizado de máquina, ocasionaram um grande salto de performance para várias tarefas diferentes desde que ganharam a competição ImageNet, em 2012. Entre as áreas beneficiadas, Processamento de Linguagem Natural (PLN) foi especialmente impactada desde a publicação do artigo “Attention is All YouNeed”, em 2017, o qual deu base para muitos dos avanços recentes no campo. Desde então, modelos estão ficando cada vez mais precisos, ao custo de se tornarem maiores e mais custosos de treinar. A Transferência de Aprendizado permite o reuso dos parâmetros pré-treinados de grandes Modelos de Língua. Esse torna possível fazer o ajuste-fino dos modelos à partir do Modelo de Língua pré-treinado para a realização de tarefas afluentes. Isso contribui para a redução dos custos computacionais de treinar um modelo deste tamanho, assim como evita a necessidade de coletar todos os dados necessários para a realização de um pré-treinamento. Estratégias de Ajuste Eficiente de Parâmetros de Modelos de Língua (PELT, do inglês) buscam aprofundar as vantagens do ajuste-fino ao pelo menos manter a performance do modelo com ajuste-fino de todos os parâmetros com o mínimo de parâmetros ajustados possível. Isso permite duas coisas: um custo computacional ainda menor e performance competitiva para ajuste-fino em conjuntos de dados pequenos. Este trabalho utilizou destas vantagens para melhorar a performance do modelo no conjunto de dados de classificação de texto jurídico, feito ao decorrer deste trabalho. Foi comparada a performance entre o ajuste-fino parcial com BitFit e o ajuste-fino completo para um conjunto de dados pequeno, de domínio específico e do mundo real, utilizando-se do ambiente do Google Collaboratory. Os resultados mostraram que o ajuste-fino com BitFit é mais resistente a ruídos nos dados de ajuste-fino e, talvez, resolve o problema de “Esquecimento Catastrófico”. Ajuste-fino com BitFit também superou o ajuste-fino completo em 3 das 5 versões do conjunto de dados construído. Finalmente, o modelo foi apresentado e causou uma boa impressão no Tribunal de Contas da União.Deep neural networks, a class of machine learning algorithms, added a huge leap in performance for many different tasks since they won ImageNet competition in 2012. Among the benefited fields, Natural Language Processing (NLP) was specially impacted by the publication of “Attention is All you Need” paper, in 2017, which gave foundation to many posterior advancesin the field. Since then, models are getting progressively more accurate, at the cost of getting bigger and more expensive to train. Transfer Learning contributes by enabling the reuse of large Language Models pre-trained parameters, as they are expensive to optimize. It is possible tofine-tune them from the pre-trained model checkpoint for downstream (derived) tasks. This helps with computational costs of training such large models as well as it avoids the need to gather all data needed for such endeavour. Parameter Efficient Language-model Tuning (PELT) strategies tries to deepen fine-tuning advantages by at least maintaining final model performance whilefine-tuning as few parameters as possible. This enables two things: even less computational costs and competitive performance on small data sets for fine-tuning. This work leveraged these advantages in order to obtain better model performance on a legal text classification dataset,built during this work. BitFit performance on small, domain-specific, real-world dataset wascompared with complete fine-tuning performance. Results have shown that BitFit fine-tuningis more resistant to fine-tuning data noise and, perhaps, solves the “Catastrophic Forgetting”problem. Also, BitFit outperformed complete fine-tuning on 3 out 5 dataset versions. Finally, themodel was presented to and amused the brazillian Federal Court of Audits (from Portuguese: TCU - Tribunal de Contas da União).engUniversidade Tecnológica Federal do ParanáMedianeiraCiência da ComputaçãoUTFPRBrasilhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProcessamento de linguagem natural (Computação)Aprendizado do computadorRedes neurais (Computação)Natural language processing (Computer science)Machine learningNeural networks (Computer science)Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, datasetMelhorando a performance do modelo: comparando ajuste-fino completo com ajuste-fino eficiente de modelos de língua em um conjunto de dados pequeno, em português e de domínio específicoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisMedianeiraAikes Junior, JorgeCandido Junior, ArnaldoAikes Junior, JorgeGavioli, AlanHoffmann, Alessandra Bortoletto GarbelottiFernandes Junior, Ricardo Corsoreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8908http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/2/license_rdf0175ea4a2d4caec4bbcc37e300941108MD52ORIGINALmodelperformancelanguagemodel.pdfmodelperformancelanguagemodel.pdfapplication/pdf1368703http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/1/modelperformancelanguagemodel.pdf76be5edad097c06cc6f331db14da67b2MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/3/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD53TEXTmodelperformancelanguagemodel.pdf.txtmodelperformancelanguagemodel.pdf.txtExtracted texttext/plain92088http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/4/modelperformancelanguagemodel.pdf.txtdc33225f1a435d47fe5a5aa50cf27a25MD54THUMBNAILmodelperformancelanguagemodel.pdf.jpgmodelperformancelanguagemodel.pdf.jpgGenerated Thumbnailimage/jpeg1282http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/5/modelperformancelanguagemodel.pdf.jpg35868787e2d5b8c808b2e7a5a6ac9b1cMD551/308862023-03-22 03:07:44.965oai:repositorio.utfpr.edu.br:1/30886TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2023-03-22T06:07:44Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset |
dc.title.alternative.pt_BR.fl_str_mv |
Melhorando a performance do modelo: comparando ajuste-fino completo com ajuste-fino eficiente de modelos de língua em um conjunto de dados pequeno, em português e de domínio específico |
title |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset |
spellingShingle |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset Fernandes Junior, Ricardo Corso CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Processamento de linguagem natural (Computação) Aprendizado do computador Redes neurais (Computação) Natural language processing (Computer science) Machine learning Neural networks (Computer science) |
title_short |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset |
title_full |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset |
title_fullStr |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset |
title_full_unstemmed |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset |
title_sort |
Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset |
author |
Fernandes Junior, Ricardo Corso |
author_facet |
Fernandes Junior, Ricardo Corso |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Aikes Junior, Jorge |
dc.contributor.advisor-co1.fl_str_mv |
Candido Junior, Arnaldo |
dc.contributor.referee1.fl_str_mv |
Aikes Junior, Jorge |
dc.contributor.referee2.fl_str_mv |
Gavioli, Alan |
dc.contributor.referee3.fl_str_mv |
Hoffmann, Alessandra Bortoletto Garbelotti |
dc.contributor.author.fl_str_mv |
Fernandes Junior, Ricardo Corso |
contributor_str_mv |
Aikes Junior, Jorge Candido Junior, Arnaldo Aikes Junior, Jorge Gavioli, Alan Hoffmann, Alessandra Bortoletto Garbelotti |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Processamento de linguagem natural (Computação) Aprendizado do computador Redes neurais (Computação) Natural language processing (Computer science) Machine learning Neural networks (Computer science) |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural (Computação) Aprendizado do computador Redes neurais (Computação) Natural language processing (Computer science) Machine learning Neural networks (Computer science) |
description |
Redes Neurais Profundas, uma classe de algoritmos de aprendizado de máquina, ocasionaram um grande salto de performance para várias tarefas diferentes desde que ganharam a competição ImageNet, em 2012. Entre as áreas beneficiadas, Processamento de Linguagem Natural (PLN) foi especialmente impactada desde a publicação do artigo “Attention is All YouNeed”, em 2017, o qual deu base para muitos dos avanços recentes no campo. Desde então, modelos estão ficando cada vez mais precisos, ao custo de se tornarem maiores e mais custosos de treinar. A Transferência de Aprendizado permite o reuso dos parâmetros pré-treinados de grandes Modelos de Língua. Esse torna possível fazer o ajuste-fino dos modelos à partir do Modelo de Língua pré-treinado para a realização de tarefas afluentes. Isso contribui para a redução dos custos computacionais de treinar um modelo deste tamanho, assim como evita a necessidade de coletar todos os dados necessários para a realização de um pré-treinamento. Estratégias de Ajuste Eficiente de Parâmetros de Modelos de Língua (PELT, do inglês) buscam aprofundar as vantagens do ajuste-fino ao pelo menos manter a performance do modelo com ajuste-fino de todos os parâmetros com o mínimo de parâmetros ajustados possível. Isso permite duas coisas: um custo computacional ainda menor e performance competitiva para ajuste-fino em conjuntos de dados pequenos. Este trabalho utilizou destas vantagens para melhorar a performance do modelo no conjunto de dados de classificação de texto jurídico, feito ao decorrer deste trabalho. Foi comparada a performance entre o ajuste-fino parcial com BitFit e o ajuste-fino completo para um conjunto de dados pequeno, de domínio específico e do mundo real, utilizando-se do ambiente do Google Collaboratory. Os resultados mostraram que o ajuste-fino com BitFit é mais resistente a ruídos nos dados de ajuste-fino e, talvez, resolve o problema de “Esquecimento Catastrófico”. Ajuste-fino com BitFit também superou o ajuste-fino completo em 3 das 5 versões do conjunto de dados construído. Finalmente, o modelo foi apresentado e causou uma boa impressão no Tribunal de Contas da União. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022-11-28 |
dc.date.accessioned.fl_str_mv |
2023-03-21T16:47:03Z |
dc.date.available.fl_str_mv |
2023-03-21T16:47:03Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
FERNANDES JUNIOR, Ricardo Corso. Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/30886 |
identifier_str_mv |
FERNANDES JUNIOR, Ricardo Corso. Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/30886 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Medianeira |
dc.publisher.program.fl_str_mv |
Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Medianeira |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/2/license_rdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/1/modelperformancelanguagemodel.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/3/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/4/modelperformancelanguagemodel.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30886/5/modelperformancelanguagemodel.pdf.jpg |
bitstream.checksum.fl_str_mv |
0175ea4a2d4caec4bbcc37e300941108 76be5edad097c06cc6f331db14da67b2 b9d82215ab23456fa2d8b49c5df1b95b dc33225f1a435d47fe5a5aa50cf27a25 35868787e2d5b8c808b2e7a5a6ac9b1c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805922932766015488 |