Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.

Detalhes bibliográficos
Autor(a) principal: SANTOS, Matheus Lisboa Oliveira dos.
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/33359
Resumo: Embora os grandes modelos de linguagem (LLMs) representem uma revolução na forma como interagimos com computadores, permitindo a construção de perguntas complexas e a capacidade de raciocinar sobre uma sequência de declarações, seu uso é restrito devido à necessidade de hardware dedicado para a execução. Neste estudo, avaliamos o desempenho de LLMs baseados nos modelos LLaMA de 7 e 13 bilhões, submetidos a um processo de quantização e executados em hardware doméstico. Os modelos considerados foram alpaca, koala e vicuna. Para avaliar a eficácia desses modelos, desenvolvemos um banco de dados contendo 1006 perguntas do ENEM (Exame Nacional do Ensino Médio). Nossa análise revelou que o modelo de melhor desempenho alcançou uma acurácia de aproximadamente 40% tanto para os textos originais das perguntas em português quanto para suas traduções em inglês. Além disso, avaliamos a eficiência computacional dos modelos medindo o tempo necessário para a execução. Em média, os LLMs de 7 e 13 bilhões levaram aproximadamente 20 e 50 segundos, respectivamente, para processar as consultas em uma máquina equipada com um processador AMD Ryzen 5 3600x.
id UFCG_11d4c8c23249e154d15a0c79c25995e6
oai_identifier_str oai:localhost:riufcg/33359
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.Benchmarking quantized LLaMa-based models on the Brazilian Secondary School Exam - ENEM.Grande modelos de linguagemLLMsENEMLLaMA - modelo de linguagemQuantizaçãoQuestões do ENEMGreat language modelsAND EITHERLLaMA - language modelQuantizationENEM questionsCiência da Computação.Embora os grandes modelos de linguagem (LLMs) representem uma revolução na forma como interagimos com computadores, permitindo a construção de perguntas complexas e a capacidade de raciocinar sobre uma sequência de declarações, seu uso é restrito devido à necessidade de hardware dedicado para a execução. Neste estudo, avaliamos o desempenho de LLMs baseados nos modelos LLaMA de 7 e 13 bilhões, submetidos a um processo de quantização e executados em hardware doméstico. Os modelos considerados foram alpaca, koala e vicuna. Para avaliar a eficácia desses modelos, desenvolvemos um banco de dados contendo 1006 perguntas do ENEM (Exame Nacional do Ensino Médio). Nossa análise revelou que o modelo de melhor desempenho alcançou uma acurácia de aproximadamente 40% tanto para os textos originais das perguntas em português quanto para suas traduções em inglês. Além disso, avaliamos a eficiência computacional dos modelos medindo o tempo necessário para a execução. Em média, os LLMs de 7 e 13 bilhões levaram aproximadamente 20 e 50 segundos, respectivamente, para processar as consultas em uma máquina equipada com um processador AMD Ryzen 5 3600x.Although large language models (LLMs) represent a revolution in the way we interact with computers allowing the construction of complex questions and the ability to reason over a sequence of statements, their use is restricted due to the need for dedicated hardware for execution. In this study we evaluate the performance of LLMs based on the 7 and 13 billion LLaMA models, subjected to a quantization process and run on home hardware. The models considered were alpaca, koala, and vicuna. To evaluate the effectiveness of these models, we developed a database containing 1006 questions from the ENEM (National High School Exam). Our analysis revealed that the best performing model achieved an accuracy of approximately 40% for both the original texts of the Portuguese questions and their English translations. In addition, we evaluated the computational efficiency of the models by measuring the time required for execution. On average, the 7 and 13 billion LLMs took approximately 20 and 50 seconds, respectively, to process the queries on a machine equipped with an AMD Ryzen 5 3600x processor.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIUFCGCAMPELO, Cláudio Elízio Calazans.CAMPELO, C. E. C.http://lattes.cnpq.br/2042247762832979BAPTISTA, Cláudio de Souza.BAPTISTA, C. S.http://lattes.cnpq.br/0104124422364023BRASILEIRO, Francisco Vilar.BRASILEIRO, F. V.http://lattes.cnpq.br/5957855817378897SANTOS, Matheus Lisboa Oliveira dos.2023-06-282023-12-04T20:21:15Z2023-12-042023-12-04T20:21:15Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/33359SANTOS, Matheus Lisboa Oliveira dos. Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM. 2023. 12f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática , Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/33359porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2024-07-15T13:24:37Zoai:localhost:riufcg/33359Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512024-07-15T13:24:37Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
Benchmarking quantized LLaMa-based models on the Brazilian Secondary School Exam - ENEM.
title Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
spellingShingle Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
SANTOS, Matheus Lisboa Oliveira dos.
Grande modelos de linguagem
LLMs
ENEM
LLaMA - modelo de linguagem
Quantização
Questões do ENEM
Great language models
AND EITHER
LLaMA - language model
Quantization
ENEM questions
Ciência da Computação.
title_short Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
title_full Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
title_fullStr Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
title_full_unstemmed Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
title_sort Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM.
author SANTOS, Matheus Lisboa Oliveira dos.
author_facet SANTOS, Matheus Lisboa Oliveira dos.
author_role author
dc.contributor.none.fl_str_mv CAMPELO, Cláudio Elízio Calazans.
CAMPELO, C. E. C.
http://lattes.cnpq.br/2042247762832979
BAPTISTA, Cláudio de Souza.
BAPTISTA, C. S.
http://lattes.cnpq.br/0104124422364023
BRASILEIRO, Francisco Vilar.
BRASILEIRO, F. V.
http://lattes.cnpq.br/5957855817378897
dc.contributor.author.fl_str_mv SANTOS, Matheus Lisboa Oliveira dos.
dc.subject.por.fl_str_mv Grande modelos de linguagem
LLMs
ENEM
LLaMA - modelo de linguagem
Quantização
Questões do ENEM
Great language models
AND EITHER
LLaMA - language model
Quantization
ENEM questions
Ciência da Computação.
topic Grande modelos de linguagem
LLMs
ENEM
LLaMA - modelo de linguagem
Quantização
Questões do ENEM
Great language models
AND EITHER
LLaMA - language model
Quantization
ENEM questions
Ciência da Computação.
description Embora os grandes modelos de linguagem (LLMs) representem uma revolução na forma como interagimos com computadores, permitindo a construção de perguntas complexas e a capacidade de raciocinar sobre uma sequência de declarações, seu uso é restrito devido à necessidade de hardware dedicado para a execução. Neste estudo, avaliamos o desempenho de LLMs baseados nos modelos LLaMA de 7 e 13 bilhões, submetidos a um processo de quantização e executados em hardware doméstico. Os modelos considerados foram alpaca, koala e vicuna. Para avaliar a eficácia desses modelos, desenvolvemos um banco de dados contendo 1006 perguntas do ENEM (Exame Nacional do Ensino Médio). Nossa análise revelou que o modelo de melhor desempenho alcançou uma acurácia de aproximadamente 40% tanto para os textos originais das perguntas em português quanto para suas traduções em inglês. Além disso, avaliamos a eficiência computacional dos modelos medindo o tempo necessário para a execução. Em média, os LLMs de 7 e 13 bilhões levaram aproximadamente 20 e 50 segundos, respectivamente, para processar as consultas em uma máquina equipada com um processador AMD Ryzen 5 3600x.
publishDate 2023
dc.date.none.fl_str_mv 2023-06-28
2023-12-04T20:21:15Z
2023-12-04
2023-12-04T20:21:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/33359
SANTOS, Matheus Lisboa Oliveira dos. Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM. 2023. 12f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática , Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/33359
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/33359
identifier_str_mv SANTOS, Matheus Lisboa Oliveira dos. Avaliação de grandes modelos de linguagem quantizados na resolução de questões do ENEM. 2023. 12f. (Trabalho de Conclusão de Curso - Artigo), Curso de Bacharelado em Ciência da Computação, Centro de Engenharia Elétrica e Informática , Universidade Federal de Campina Grande – Paraíba - Brasil, 2023. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/33359
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1809744604136734720