Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural

Detalhes bibliográficos
Autor(a) principal: Pompolo, Adalberto Nassu
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da FEI
Texto Completo: https://repositorio.fei.edu.br/handle/FEI/5291
https://doi.org/10.31414/EE.2024.D.131707
Resumo: Ferramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentário
id FEI_cb70bd16db8a476a599321c35c05fe15
oai_identifier_str oai:repositorio.fei.edu.br:FEI/5291
network_acronym_str FEI
network_name_str Biblioteca Digital de Teses e Dissertações da FEI
repository_id_str https://repositorio.fei.edu.br/oai/request
spelling Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem naturalCódigo fonteLinguagem naturalTransformersFerramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentárioCode search tools using natural language queries are becoming an essential tool for software engineers. Nowadays, the transformers models are the state-of-art for several natural language processing tasks such as code search using natural language. However, such models requires a lot of computational resources for training in a specific domain (fine-tuning). On the other hand, classical neural networks such as MLP takes less computational resources for training in a specific domain, but it does not achieve the transformers models results. That being said, the goal of this study is to use a MLP network to determine the similarity between two transformers embeddings from two different domains: one trained using NLP and the other using code snippets. Therefore, it will be used more than 10000 code/comment pairs as well as a annotated queries dataset; both datasets came from the CodeSearchNet database. At the end, the network yields good results in a subset of samples, detecting semantic information within the code/comment pairCentro Universitário FEI, São Bernardo do CampoBergamasco, L. C. C.Pompolo, Adalberto Nassu2024-03-07T12:21:26Z2024-03-07T12:21:26Z2024info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfPOMPOLO, Adalberto Nassu. <b> Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural. </b> 2024. 65 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: https://doi.org/10.31414/EE.2024.D.131707.https://repositorio.fei.edu.br/handle/FEI/5291https://doi.org/10.31414/EE.2024.D.131707porpt_BRreponame:Biblioteca Digital de Teses e Dissertações da FEIinstname:Centro Universitário da Fundação Educacional Inaciana (FEI)instacron:FEIinfo:eu-repo/semantics/openAccess2024-03-08T03:00:18Zoai:repositorio.fei.edu.br:FEI/5291Biblioteca Digital de Teses e Dissertaçõeshttp://sofia.fei.edu.br/pergamum/biblioteca/PRIhttp://sofia.fei.edu.br/pergamum/oai/oai2.phpcfernandes@fei.edu.bropendoar:https://repositorio.fei.edu.br/oai/request2024-03-08T03:00:18Biblioteca Digital de Teses e Dissertações da FEI - Centro Universitário da Fundação Educacional Inaciana (FEI)false
dc.title.none.fl_str_mv Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
title Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
spellingShingle Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
Pompolo, Adalberto Nassu
Código fonte
Linguagem natural
Transformers
title_short Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
title_full Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
title_fullStr Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
title_full_unstemmed Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
title_sort Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
author Pompolo, Adalberto Nassu
author_facet Pompolo, Adalberto Nassu
author_role author
dc.contributor.none.fl_str_mv Bergamasco, L. C. C.
dc.contributor.author.fl_str_mv Pompolo, Adalberto Nassu
dc.subject.por.fl_str_mv Código fonte
Linguagem natural
Transformers
topic Código fonte
Linguagem natural
Transformers
description Ferramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentário
publishDate 2024
dc.date.none.fl_str_mv 2024-03-07T12:21:26Z
2024-03-07T12:21:26Z
2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv POMPOLO, Adalberto Nassu. <b> Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural. </b> 2024. 65 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: https://doi.org/10.31414/EE.2024.D.131707.
https://repositorio.fei.edu.br/handle/FEI/5291
https://doi.org/10.31414/EE.2024.D.131707
identifier_str_mv POMPOLO, Adalberto Nassu. <b> Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural. </b> 2024. 65 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: https://doi.org/10.31414/EE.2024.D.131707.
url https://repositorio.fei.edu.br/handle/FEI/5291
https://doi.org/10.31414/EE.2024.D.131707
dc.language.iso.fl_str_mv por
pt_BR
language por
language_invalid_str_mv pt_BR
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Centro Universitário FEI, São Bernardo do Campo
publisher.none.fl_str_mv Centro Universitário FEI, São Bernardo do Campo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da FEI
instname:Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron:FEI
instname_str Centro Universitário da Fundação Educacional Inaciana (FEI)
instacron_str FEI
institution FEI
reponame_str Biblioteca Digital de Teses e Dissertações da FEI
collection Biblioteca Digital de Teses e Dissertações da FEI
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da FEI - Centro Universitário da Fundação Educacional Inaciana (FEI)
repository.mail.fl_str_mv cfernandes@fei.edu.br
_version_ 1809225179147010048