Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Detalhes bibliográficos
Autor(a) principal: Maciel, Daniel
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/238267
Resumo: TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação.
id UFSC_4c0619fca8dd357b34901f3f03d87ae3
oai_identifier_str oai:repositorio.ufsc.br:123456789/238267
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Um método para obtenção de representações de palavras novas por meio da técnica de EmbeddingProcessamento de linguagem naturalEmbeddingsAprendizado profundoTCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação.No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras. No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings para palavras novas.Araranguá, SCGonçalves, Alexandre LeopoldoUniversidade Federal de Santa CatarinaMaciel, Daniel2022-08-15T19:52:23Z2022-08-15T19:52:23Z2022-07-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttps://repositorio.ufsc.br/handle/123456789/238267info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2022-08-15T19:52:23Zoai:repositorio.ufsc.br:123456789/238267Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732022-08-15T19:52:23Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
title Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
spellingShingle Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
Maciel, Daniel
Processamento de linguagem natural
Embeddings
Aprendizado profundo
title_short Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
title_full Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
title_fullStr Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
title_full_unstemmed Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
title_sort Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
author Maciel, Daniel
author_facet Maciel, Daniel
author_role author
dc.contributor.none.fl_str_mv Gonçalves, Alexandre Leopoldo
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Maciel, Daniel
dc.subject.por.fl_str_mv Processamento de linguagem natural
Embeddings
Aprendizado profundo
topic Processamento de linguagem natural
Embeddings
Aprendizado profundo
description TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação.
publishDate 2022
dc.date.none.fl_str_mv 2022-08-15T19:52:23Z
2022-08-15T19:52:23Z
2022-07-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/238267
url https://repositorio.ufsc.br/handle/123456789/238267
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Araranguá, SC
publisher.none.fl_str_mv Araranguá, SC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652343278829568