Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSC |
Texto Completo: | https://repositorio.ufsc.br/handle/123456789/238267 |
Resumo: | TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação. |
id |
UFSC_4c0619fca8dd357b34901f3f03d87ae3 |
---|---|
oai_identifier_str |
oai:repositorio.ufsc.br:123456789/238267 |
network_acronym_str |
UFSC |
network_name_str |
Repositório Institucional da UFSC |
repository_id_str |
2373 |
spelling |
Um método para obtenção de representações de palavras novas por meio da técnica de EmbeddingProcessamento de linguagem naturalEmbeddingsAprendizado profundoTCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação.No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras. No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings para palavras novas.Araranguá, SCGonçalves, Alexandre LeopoldoUniversidade Federal de Santa CatarinaMaciel, Daniel2022-08-15T19:52:23Z2022-08-15T19:52:23Z2022-07-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttps://repositorio.ufsc.br/handle/123456789/238267info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2022-08-15T19:52:23Zoai:repositorio.ufsc.br:123456789/238267Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732022-08-15T19:52:23Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.none.fl_str_mv |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
title |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
spellingShingle |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding Maciel, Daniel Processamento de linguagem natural Embeddings Aprendizado profundo |
title_short |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
title_full |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
title_fullStr |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
title_full_unstemmed |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
title_sort |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
author |
Maciel, Daniel |
author_facet |
Maciel, Daniel |
author_role |
author |
dc.contributor.none.fl_str_mv |
Gonçalves, Alexandre Leopoldo Universidade Federal de Santa Catarina |
dc.contributor.author.fl_str_mv |
Maciel, Daniel |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural Embeddings Aprendizado profundo |
topic |
Processamento de linguagem natural Embeddings Aprendizado profundo |
description |
TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-08-15T19:52:23Z 2022-08-15T19:52:23Z 2022-07-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufsc.br/handle/123456789/238267 |
url |
https://repositorio.ufsc.br/handle/123456789/238267 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Araranguá, SC |
publisher.none.fl_str_mv |
Araranguá, SC |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Repositório Institucional da UFSC |
collection |
Repositório Institucional da UFSC |
repository.name.fl_str_mv |
Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
|
_version_ |
1808652343278829568 |