Processamento de linguagem natural: uma abordagem através do Word2Vec
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Outros Autores: | |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/23621 |
Resumo: | Este trabalho investiga o Processamento de Linguagem Natural (PLN) utilizando diversas técnicas e ferramentas, com ênfase na aplicação Word2Vec. O PLN é uma área de estudo essencial para a interação entre computadores e linguagens humanas, sendo crucial para aplicações como tradução automática, análise de sentimentos e assistentes virtuais. Além do Word2Vec, o estudo explora diversas ferramentas e técnicas utilizadas para processar e analisar grandes bases de dados textuais. Entre os principais corpus, estão a Wikipedia e o ClueWeb. O estudo também implementa e avalia métodos de limpeza de dados e normalização de texto, abordando questões como a remoção de acentuação e a correção de erros ortográficos. Esses processos são essenciais para preparar o texto bruto para a análise subsequente, garantindo que os modelos possam operar com maior eficiência. O trabalho testa algumas soluções para a análise de similaridade semântica entre palavras e avaliação de contextos linguísticos. Os resultados demonstram se técnicas aplicadas são eficazes para melhorar a compreensão e o processamento automático da linguagem natural. Apesar do NELL ter sido a principal inspiração para o início do desenvolvimento, a proposta central é validar o uso dessas ferramentas no contexto da língua portuguesa, mostrando sua aplicabilidade e eficácia em diversas tarefas de PLN. |
id |
UFRJ_763d160899ceec20d5a4059b0fc3454b |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/23621 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Processamento de linguagem natural: uma abordagem através do Word2VecWord2VecProcessamento de linguagem naturalNatural language processingWikipediaCluewebCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEste trabalho investiga o Processamento de Linguagem Natural (PLN) utilizando diversas técnicas e ferramentas, com ênfase na aplicação Word2Vec. O PLN é uma área de estudo essencial para a interação entre computadores e linguagens humanas, sendo crucial para aplicações como tradução automática, análise de sentimentos e assistentes virtuais. Além do Word2Vec, o estudo explora diversas ferramentas e técnicas utilizadas para processar e analisar grandes bases de dados textuais. Entre os principais corpus, estão a Wikipedia e o ClueWeb. O estudo também implementa e avalia métodos de limpeza de dados e normalização de texto, abordando questões como a remoção de acentuação e a correção de erros ortográficos. Esses processos são essenciais para preparar o texto bruto para a análise subsequente, garantindo que os modelos possam operar com maior eficiência. O trabalho testa algumas soluções para a análise de similaridade semântica entre palavras e avaliação de contextos linguísticos. Os resultados demonstram se técnicas aplicadas são eficazes para melhorar a compreensão e o processamento automático da linguagem natural. Apesar do NELL ter sido a principal inspiração para o início do desenvolvimento, a proposta central é validar o uso dessas ferramentas no contexto da língua portuguesa, mostrando sua aplicabilidade e eficácia em diversas tarefas de PLN.Universidade Federal do Rio de JaneiroBrasilInstituto de ComputaçãoUFRJBastos, Valeria MenezesRossetto, SilvanaPaixão, João Antonio Recio daSilva, Leonardo Neves daRamos Júnior, Sidney Ribeiro2024-09-06T13:44:20Z2024-09-08T03:00:17Z2024-05-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://hdl.handle.net/11422/23621porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2024-09-08T03:00:17Zoai:pantheon.ufrj.br:11422/23621Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2024-09-08T03:00:17Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.none.fl_str_mv |
Processamento de linguagem natural: uma abordagem através do Word2Vec |
title |
Processamento de linguagem natural: uma abordagem através do Word2Vec |
spellingShingle |
Processamento de linguagem natural: uma abordagem através do Word2Vec Silva, Leonardo Neves da Word2Vec Processamento de linguagem natural Natural language processing Wikipedia Clueweb CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Processamento de linguagem natural: uma abordagem através do Word2Vec |
title_full |
Processamento de linguagem natural: uma abordagem através do Word2Vec |
title_fullStr |
Processamento de linguagem natural: uma abordagem através do Word2Vec |
title_full_unstemmed |
Processamento de linguagem natural: uma abordagem através do Word2Vec |
title_sort |
Processamento de linguagem natural: uma abordagem através do Word2Vec |
author |
Silva, Leonardo Neves da |
author_facet |
Silva, Leonardo Neves da Ramos Júnior, Sidney Ribeiro |
author_role |
author |
author2 |
Ramos Júnior, Sidney Ribeiro |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Bastos, Valeria Menezes Rossetto, Silvana Paixão, João Antonio Recio da |
dc.contributor.author.fl_str_mv |
Silva, Leonardo Neves da Ramos Júnior, Sidney Ribeiro |
dc.subject.por.fl_str_mv |
Word2Vec Processamento de linguagem natural Natural language processing Wikipedia Clueweb CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
Word2Vec Processamento de linguagem natural Natural language processing Wikipedia Clueweb CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Este trabalho investiga o Processamento de Linguagem Natural (PLN) utilizando diversas técnicas e ferramentas, com ênfase na aplicação Word2Vec. O PLN é uma área de estudo essencial para a interação entre computadores e linguagens humanas, sendo crucial para aplicações como tradução automática, análise de sentimentos e assistentes virtuais. Além do Word2Vec, o estudo explora diversas ferramentas e técnicas utilizadas para processar e analisar grandes bases de dados textuais. Entre os principais corpus, estão a Wikipedia e o ClueWeb. O estudo também implementa e avalia métodos de limpeza de dados e normalização de texto, abordando questões como a remoção de acentuação e a correção de erros ortográficos. Esses processos são essenciais para preparar o texto bruto para a análise subsequente, garantindo que os modelos possam operar com maior eficiência. O trabalho testa algumas soluções para a análise de similaridade semântica entre palavras e avaliação de contextos linguísticos. Os resultados demonstram se técnicas aplicadas são eficazes para melhorar a compreensão e o processamento automático da linguagem natural. Apesar do NELL ter sido a principal inspiração para o início do desenvolvimento, a proposta central é validar o uso dessas ferramentas no contexto da língua portuguesa, mostrando sua aplicabilidade e eficácia em diversas tarefas de PLN. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-09-06T13:44:20Z 2024-09-08T03:00:17Z 2024-05-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/23621 |
url |
http://hdl.handle.net/11422/23621 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto de Computação UFRJ |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Instituto de Computação UFRJ |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
_version_ |
1815456059669610496 |