Processamento de linguagem natural: uma abordagem através do Word2Vec

Detalhes bibliográficos
Autor(a) principal: Silva, Leonardo Neves da
Data de Publicação: 2024
Outros Autores: Ramos Júnior, Sidney Ribeiro
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/23621
Resumo: Este trabalho investiga o Processamento de Linguagem Natural (PLN) utilizando diversas técnicas e ferramentas, com ênfase na aplicação Word2Vec. O PLN é uma área de estudo essencial para a interação entre computadores e linguagens humanas, sendo crucial para aplicações como tradução automática, análise de sentimentos e assistentes virtuais. Além do Word2Vec, o estudo explora diversas ferramentas e técnicas utilizadas para processar e analisar grandes bases de dados textuais. Entre os principais corpus, estão a Wikipedia e o ClueWeb. O estudo também implementa e avalia métodos de limpeza de dados e normalização de texto, abordando questões como a remoção de acentuação e a correção de erros ortográficos. Esses processos são essenciais para preparar o texto bruto para a análise subsequente, garantindo que os modelos possam operar com maior eficiência. O trabalho testa algumas soluções para a análise de similaridade semântica entre palavras e avaliação de contextos linguísticos. Os resultados demonstram se técnicas aplicadas são eficazes para melhorar a compreensão e o processamento automático da linguagem natural. Apesar do NELL ter sido a principal inspiração para o início do desenvolvimento, a proposta central é validar o uso dessas ferramentas no contexto da língua portuguesa, mostrando sua aplicabilidade e eficácia em diversas tarefas de PLN.
id UFRJ_763d160899ceec20d5a4059b0fc3454b
oai_identifier_str oai:pantheon.ufrj.br:11422/23621
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Processamento de linguagem natural: uma abordagem através do Word2VecWord2VecProcessamento de linguagem naturalNatural language processingWikipediaCluewebCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEste trabalho investiga o Processamento de Linguagem Natural (PLN) utilizando diversas técnicas e ferramentas, com ênfase na aplicação Word2Vec. O PLN é uma área de estudo essencial para a interação entre computadores e linguagens humanas, sendo crucial para aplicações como tradução automática, análise de sentimentos e assistentes virtuais. Além do Word2Vec, o estudo explora diversas ferramentas e técnicas utilizadas para processar e analisar grandes bases de dados textuais. Entre os principais corpus, estão a Wikipedia e o ClueWeb. O estudo também implementa e avalia métodos de limpeza de dados e normalização de texto, abordando questões como a remoção de acentuação e a correção de erros ortográficos. Esses processos são essenciais para preparar o texto bruto para a análise subsequente, garantindo que os modelos possam operar com maior eficiência. O trabalho testa algumas soluções para a análise de similaridade semântica entre palavras e avaliação de contextos linguísticos. Os resultados demonstram se técnicas aplicadas são eficazes para melhorar a compreensão e o processamento automático da linguagem natural. Apesar do NELL ter sido a principal inspiração para o início do desenvolvimento, a proposta central é validar o uso dessas ferramentas no contexto da língua portuguesa, mostrando sua aplicabilidade e eficácia em diversas tarefas de PLN.Universidade Federal do Rio de JaneiroBrasilInstituto de ComputaçãoUFRJBastos, Valeria MenezesRossetto, SilvanaPaixão, João Antonio Recio daSilva, Leonardo Neves daRamos Júnior, Sidney Ribeiro2024-09-06T13:44:20Z2024-09-08T03:00:17Z2024-05-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://hdl.handle.net/11422/23621porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2024-09-08T03:00:17Zoai:pantheon.ufrj.br:11422/23621Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2024-09-08T03:00:17Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.none.fl_str_mv Processamento de linguagem natural: uma abordagem através do Word2Vec
title Processamento de linguagem natural: uma abordagem através do Word2Vec
spellingShingle Processamento de linguagem natural: uma abordagem através do Word2Vec
Silva, Leonardo Neves da
Word2Vec
Processamento de linguagem natural
Natural language processing
Wikipedia
Clueweb
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Processamento de linguagem natural: uma abordagem através do Word2Vec
title_full Processamento de linguagem natural: uma abordagem através do Word2Vec
title_fullStr Processamento de linguagem natural: uma abordagem através do Word2Vec
title_full_unstemmed Processamento de linguagem natural: uma abordagem através do Word2Vec
title_sort Processamento de linguagem natural: uma abordagem através do Word2Vec
author Silva, Leonardo Neves da
author_facet Silva, Leonardo Neves da
Ramos Júnior, Sidney Ribeiro
author_role author
author2 Ramos Júnior, Sidney Ribeiro
author2_role author
dc.contributor.none.fl_str_mv Bastos, Valeria Menezes
Rossetto, Silvana
Paixão, João Antonio Recio da
dc.contributor.author.fl_str_mv Silva, Leonardo Neves da
Ramos Júnior, Sidney Ribeiro
dc.subject.por.fl_str_mv Word2Vec
Processamento de linguagem natural
Natural language processing
Wikipedia
Clueweb
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Word2Vec
Processamento de linguagem natural
Natural language processing
Wikipedia
Clueweb
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Este trabalho investiga o Processamento de Linguagem Natural (PLN) utilizando diversas técnicas e ferramentas, com ênfase na aplicação Word2Vec. O PLN é uma área de estudo essencial para a interação entre computadores e linguagens humanas, sendo crucial para aplicações como tradução automática, análise de sentimentos e assistentes virtuais. Além do Word2Vec, o estudo explora diversas ferramentas e técnicas utilizadas para processar e analisar grandes bases de dados textuais. Entre os principais corpus, estão a Wikipedia e o ClueWeb. O estudo também implementa e avalia métodos de limpeza de dados e normalização de texto, abordando questões como a remoção de acentuação e a correção de erros ortográficos. Esses processos são essenciais para preparar o texto bruto para a análise subsequente, garantindo que os modelos possam operar com maior eficiência. O trabalho testa algumas soluções para a análise de similaridade semântica entre palavras e avaliação de contextos linguísticos. Os resultados demonstram se técnicas aplicadas são eficazes para melhorar a compreensão e o processamento automático da linguagem natural. Apesar do NELL ter sido a principal inspiração para o início do desenvolvimento, a proposta central é validar o uso dessas ferramentas no contexto da língua portuguesa, mostrando sua aplicabilidade e eficácia em diversas tarefas de PLN.
publishDate 2024
dc.date.none.fl_str_mv 2024-09-06T13:44:20Z
2024-09-08T03:00:17Z
2024-05-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/23621
url http://hdl.handle.net/11422/23621
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto de Computação
UFRJ
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Instituto de Computação
UFRJ
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv pantheon@sibi.ufrj.br
_version_ 1815456059669610496