Representação vetorial de textos: DOC2VEC
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/28543 |
Resumo: | O objetivo principal deste trabalho é apresentar o algoritmo não supervisionado para representação vetorial de documentos, Doc2vec, o qual consiste em associar cada texto a um vetor numérico considerando seu contexto no corpus. Doc2Vec ´e uma extensão do algoritmo Word2Vec, o qual também será apresentado neste trabalho. Através de Doc2vec veremos a importância de considerar a relação semântica entre as palavras com seu contexto. Finalmente, compararemos o desempenho de classificadores usando representações vetoriais Doc2Vec com uma representação numérica que não considera a relação entre as palavras com seu contexto, Bag of Word (BOW). Veremos que com a representação de Doc2Vec todos os classificadores apresentaram um melhor desempenho computacional. |
id |
UFF-2_101f8111163c7b88f93b8ba0f51f2f1c |
---|---|
oai_identifier_str |
oai:app.uff.br:1/28543 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Representação vetorial de textos: DOC2VECDoc2VecWor2VecBOWWord EmbeddingAlgoritmo computacionalWord (Programa de computador)Linguagem de programação de computadorO objetivo principal deste trabalho é apresentar o algoritmo não supervisionado para representação vetorial de documentos, Doc2vec, o qual consiste em associar cada texto a um vetor numérico considerando seu contexto no corpus. Doc2Vec ´e uma extensão do algoritmo Word2Vec, o qual também será apresentado neste trabalho. Através de Doc2vec veremos a importância de considerar a relação semântica entre as palavras com seu contexto. Finalmente, compararemos o desempenho de classificadores usando representações vetoriais Doc2Vec com uma representação numérica que não considera a relação entre as palavras com seu contexto, Bag of Word (BOW). Veremos que com a representação de Doc2Vec todos os classificadores apresentaram um melhor desempenho computacional.38 f.Kubrusly, Jéssica QuintanilhaValenotti, Gabriel Gonzalo Ledesma2023-04-14T16:18:11Z2023-04-14T16:18:11Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfVALENOTTI, Gabriel Gonzalo Ledesma. Representação vetorial de textos: Doc2Vec. 2022. 38 f. Trabalho de Conclusão de Curso (Graduação em Matemática)- Instituto de Matemática e Estatística. Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/28543pt_BRporCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-04-14T16:18:16Zoai:app.uff.br:1/28543Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-04-14T16:18:16Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Representação vetorial de textos: DOC2VEC |
title |
Representação vetorial de textos: DOC2VEC |
spellingShingle |
Representação vetorial de textos: DOC2VEC Valenotti, Gabriel Gonzalo Ledesma Doc2Vec Wor2Vec BOW Word Embedding Algoritmo computacional Word (Programa de computador) Linguagem de programação de computador |
title_short |
Representação vetorial de textos: DOC2VEC |
title_full |
Representação vetorial de textos: DOC2VEC |
title_fullStr |
Representação vetorial de textos: DOC2VEC |
title_full_unstemmed |
Representação vetorial de textos: DOC2VEC |
title_sort |
Representação vetorial de textos: DOC2VEC |
author |
Valenotti, Gabriel Gonzalo Ledesma |
author_facet |
Valenotti, Gabriel Gonzalo Ledesma |
author_role |
author |
dc.contributor.none.fl_str_mv |
Kubrusly, Jéssica Quintanilha |
dc.contributor.author.fl_str_mv |
Valenotti, Gabriel Gonzalo Ledesma |
dc.subject.por.fl_str_mv |
Doc2Vec Wor2Vec BOW Word Embedding Algoritmo computacional Word (Programa de computador) Linguagem de programação de computador |
topic |
Doc2Vec Wor2Vec BOW Word Embedding Algoritmo computacional Word (Programa de computador) Linguagem de programação de computador |
description |
O objetivo principal deste trabalho é apresentar o algoritmo não supervisionado para representação vetorial de documentos, Doc2vec, o qual consiste em associar cada texto a um vetor numérico considerando seu contexto no corpus. Doc2Vec ´e uma extensão do algoritmo Word2Vec, o qual também será apresentado neste trabalho. Através de Doc2vec veremos a importância de considerar a relação semântica entre as palavras com seu contexto. Finalmente, compararemos o desempenho de classificadores usando representações vetoriais Doc2Vec com uma representação numérica que não considera a relação entre as palavras com seu contexto, Bag of Word (BOW). Veremos que com a representação de Doc2Vec todos os classificadores apresentaram um melhor desempenho computacional. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-04-14T16:18:11Z 2023-04-14T16:18:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
VALENOTTI, Gabriel Gonzalo Ledesma. Representação vetorial de textos: Doc2Vec. 2022. 38 f. Trabalho de Conclusão de Curso (Graduação em Matemática)- Instituto de Matemática e Estatística. Universidade Federal Fluminense, Niterói, 2022. http://app.uff.br/riuff/handle/1/28543 |
identifier_str_mv |
VALENOTTI, Gabriel Gonzalo Ledesma. Representação vetorial de textos: Doc2Vec. 2022. 38 f. Trabalho de Conclusão de Curso (Graduação em Matemática)- Instituto de Matemática e Estatística. Universidade Federal Fluminense, Niterói, 2022. |
url |
http://app.uff.br/riuff/handle/1/28543 |
dc.language.iso.fl_str_mv |
pt_BR por |
language_invalid_str_mv |
pt_BR |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1807838844260712448 |