Representação vetorial de textos: DOC2VEC

Detalhes bibliográficos
Autor(a) principal: Valenotti, Gabriel Gonzalo Ledesma
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/28543
Resumo: O objetivo principal deste trabalho é apresentar o algoritmo não supervisionado para representação vetorial de documentos, Doc2vec, o qual consiste em associar cada texto a um vetor numérico considerando seu contexto no corpus. Doc2Vec ´e uma extensão do algoritmo Word2Vec, o qual também será apresentado neste trabalho. Através de Doc2vec veremos a importância de considerar a relação semântica entre as palavras com seu contexto. Finalmente, compararemos o desempenho de classificadores usando representações vetoriais Doc2Vec com uma representação numérica que não considera a relação entre as palavras com seu contexto, Bag of Word (BOW). Veremos que com a representação de Doc2Vec todos os classificadores apresentaram um melhor desempenho computacional.
id UFF-2_101f8111163c7b88f93b8ba0f51f2f1c
oai_identifier_str oai:app.uff.br:1/28543
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Representação vetorial de textos: DOC2VECDoc2VecWor2VecBOWWord EmbeddingAlgoritmo computacionalWord (Programa de computador)Linguagem de programação de computadorO objetivo principal deste trabalho é apresentar o algoritmo não supervisionado para representação vetorial de documentos, Doc2vec, o qual consiste em associar cada texto a um vetor numérico considerando seu contexto no corpus. Doc2Vec ´e uma extensão do algoritmo Word2Vec, o qual também será apresentado neste trabalho. Através de Doc2vec veremos a importância de considerar a relação semântica entre as palavras com seu contexto. Finalmente, compararemos o desempenho de classificadores usando representações vetoriais Doc2Vec com uma representação numérica que não considera a relação entre as palavras com seu contexto, Bag of Word (BOW). Veremos que com a representação de Doc2Vec todos os classificadores apresentaram um melhor desempenho computacional.38 f.Kubrusly, Jéssica QuintanilhaValenotti, Gabriel Gonzalo Ledesma2023-04-14T16:18:11Z2023-04-14T16:18:11Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfVALENOTTI, Gabriel Gonzalo Ledesma. Representação vetorial de textos: Doc2Vec. 2022. 38 f. Trabalho de Conclusão de Curso (Graduação em Matemática)- Instituto de Matemática e Estatística. Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/28543pt_BRporCC-BY-SAinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-04-14T16:18:16Zoai:app.uff.br:1/28543Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-04-14T16:18:16Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Representação vetorial de textos: DOC2VEC
title Representação vetorial de textos: DOC2VEC
spellingShingle Representação vetorial de textos: DOC2VEC
Valenotti, Gabriel Gonzalo Ledesma
Doc2Vec
Wor2Vec
BOW
Word Embedding
Algoritmo computacional
Word (Programa de computador)
Linguagem de programação de computador
title_short Representação vetorial de textos: DOC2VEC
title_full Representação vetorial de textos: DOC2VEC
title_fullStr Representação vetorial de textos: DOC2VEC
title_full_unstemmed Representação vetorial de textos: DOC2VEC
title_sort Representação vetorial de textos: DOC2VEC
author Valenotti, Gabriel Gonzalo Ledesma
author_facet Valenotti, Gabriel Gonzalo Ledesma
author_role author
dc.contributor.none.fl_str_mv Kubrusly, Jéssica Quintanilha
dc.contributor.author.fl_str_mv Valenotti, Gabriel Gonzalo Ledesma
dc.subject.por.fl_str_mv Doc2Vec
Wor2Vec
BOW
Word Embedding
Algoritmo computacional
Word (Programa de computador)
Linguagem de programação de computador
topic Doc2Vec
Wor2Vec
BOW
Word Embedding
Algoritmo computacional
Word (Programa de computador)
Linguagem de programação de computador
description O objetivo principal deste trabalho é apresentar o algoritmo não supervisionado para representação vetorial de documentos, Doc2vec, o qual consiste em associar cada texto a um vetor numérico considerando seu contexto no corpus. Doc2Vec ´e uma extensão do algoritmo Word2Vec, o qual também será apresentado neste trabalho. Através de Doc2vec veremos a importância de considerar a relação semântica entre as palavras com seu contexto. Finalmente, compararemos o desempenho de classificadores usando representações vetoriais Doc2Vec com uma representação numérica que não considera a relação entre as palavras com seu contexto, Bag of Word (BOW). Veremos que com a representação de Doc2Vec todos os classificadores apresentaram um melhor desempenho computacional.
publishDate 2023
dc.date.none.fl_str_mv 2023-04-14T16:18:11Z
2023-04-14T16:18:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv VALENOTTI, Gabriel Gonzalo Ledesma. Representação vetorial de textos: Doc2Vec. 2022. 38 f. Trabalho de Conclusão de Curso (Graduação em Matemática)- Instituto de Matemática e Estatística. Universidade Federal Fluminense, Niterói, 2022.
http://app.uff.br/riuff/handle/1/28543
identifier_str_mv VALENOTTI, Gabriel Gonzalo Ledesma. Representação vetorial de textos: Doc2Vec. 2022. 38 f. Trabalho de Conclusão de Curso (Graduação em Matemática)- Instituto de Matemática e Estatística. Universidade Federal Fluminense, Niterói, 2022.
url http://app.uff.br/riuff/handle/1/28543
dc.language.iso.fl_str_mv pt_BR
por
language_invalid_str_mv pt_BR
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1807838844260712448