Enriching portuguese word embeddings with visual information

Detalhes bibliográficos
Autor(a) principal: Consoli, Bernardo Scapini
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/9684
Resumo: Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings.
id P_RS_be7dc1dce781365d4f0ee3dadbc4f701
oai_identifier_str oai:tede2.pucrs.br:tede/9684
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Vieira, Renatahttp://lattes.cnpq.br/0781359367938470Consoli, Bernardo Scapini2021-06-08T17:14:30Z2021-03-19http://tede2.pucrs.br/tede2/handle/tede/9684Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings.This dissertation focuses on the enrichment of existing Portuguese word embeddings with visual information in the form of visual embeddings. This information was extracted from images portraying given vocabulary terms and imagined visual embeddings learned for terms with not image data. These enriched embeddings were tested against their text-only counterparts in common NLP tasks, namely: word relatedness, analogy prediction, named entity recognition, and sentence similarity. These tasks were used to ascertain whether the enrichment has an impact on the embedding’s performance the above mentioned tasks. The results show an increase in performance for several tasks, which indicates that visual information fusion for word embeddings can be useful for word embedding based NLP tasks.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2021-05-28T21:23:05Z No. of bitstreams: 1 BERNARDO SCAPINI CONSOLI_DIS.pdf: 891044 bytes, checksum: 4d3225555f792cd8c1c509e8a441dd1a (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2021-06-08T16:59:05Z (GMT) No. of bitstreams: 1 BERNARDO SCAPINI CONSOLI_DIS.pdf: 891044 bytes, checksum: 4d3225555f792cd8c1c509e8a441dd1a (MD5)Made available in DSpace on 2021-06-08T17:14:30Z (GMT). No. of bitstreams: 1 BERNARDO SCAPINI CONSOLI_DIS.pdf: 891044 bytes, checksum: 4d3225555f792cd8c1c509e8a441dd1a (MD5) Previous issue date: 2021-03-19Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/181171/BERNARDO%20SCAPINI%20CONSOLI_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaWord EmbeddingsMultimodalPortugueseGeosciencesNamed Entity RecognitionSentence SimilarityWord RelatednessPortuguêsGeociênciasReconhecimento de Entidades NomeadasSimilaridade de SentençasRelacionamento de PalavrasCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOEnriching portuguese word embeddings with visual informationEnriquecendo os embeddings de palavras em português com informações visuaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500600-8620782570833253013590462550136975366info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILBERNARDO SCAPINI CONSOLI_DIS.pdf.jpgBERNARDO SCAPINI CONSOLI_DIS.pdf.jpgimage/jpeg5307http://tede2.pucrs.br/tede2/bitstream/tede/9684/4/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.jpg8255da193a5598f61f62612409130193MD54TEXTBERNARDO SCAPINI CONSOLI_DIS.pdf.txtBERNARDO SCAPINI CONSOLI_DIS.pdf.txttext/plain225902http://tede2.pucrs.br/tede2/bitstream/tede/9684/3/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.txt11226e2985a3ff6da325af07212b4410MD53ORIGINALBERNARDO SCAPINI CONSOLI_DIS.pdfBERNARDO SCAPINI CONSOLI_DIS.pdfapplication/pdf891044http://tede2.pucrs.br/tede2/bitstream/tede/9684/2/BERNARDO+SCAPINI+CONSOLI_DIS.pdf4d3225555f792cd8c1c509e8a441dd1aMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9684/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/96842021-06-08 20:00:14.831oai:tede2.pucrs.br:tede/9684QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2021-06-08T23:00:14Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Enriching portuguese word embeddings with visual information
dc.title.alternative.por.fl_str_mv Enriquecendo os embeddings de palavras em português com informações visuais
title Enriching portuguese word embeddings with visual information
spellingShingle Enriching portuguese word embeddings with visual information
Consoli, Bernardo Scapini
Word Embeddings
Multimodal
Portuguese
Geosciences
Named Entity Recognition
Sentence Similarity
Word Relatedness
Português
Geociências
Reconhecimento de Entidades Nomeadas
Similaridade de Sentenças
Relacionamento de Palavras
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Enriching portuguese word embeddings with visual information
title_full Enriching portuguese word embeddings with visual information
title_fullStr Enriching portuguese word embeddings with visual information
title_full_unstemmed Enriching portuguese word embeddings with visual information
title_sort Enriching portuguese word embeddings with visual information
author Consoli, Bernardo Scapini
author_facet Consoli, Bernardo Scapini
author_role author
dc.contributor.advisor1.fl_str_mv Vieira, Renata
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/0781359367938470
dc.contributor.author.fl_str_mv Consoli, Bernardo Scapini
contributor_str_mv Vieira, Renata
dc.subject.eng.fl_str_mv Word Embeddings
Multimodal
Portuguese
Geosciences
Named Entity Recognition
Sentence Similarity
Word Relatedness
topic Word Embeddings
Multimodal
Portuguese
Geosciences
Named Entity Recognition
Sentence Similarity
Word Relatedness
Português
Geociências
Reconhecimento de Entidades Nomeadas
Similaridade de Sentenças
Relacionamento de Palavras
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv Português
Geociências
Reconhecimento de Entidades Nomeadas
Similaridade de Sentenças
Relacionamento de Palavras
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-06-08T17:14:30Z
dc.date.issued.fl_str_mv 2021-03-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/9684
url http://tede2.pucrs.br/tede2/handle/tede/9684
dc.language.iso.fl_str_mv eng
language eng
dc.relation.program.fl_str_mv -4570527706994352458
dc.relation.confidence.fl_str_mv 500
500
600
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.relation.sponsorship.fl_str_mv 3590462550136975366
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/9684/4/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/9684/3/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/9684/2/BERNARDO+SCAPINI+CONSOLI_DIS.pdf
http://tede2.pucrs.br/tede2/bitstream/tede/9684/1/license.txt
bitstream.checksum.fl_str_mv 8255da193a5598f61f62612409130193
11226e2985a3ff6da325af07212b4410
4d3225555f792cd8c1c509e8a441dd1a
220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765349900484608