Enriching portuguese word embeddings with visual information
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/9684 |
Resumo: | Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings. |
id |
P_RS_be7dc1dce781365d4f0ee3dadbc4f701 |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/9684 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Vieira, Renatahttp://lattes.cnpq.br/0781359367938470Consoli, Bernardo Scapini2021-06-08T17:14:30Z2021-03-19http://tede2.pucrs.br/tede2/handle/tede/9684Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings.This dissertation focuses on the enrichment of existing Portuguese word embeddings with visual information in the form of visual embeddings. This information was extracted from images portraying given vocabulary terms and imagined visual embeddings learned for terms with not image data. These enriched embeddings were tested against their text-only counterparts in common NLP tasks, namely: word relatedness, analogy prediction, named entity recognition, and sentence similarity. These tasks were used to ascertain whether the enrichment has an impact on the embedding’s performance the above mentioned tasks. The results show an increase in performance for several tasks, which indicates that visual information fusion for word embeddings can be useful for word embedding based NLP tasks.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2021-05-28T21:23:05Z No. of bitstreams: 1 BERNARDO SCAPINI CONSOLI_DIS.pdf: 891044 bytes, checksum: 4d3225555f792cd8c1c509e8a441dd1a (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2021-06-08T16:59:05Z (GMT) No. of bitstreams: 1 BERNARDO SCAPINI CONSOLI_DIS.pdf: 891044 bytes, checksum: 4d3225555f792cd8c1c509e8a441dd1a (MD5)Made available in DSpace on 2021-06-08T17:14:30Z (GMT). No. of bitstreams: 1 BERNARDO SCAPINI CONSOLI_DIS.pdf: 891044 bytes, checksum: 4d3225555f792cd8c1c509e8a441dd1a (MD5) Previous issue date: 2021-03-19Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/181171/BERNARDO%20SCAPINI%20CONSOLI_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaWord EmbeddingsMultimodalPortugueseGeosciencesNamed Entity RecognitionSentence SimilarityWord RelatednessPortuguêsGeociênciasReconhecimento de Entidades NomeadasSimilaridade de SentençasRelacionamento de PalavrasCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOEnriching portuguese word embeddings with visual informationEnriquecendo os embeddings de palavras em português com informações visuaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500600-8620782570833253013590462550136975366info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILBERNARDO SCAPINI CONSOLI_DIS.pdf.jpgBERNARDO SCAPINI CONSOLI_DIS.pdf.jpgimage/jpeg5307http://tede2.pucrs.br/tede2/bitstream/tede/9684/4/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.jpg8255da193a5598f61f62612409130193MD54TEXTBERNARDO SCAPINI CONSOLI_DIS.pdf.txtBERNARDO SCAPINI CONSOLI_DIS.pdf.txttext/plain225902http://tede2.pucrs.br/tede2/bitstream/tede/9684/3/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.txt11226e2985a3ff6da325af07212b4410MD53ORIGINALBERNARDO SCAPINI CONSOLI_DIS.pdfBERNARDO SCAPINI CONSOLI_DIS.pdfapplication/pdf891044http://tede2.pucrs.br/tede2/bitstream/tede/9684/2/BERNARDO+SCAPINI+CONSOLI_DIS.pdf4d3225555f792cd8c1c509e8a441dd1aMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9684/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/96842021-06-08 20:00:14.831oai:tede2.pucrs.br:tede/9684QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2021-06-08T23:00:14Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Enriching portuguese word embeddings with visual information |
dc.title.alternative.por.fl_str_mv |
Enriquecendo os embeddings de palavras em português com informações visuais |
title |
Enriching portuguese word embeddings with visual information |
spellingShingle |
Enriching portuguese word embeddings with visual information Consoli, Bernardo Scapini Word Embeddings Multimodal Portuguese Geosciences Named Entity Recognition Sentence Similarity Word Relatedness Português Geociências Reconhecimento de Entidades Nomeadas Similaridade de Sentenças Relacionamento de Palavras CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
title_short |
Enriching portuguese word embeddings with visual information |
title_full |
Enriching portuguese word embeddings with visual information |
title_fullStr |
Enriching portuguese word embeddings with visual information |
title_full_unstemmed |
Enriching portuguese word embeddings with visual information |
title_sort |
Enriching portuguese word embeddings with visual information |
author |
Consoli, Bernardo Scapini |
author_facet |
Consoli, Bernardo Scapini |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Vieira, Renata |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/0781359367938470 |
dc.contributor.author.fl_str_mv |
Consoli, Bernardo Scapini |
contributor_str_mv |
Vieira, Renata |
dc.subject.eng.fl_str_mv |
Word Embeddings Multimodal Portuguese Geosciences Named Entity Recognition Sentence Similarity Word Relatedness |
topic |
Word Embeddings Multimodal Portuguese Geosciences Named Entity Recognition Sentence Similarity Word Relatedness Português Geociências Reconhecimento de Entidades Nomeadas Similaridade de Sentenças Relacionamento de Palavras CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
dc.subject.por.fl_str_mv |
Português Geociências Reconhecimento de Entidades Nomeadas Similaridade de Sentenças Relacionamento de Palavras |
dc.subject.cnpq.fl_str_mv |
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
description |
Essa dissertação foca no enriquecimento de word embeddings pré-treinados na língua Portuguesa com o uso de informações visuais. Essas informações foram extraídas de imagens retratando certos termos do vocabulário e embeddings visuais "imaginadas" para termos sem dados de imagem. Essas embeddings enriquecidas foram testadas contra seus modelos textuais originais em tarefas comuns de PLN, sendo elas: relação entre palavras, predição de analogias, reconhecimento de entidades nomeadas e similaridade de sentenças. Essas tarefas foram utilizadas para descobrir se o enriquecimento tem impacto sobre a performance dos embeddings nas tarefas em questão. Os resultados demonstram um aumento de desempenho para algumas tarefas, o que indica que o enriquecimento com dados visuais é útil para tarefas de PLN baseadas em word embeddings. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-06-08T17:14:30Z |
dc.date.issued.fl_str_mv |
2021-03-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/9684 |
url |
http://tede2.pucrs.br/tede2/handle/tede/9684 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.program.fl_str_mv |
-4570527706994352458 |
dc.relation.confidence.fl_str_mv |
500 500 600 |
dc.relation.cnpq.fl_str_mv |
-862078257083325301 |
dc.relation.sponsorship.fl_str_mv |
3590462550136975366 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola Politécnica |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/9684/4/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/9684/3/BERNARDO+SCAPINI+CONSOLI_DIS.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/9684/2/BERNARDO+SCAPINI+CONSOLI_DIS.pdf http://tede2.pucrs.br/tede2/bitstream/tede/9684/1/license.txt |
bitstream.checksum.fl_str_mv |
8255da193a5598f61f62612409130193 11226e2985a3ff6da325af07212b4410 4d3225555f792cd8c1c509e8a441dd1a 220e11f2d3ba5354f917c7035aadef24 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765349900484608 |