Finding idiomaticity in word representations

Vieira, Tiago Kramer

Finding idiomaticity in word representations

Detalhes bibliográficos
Autor(a) principal:	Vieira, Tiago Kramer
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/256584
Resumo:	Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível.

Metadados do item

id	URGS_174bc2a2b81a0785e046e77534198b91
oai_identifier_str	oai:www.lume.ufrgs.br:10183/256584
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Vieira, Tiago KramerJung, Claudio Rosito2023-04-01T03:28:51Z2022http://hdl.handle.net/10183/256584001165843Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível.Contextualised word representation models have been successfully used for capturing different word usages, and they may be an attractive alternative for representing idiomaticity in language. However, it is not clear how these models represent idiomaticity or to what extent they capture it. In this work, probing tasks are proposed to assess if some of the expected linguistic properties of noun compounds, especially those related to idiomatic meanings, and their dependence on context and sensitivity to lexical choice, are readily available in some standard and widely used representations. To evaluate that, the Noun Compound Idiomaticity (NCI) dataset was constructed, which contains annotations for noun compounds and their paraphrases, in neutral and informative naturalistic sentences, in two languages: English and Portuguese. The dataset, composed of 27,600 items, also contains human idiomaticity judgements for each noun compound at both type and token levels. For evaluation, four types of probing measures are proposed to assess how well the models distinguish idiomatic and literal meanings and is also defined as a set of metrics, that it is called affinity measures, to determine how much of these senses the compound representation captures. Results obtained with models like ELMo, BERT, and some of its variants, indicate that idiomaticity is not yet accurately represented by contextualised models. This work is a by-product of the two published papers in top-level conferences.application/pdfengIdiomaticidadeLinguísticaAprendizado profundoMulti-word expressionsDeep learningFinding idiomaticity in word representationsEncontrando idiomaticidade na representação das palavras info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2022mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001165843.pdf.txt001165843.pdf.txtExtracted Texttext/plain148862http://www.lume.ufrgs.br/bitstream/10183/256584/2/001165843.pdf.txtc6a5e48f9cf19c66b6ec8f5e9f9511a0MD52ORIGINAL001165843.pdfTexto completo (inglês)application/pdf3791431http://www.lume.ufrgs.br/bitstream/10183/256584/1/001165843.pdf800c95a4fb947281965ee6a71cc1158bMD5110183/2565842023-04-16 03:28:16.10092oai:www.lume.ufrgs.br:10183/256584Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532023-04-16T06:28:16Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Finding idiomaticity in word representations
dc.title.alternative.pt.fl_str_mv	Encontrando idiomaticidade na representação das palavras
title	Finding idiomaticity in word representations
spellingShingle	Finding idiomaticity in word representations Vieira, Tiago Kramer Idiomaticidade Linguística Aprendizado profundo Multi-word expressions Deep learning
title_short	Finding idiomaticity in word representations
title_full	Finding idiomaticity in word representations
title_fullStr	Finding idiomaticity in word representations
title_full_unstemmed	Finding idiomaticity in word representations
title_sort	Finding idiomaticity in word representations
author	Vieira, Tiago Kramer
author_facet	Vieira, Tiago Kramer
author_role	author
dc.contributor.author.fl_str_mv	Vieira, Tiago Kramer
dc.contributor.advisor1.fl_str_mv	Jung, Claudio Rosito
contributor_str_mv	Jung, Claudio Rosito
dc.subject.por.fl_str_mv	Idiomaticidade Linguística Aprendizado profundo
topic	Idiomaticidade Linguística Aprendizado profundo Multi-word expressions Deep learning
dc.subject.eng.fl_str_mv	Multi-word expressions Deep learning
description	Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível.
publishDate	2022
dc.date.issued.fl_str_mv	2022
dc.date.accessioned.fl_str_mv	2023-04-01T03:28:51Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/256584
dc.identifier.nrb.pt_BR.fl_str_mv	001165843
url	http://hdl.handle.net/10183/256584
identifier_str_mv	001165843
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/256584/2/001165843.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/256584/1/001165843.pdf
bitstream.checksum.fl_str_mv	c6a5e48f9cf19c66b6ec8f5e9f9511a0 800c95a4fb947281965ee6a71cc1158b
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085613506920448

Finding idiomaticity in word representations

Registros relacionados