Finding idiomaticity in word representations
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/256584 |
Resumo: | Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível. |
id |
URGS_174bc2a2b81a0785e046e77534198b91 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/256584 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Vieira, Tiago KramerJung, Claudio Rosito2023-04-01T03:28:51Z2022http://hdl.handle.net/10183/256584001165843Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível.Contextualised word representation models have been successfully used for capturing different word usages, and they may be an attractive alternative for representing idiomaticity in language. However, it is not clear how these models represent idiomaticity or to what extent they capture it. In this work, probing tasks are proposed to assess if some of the expected linguistic properties of noun compounds, especially those related to idiomatic meanings, and their dependence on context and sensitivity to lexical choice, are readily available in some standard and widely used representations. To evaluate that, the Noun Compound Idiomaticity (NCI) dataset was constructed, which contains annotations for noun compounds and their paraphrases, in neutral and informative naturalistic sentences, in two languages: English and Portuguese. The dataset, composed of 27,600 items, also contains human idiomaticity judgements for each noun compound at both type and token levels. For evaluation, four types of probing measures are proposed to assess how well the models distinguish idiomatic and literal meanings and is also defined as a set of metrics, that it is called affinity measures, to determine how much of these senses the compound representation captures. Results obtained with models like ELMo, BERT, and some of its variants, indicate that idiomaticity is not yet accurately represented by contextualised models. This work is a by-product of the two published papers in top-level conferences.application/pdfengIdiomaticidadeLinguísticaAprendizado profundoMulti-word expressionsDeep learningFinding idiomaticity in word representationsEncontrando idiomaticidade na representação das palavras info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2022mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001165843.pdf.txt001165843.pdf.txtExtracted Texttext/plain148862http://www.lume.ufrgs.br/bitstream/10183/256584/2/001165843.pdf.txtc6a5e48f9cf19c66b6ec8f5e9f9511a0MD52ORIGINAL001165843.pdfTexto completo (inglês)application/pdf3791431http://www.lume.ufrgs.br/bitstream/10183/256584/1/001165843.pdf800c95a4fb947281965ee6a71cc1158bMD5110183/2565842023-04-16 03:28:16.10092oai:www.lume.ufrgs.br:10183/256584Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532023-04-16T06:28:16Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Finding idiomaticity in word representations |
dc.title.alternative.pt.fl_str_mv |
Encontrando idiomaticidade na representação das palavras |
title |
Finding idiomaticity in word representations |
spellingShingle |
Finding idiomaticity in word representations Vieira, Tiago Kramer Idiomaticidade Linguística Aprendizado profundo Multi-word expressions Deep learning |
title_short |
Finding idiomaticity in word representations |
title_full |
Finding idiomaticity in word representations |
title_fullStr |
Finding idiomaticity in word representations |
title_full_unstemmed |
Finding idiomaticity in word representations |
title_sort |
Finding idiomaticity in word representations |
author |
Vieira, Tiago Kramer |
author_facet |
Vieira, Tiago Kramer |
author_role |
author |
dc.contributor.author.fl_str_mv |
Vieira, Tiago Kramer |
dc.contributor.advisor1.fl_str_mv |
Jung, Claudio Rosito |
contributor_str_mv |
Jung, Claudio Rosito |
dc.subject.por.fl_str_mv |
Idiomaticidade Linguística Aprendizado profundo |
topic |
Idiomaticidade Linguística Aprendizado profundo Multi-word expressions Deep learning |
dc.subject.eng.fl_str_mv |
Multi-word expressions Deep learning |
description |
Modelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022 |
dc.date.accessioned.fl_str_mv |
2023-04-01T03:28:51Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/256584 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001165843 |
url |
http://hdl.handle.net/10183/256584 |
identifier_str_mv |
001165843 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/256584/2/001165843.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/256584/1/001165843.pdf |
bitstream.checksum.fl_str_mv |
c6a5e48f9cf19c66b6ec8f5e9f9511a0 800c95a4fb947281965ee6a71cc1158b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085613506920448 |