Distributional models of multiword expression compositionality prediction
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/174519 |
Resumo: | Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte. |
id |
URGS_f8844657019be8171fbdca3329a111b0 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/174519 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Cordeiro, Silvio RicardoVillavicencio, AlineNasr, AlexisRamisch, Carlos Eduardo2018-04-10T02:31:28Z2018http://hdl.handle.net/10183/174519001063177Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte.Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a sitting duck is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. nut case) or as some combination of the meaning of its parts (e.g. engine room). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art.application/pdfporLinguística computacionalLinguagem naturalDistributional semanticsIdiomaticityCompositionalityMultiword expressionsDistributional models of multiword expression compositionality predictionModelos distribucionais para a predição de composicionalidade de expressões multipalavras info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2018doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001063177.pdf001063177.pdfTexto completoapplication/pdf2144793http://www.lume.ufrgs.br/bitstream/10183/174519/1/001063177.pdf1c9a43cc441f7b9f191b57ba1cbeeee4MD51TEXT001063177.pdf.txt001063177.pdf.txtExtracted Texttext/plain372343http://www.lume.ufrgs.br/bitstream/10183/174519/2/001063177.pdf.txta7bcc54aa6df8ca9f637d164a6f9ced2MD52THUMBNAIL001063177.pdf.jpg001063177.pdf.jpgGenerated Thumbnailimage/jpeg1082http://www.lume.ufrgs.br/bitstream/10183/174519/3/001063177.pdf.jpg8dd284976b456ca03e81813f096c95e3MD5310183/1745192018-10-29 07:54:10.558oai:www.lume.ufrgs.br:10183/174519Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-29T10:54:10Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Distributional models of multiword expression compositionality prediction |
dc.title.alternative.pt_BR.fl_str_mv |
Modelos distribucionais para a predição de composicionalidade de expressões multipalavras |
title |
Distributional models of multiword expression compositionality prediction |
spellingShingle |
Distributional models of multiword expression compositionality prediction Cordeiro, Silvio Ricardo Linguística computacional Linguagem natural Distributional semantics Idiomaticity Compositionality Multiword expressions |
title_short |
Distributional models of multiword expression compositionality prediction |
title_full |
Distributional models of multiword expression compositionality prediction |
title_fullStr |
Distributional models of multiword expression compositionality prediction |
title_full_unstemmed |
Distributional models of multiword expression compositionality prediction |
title_sort |
Distributional models of multiword expression compositionality prediction |
author |
Cordeiro, Silvio Ricardo |
author_facet |
Cordeiro, Silvio Ricardo |
author_role |
author |
dc.contributor.author.fl_str_mv |
Cordeiro, Silvio Ricardo |
dc.contributor.advisor1.fl_str_mv |
Villavicencio, Aline |
dc.contributor.advisor-co1.fl_str_mv |
Nasr, Alexis Ramisch, Carlos Eduardo |
contributor_str_mv |
Villavicencio, Aline Nasr, Alexis Ramisch, Carlos Eduardo |
dc.subject.por.fl_str_mv |
Linguística computacional Linguagem natural |
topic |
Linguística computacional Linguagem natural Distributional semantics Idiomaticity Compositionality Multiword expressions |
dc.subject.eng.fl_str_mv |
Distributional semantics Idiomaticity Compositionality Multiword expressions |
description |
Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte. |
publishDate |
2018 |
dc.date.accessioned.fl_str_mv |
2018-04-10T02:31:28Z |
dc.date.issued.fl_str_mv |
2018 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/174519 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001063177 |
url |
http://hdl.handle.net/10183/174519 |
identifier_str_mv |
001063177 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/174519/1/001063177.pdf http://www.lume.ufrgs.br/bitstream/10183/174519/2/001063177.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/174519/3/001063177.pdf.jpg |
bitstream.checksum.fl_str_mv |
1c9a43cc441f7b9f191b57ba1cbeeee4 a7bcc54aa6df8ca9f637d164a6f9ced2 8dd284976b456ca03e81813f096c95e3 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1800309122694905856 |