Distributional models of multiword expression compositionality prediction

Detalhes bibliográficos
Autor(a) principal: Cordeiro, Silvio Ricardo
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/174519
Resumo: Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte.
id URGS_f8844657019be8171fbdca3329a111b0
oai_identifier_str oai:www.lume.ufrgs.br:10183/174519
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Cordeiro, Silvio RicardoVillavicencio, AlineNasr, AlexisRamisch, Carlos Eduardo2018-04-10T02:31:28Z2018http://hdl.handle.net/10183/174519001063177Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte.Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a sitting duck is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. nut case) or as some combination of the meaning of its parts (e.g. engine room). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art.application/pdfporLinguística computacionalLinguagem naturalDistributional semanticsIdiomaticityCompositionalityMultiword expressionsDistributional models of multiword expression compositionality predictionModelos distribucionais para a predição de composicionalidade de expressões multipalavras info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2018doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001063177.pdf001063177.pdfTexto completoapplication/pdf2144793http://www.lume.ufrgs.br/bitstream/10183/174519/1/001063177.pdf1c9a43cc441f7b9f191b57ba1cbeeee4MD51TEXT001063177.pdf.txt001063177.pdf.txtExtracted Texttext/plain372343http://www.lume.ufrgs.br/bitstream/10183/174519/2/001063177.pdf.txta7bcc54aa6df8ca9f637d164a6f9ced2MD52THUMBNAIL001063177.pdf.jpg001063177.pdf.jpgGenerated Thumbnailimage/jpeg1082http://www.lume.ufrgs.br/bitstream/10183/174519/3/001063177.pdf.jpg8dd284976b456ca03e81813f096c95e3MD5310183/1745192018-10-29 07:54:10.558oai:www.lume.ufrgs.br:10183/174519Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-29T10:54:10Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Distributional models of multiword expression compositionality prediction
dc.title.alternative.pt_BR.fl_str_mv Modelos distribucionais para a predição de composicionalidade de expressões multipalavras
title Distributional models of multiword expression compositionality prediction
spellingShingle Distributional models of multiword expression compositionality prediction
Cordeiro, Silvio Ricardo
Linguística computacional
Linguagem natural
Distributional semantics
Idiomaticity
Compositionality
Multiword expressions
title_short Distributional models of multiword expression compositionality prediction
title_full Distributional models of multiword expression compositionality prediction
title_fullStr Distributional models of multiword expression compositionality prediction
title_full_unstemmed Distributional models of multiword expression compositionality prediction
title_sort Distributional models of multiword expression compositionality prediction
author Cordeiro, Silvio Ricardo
author_facet Cordeiro, Silvio Ricardo
author_role author
dc.contributor.author.fl_str_mv Cordeiro, Silvio Ricardo
dc.contributor.advisor1.fl_str_mv Villavicencio, Aline
dc.contributor.advisor-co1.fl_str_mv Nasr, Alexis
Ramisch, Carlos Eduardo
contributor_str_mv Villavicencio, Aline
Nasr, Alexis
Ramisch, Carlos Eduardo
dc.subject.por.fl_str_mv Linguística computacional
Linguagem natural
topic Linguística computacional
Linguagem natural
Distributional semantics
Idiomaticity
Compositionality
Multiword expressions
dc.subject.eng.fl_str_mv Distributional semantics
Idiomaticity
Compositionality
Multiword expressions
description Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte.
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-04-10T02:31:28Z
dc.date.issued.fl_str_mv 2018
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/174519
dc.identifier.nrb.pt_BR.fl_str_mv 001063177
url http://hdl.handle.net/10183/174519
identifier_str_mv 001063177
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/174519/1/001063177.pdf
http://www.lume.ufrgs.br/bitstream/10183/174519/2/001063177.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/174519/3/001063177.pdf.jpg
bitstream.checksum.fl_str_mv 1c9a43cc441f7b9f191b57ba1cbeeee4
a7bcc54aa6df8ca9f637d164a6f9ced2
8dd284976b456ca03e81813f096c95e3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1800309122694905856