The Role of negative information when learning dense word vectors

Detalhes bibliográficos
Autor(a) principal: Salle, Alexandre Tadeu
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/234537
Resumo: Pela análise estatística de textos em uma dada linguagem, é possível representar cada palavra contida no vocabulário desta linguagem por meio de um vetor palavra m-dimensional (também conhecido como embedding de palavra) de forma que esse vetor capture infor mações semânticas e sintáticas. Embeddings de palavras podem ser derivados de corpora não-anotados por meio de (1) métodos de contagem onde é efetuada explicitamente a fatoração da matriz de coocorrência e (2) métodos preditivos onde redes neurais são treinadas para predizer distribuições de palavras dado um contexto. Nesta tese, hipotetizamos que essa diferença de desempenho é devida à forma com que métodos baseados em conta gem levam em consideração – ou ignoram completamente – informação negativa: pares palavra-contexto, nos quais o fato de observar um é informativo para a não observação do outro, formulado matematicamente como dois eventos (palavra e contexto) possuindo Pointwise Mutual Information negativa. Validamos nossa hipótese criando um novo mé todo e eficiente método de fatoração de matrizes, o LexVec, altamente escalável, limitado apenas por espaço em disco e núcleos computacionais, que leva em consideração a informação negativa de forma embasada, eliminando a diferença de desempenho em relação a métodos preditivos. Adicionalmente, mostramos que estratégias para quebrar palavras em unidades menores (subpalavras) – uma técnica importante em métodos preditivos para a representação de palavras infrequentes – podem ser adaptadas ao LexVec. Se aproveitando do fato que o LexVec tem acesso à matriz de coocorrência sendo fatorada, efetua mos fatorações que filtram seletivamente o uso ou não de informação negativa, estudando assim o impacto que a informação negativa tem nos embeddings de palavras. Avaliações a nível de palavra e de frases mostram que o uso exclusivo de PMI positivo na fatoração captura fortemente a semântica e sintaxe de palavras, enquanto que o uso exclusivo de PMI negativo captura pouca informação semântica porém uma quantidade surpreendente de informação sintática. Finalmente, efetuamos uma investigação profunda sobre o efeito que o aumento do peso da informação negativa (em relação a informação positiva) tem na geometria dos espaços vetoriais dos embeddings e nas representações de palavras fre quentes e infrequentes. Os resultados revelam duas invariantes geométricas – a norma e a direção vetorial – e melhorias nas representações de palavras raras que são induzidas pelo uso aumentado da informação negativa.
id URGS_5f11221bd5fe34eebe3b0764c2f679a9
oai_identifier_str oai:www.lume.ufrgs.br:10183/234537
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Salle, Alexandre TadeuVillavicencio, Aline2022-01-27T04:34:00Z2021http://hdl.handle.net/10183/234537001136324Pela análise estatística de textos em uma dada linguagem, é possível representar cada palavra contida no vocabulário desta linguagem por meio de um vetor palavra m-dimensional (também conhecido como embedding de palavra) de forma que esse vetor capture infor mações semânticas e sintáticas. Embeddings de palavras podem ser derivados de corpora não-anotados por meio de (1) métodos de contagem onde é efetuada explicitamente a fatoração da matriz de coocorrência e (2) métodos preditivos onde redes neurais são treinadas para predizer distribuições de palavras dado um contexto. Nesta tese, hipotetizamos que essa diferença de desempenho é devida à forma com que métodos baseados em conta gem levam em consideração – ou ignoram completamente – informação negativa: pares palavra-contexto, nos quais o fato de observar um é informativo para a não observação do outro, formulado matematicamente como dois eventos (palavra e contexto) possuindo Pointwise Mutual Information negativa. Validamos nossa hipótese criando um novo mé todo e eficiente método de fatoração de matrizes, o LexVec, altamente escalável, limitado apenas por espaço em disco e núcleos computacionais, que leva em consideração a informação negativa de forma embasada, eliminando a diferença de desempenho em relação a métodos preditivos. Adicionalmente, mostramos que estratégias para quebrar palavras em unidades menores (subpalavras) – uma técnica importante em métodos preditivos para a representação de palavras infrequentes – podem ser adaptadas ao LexVec. Se aproveitando do fato que o LexVec tem acesso à matriz de coocorrência sendo fatorada, efetua mos fatorações que filtram seletivamente o uso ou não de informação negativa, estudando assim o impacto que a informação negativa tem nos embeddings de palavras. Avaliações a nível de palavra e de frases mostram que o uso exclusivo de PMI positivo na fatoração captura fortemente a semântica e sintaxe de palavras, enquanto que o uso exclusivo de PMI negativo captura pouca informação semântica porém uma quantidade surpreendente de informação sintática. Finalmente, efetuamos uma investigação profunda sobre o efeito que o aumento do peso da informação negativa (em relação a informação positiva) tem na geometria dos espaços vetoriais dos embeddings e nas representações de palavras fre quentes e infrequentes. Os resultados revelam duas invariantes geométricas – a norma e a direção vetorial – e melhorias nas representações de palavras raras que são induzidas pelo uso aumentado da informação negativa.By statistical analysis of the text in a given language, it is possible to represent each word in the vocabulary of the language as an m-dimensional word vector (also known as a word embedding) such that this vector captures semantic and syntactic information. Word embeddings derived from unannotated corpora can be divided into (1) counting methods which perform factorization of the word-context cooccurrence matrix and (2) predictive methods where neural networks are trained to predict word distributions given a context, generally outperforming counting methods. In this thesis, we hypothesize that the performance gap is due to how counting methods account for – or completely ig nore – negative information: word-context pairs where observing one is informative of not observing the other, mathematically formulated as two events (words and contexts) having negative Pointwise Mutual Information. We validate our hypothesis by creating an efficient factorization algorithm, LexVec, scalable to web-size corpora, that accounts for negative information in a principled way, closing the performance gap with predictive methods. Additionally, we show that strategies for breaking up words into smaller units (subwords) – an important technique in predictive methods for representing rare words – can be successfully adapted to LexVec. We show that the explicit nature of LexVec – having access to the underlying cooccurrence matrix – allows us to selectively filter whether to account for negative information in the factorization and to what degree, and use this filtering to isolate the impact that negative information has on embeddings. Word and sentence-level evaluations show that only accounting for positive PMI in the factor ization strongly captures both semantics and syntax, whereas using only negative PMI captures little of semantics but a surprising amount of syntactic information. Finally, we perform an in-depth investigation of the effect that increasing the relative importance of negative PMI compared to positive PMI has on the geometry of the vector space and its representation of frequent and rare words. Results reveal two rank invariant geometric properties – vector norms and direction – and improved rare word representation induced by incorporating negative information.application/pdfengProcessamento de linguagem naturalWord vectorsMatrix factorizationThe Role of negative information when learning dense word vectorsO papel da informação negativa na aprendizagem de vetores palavra densos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2021doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001136324.pdf.txt001136324.pdf.txtExtracted Texttext/plain272590http://www.lume.ufrgs.br/bitstream/10183/234537/2/001136324.pdf.txtf9cfa143e1f98fb558cefdf75c32d70eMD52ORIGINAL001136324.pdfTexto completo (inglês)application/pdf3650642http://www.lume.ufrgs.br/bitstream/10183/234537/1/001136324.pdf1a93105de81381323a5986f0bcf77f7dMD5110183/2345372022-03-26 05:10:03.735511oai:www.lume.ufrgs.br:10183/234537Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-03-26T08:10:03Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv The Role of negative information when learning dense word vectors
dc.title.alternative.pt.fl_str_mv O papel da informação negativa na aprendizagem de vetores palavra densos
title The Role of negative information when learning dense word vectors
spellingShingle The Role of negative information when learning dense word vectors
Salle, Alexandre Tadeu
Processamento de linguagem natural
Word vectors
Matrix factorization
title_short The Role of negative information when learning dense word vectors
title_full The Role of negative information when learning dense word vectors
title_fullStr The Role of negative information when learning dense word vectors
title_full_unstemmed The Role of negative information when learning dense word vectors
title_sort The Role of negative information when learning dense word vectors
author Salle, Alexandre Tadeu
author_facet Salle, Alexandre Tadeu
author_role author
dc.contributor.author.fl_str_mv Salle, Alexandre Tadeu
dc.contributor.advisor1.fl_str_mv Villavicencio, Aline
contributor_str_mv Villavicencio, Aline
dc.subject.por.fl_str_mv Processamento de linguagem natural
topic Processamento de linguagem natural
Word vectors
Matrix factorization
dc.subject.eng.fl_str_mv Word vectors
Matrix factorization
description Pela análise estatística de textos em uma dada linguagem, é possível representar cada palavra contida no vocabulário desta linguagem por meio de um vetor palavra m-dimensional (também conhecido como embedding de palavra) de forma que esse vetor capture infor mações semânticas e sintáticas. Embeddings de palavras podem ser derivados de corpora não-anotados por meio de (1) métodos de contagem onde é efetuada explicitamente a fatoração da matriz de coocorrência e (2) métodos preditivos onde redes neurais são treinadas para predizer distribuições de palavras dado um contexto. Nesta tese, hipotetizamos que essa diferença de desempenho é devida à forma com que métodos baseados em conta gem levam em consideração – ou ignoram completamente – informação negativa: pares palavra-contexto, nos quais o fato de observar um é informativo para a não observação do outro, formulado matematicamente como dois eventos (palavra e contexto) possuindo Pointwise Mutual Information negativa. Validamos nossa hipótese criando um novo mé todo e eficiente método de fatoração de matrizes, o LexVec, altamente escalável, limitado apenas por espaço em disco e núcleos computacionais, que leva em consideração a informação negativa de forma embasada, eliminando a diferença de desempenho em relação a métodos preditivos. Adicionalmente, mostramos que estratégias para quebrar palavras em unidades menores (subpalavras) – uma técnica importante em métodos preditivos para a representação de palavras infrequentes – podem ser adaptadas ao LexVec. Se aproveitando do fato que o LexVec tem acesso à matriz de coocorrência sendo fatorada, efetua mos fatorações que filtram seletivamente o uso ou não de informação negativa, estudando assim o impacto que a informação negativa tem nos embeddings de palavras. Avaliações a nível de palavra e de frases mostram que o uso exclusivo de PMI positivo na fatoração captura fortemente a semântica e sintaxe de palavras, enquanto que o uso exclusivo de PMI negativo captura pouca informação semântica porém uma quantidade surpreendente de informação sintática. Finalmente, efetuamos uma investigação profunda sobre o efeito que o aumento do peso da informação negativa (em relação a informação positiva) tem na geometria dos espaços vetoriais dos embeddings e nas representações de palavras fre quentes e infrequentes. Os resultados revelam duas invariantes geométricas – a norma e a direção vetorial – e melhorias nas representações de palavras raras que são induzidas pelo uso aumentado da informação negativa.
publishDate 2021
dc.date.issued.fl_str_mv 2021
dc.date.accessioned.fl_str_mv 2022-01-27T04:34:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/234537
dc.identifier.nrb.pt_BR.fl_str_mv 001136324
url http://hdl.handle.net/10183/234537
identifier_str_mv 001136324
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/234537/2/001136324.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/234537/1/001136324.pdf
bitstream.checksum.fl_str_mv f9cfa143e1f98fb558cefdf75c32d70e
1a93105de81381323a5986f0bcf77f7d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085575187759104