OPTIC: a holistic solution for entity linking of social media posts

Detalhes bibliográficos
Autor(a) principal: Oliveira, Italo Lopes
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: eng
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/229755
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021.
id UFSC_8cbf338bdce4afed0003923878585164
oai_identifier_str oai:repositorio.ufsc.br:123456789/229755
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa CatarinaOliveira, Italo LopesFileto, RenatoGarcia, Luís Paulo Faina2021-11-11T19:23:34Z2021-11-11T19:23:34Z2021373453https://repositorio.ufsc.br/handle/123456789/229755Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021.Ligação de Entidade (LE) aprimora aplicações de Processamento de Linguagem Natural (PLN) ligando-se menções à entidades encontradas em textos brutos à suas descrições semânticas em algum dado ou base de conhecimento. Este aprimoramento é ainda mais relevante e desafiador em dados de mídias sociais, tais como postagens de microblogs, devido sua natureza informal e contexto limitado se comparado com textos mais longos e formais. Abordagens LE atuais da literatura que visam postagens de microblogs focam na expansão do conteúdo da postagem. Esta expansão têm sido realizada de diversas maneiras, como, por exemplo, considerando postagens similares ou relacionadas, ou usando dados pessoais do autor da postagem, além de dados espaço-temporais anexados à postagem de microblog. Entretanto, tais abordagens podem ser muito invasivas, comprometendo a privacidade do usuário. Além disso, elas não exploram outros tipos de contexto, os quais podem fornecer uma visão mais holística dos dados e do processo de LE. A exploração de diversos tipos de contexto aliado com técnicas de aprendizado de máquina podem ajudar a contornar a limitação das abordagens existentes e produzir melhores resultados. Esta tese primeiro fornece uma revisão compreensiva da literatura sobre LE holístico e então propõe OPTIC, uma abordagem de rede neural profunda para LE coletivo de postagens de microblog utilizando embeddings de palavra e conhecimento. OPTIC explora embeddings de grafos de conhecimento e de texto treinados em conjunto. Estes embeddings podem fornecer informações contextuais mais holísticas e consolidadas do que embeddings de conhecimento e textos treinados separadamente, e seu uso para alavancar abordagens LE ainda não foi suficientemente investigado. OPTIC é capaz de lidar tanto com LE coletivo como não-coletivo utilizando redes neural profundas alimentadas com embeddings de palavras relevantes e entidades candidatas para menções reconhecidas em postagens de microblog. FastText é utilizado para treinar em conjunto embeddings de conhecimento e palavras de modo que eles podem ser consistentemente utilizados juntos em único espaço vetorial integrado. As redes neurais profundas propostas para o OPTIC são baseadas na arquitetura de rede neural Memória de Longa e Curta duração. Foram propostas uma arquitetura de redes neurais profundas para LE não-coletiva e duas para LE coletiva. Diferentes números de células e de camadas escondidas foram considerados nos experimentos. Cada arquitetura foi avaliada no sistema de benchmark GERBIL com a sua melhor combinação de parâmetros, de modo a comparar o seu desempenho com o de abordagens do estado da arte. OPTIC supera a maioria das abordagens no conjunto de dados NEEL 2016 (provavelmente devido ao fato de ser treinado neste conjunto de dados), permanece competitivo no NEEL2015, e é levemente inferior no NEEL2014. Não é observado nenhuma diferença relevante entre as propostas coletivas e não-coletiva. Portanto, é recomendado o uso do LE não-coletivo devido a facilidade na construção do conjunto de treinamento.Abstract: Entity Linking (EL) empowers Natural Language Processing (NLP) applications by linking entity mentions found in raw text to their semantic descriptions in some data or knowledge base. This empowerment is even more relevant and challenging for social media data, such as microblog posts, due to their informal nature and limited context, compared to more formal longer text. Current EL approaches from the literature aiming at microblog posts focus on the expansion of the post context. This expansion has been done in several ways, like, for example, considering related/similar posts, or using personal data of the post author, besides spatial-temporal data attached to the microblog post. However, such approaches can be too invasive, compromising user privacy. Moreover, they do not exploit other context types, which may provide a more holistic view of the data and the EL process. The exploitation of several types of context allied with machine learning techniques may help circumvent the limitation of the existing approaches and provide better results. This thesis first provides a comprehensive review of the literature about holistic EL, and then proposes OPTIC, a Deep Neural Network (DNN) approach for collective EL of microblog posts using knowledge and word embeddings. OPTIC exploits jointly trained embeddings of knowledge graphs and text. These embeddings can provide more holistic and consolidated contextual information than separate embeddings of text and knowledge, and their use for leveraging EL has not been sufficiently investigated yet. OPTIC is capable to tackle both non-collective and collective EL using DNNs fed with embeddings of relevant words and candidate entities for mentions recognized in microblog posts. FastText is used to jointly train embeddings of words and knowledge so that they can be consistently handled together in a single integrated embedded space. The DNNs proposed for OPTIC are mostly based on the bidirectional Long Short-Term Memory neural network architecture. We propose one DNN architecture for non-collective EL and two for collective EL. We tested different numbers of hidden cells and hidden layers in our experiments. Each architecture was assessed in the GERBIL benchmark system with its best combination of parameters to compare its performance with state-of-the-art approaches. OPTIC outperforms most approaches on the dataset NEEL2016 (probably because it was trained using its training set), stays competitive on NEEL2015, and has slightly inferior performance on NEEL2014. We did not observe any relevant difference between the results of our non-collective and collective EL proposals. Therefore, we recommend the use of the non-collective EL to ease training set building.97 p.| il., gráfs.engComputaçãoProcessamento de linguagem natural (Computação)Redes neurais (Computação)OPTIC: a holistic solution for entity linking of social media postsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPGCC1203-T.pdfPGCC1203-T.pdfapplication/pdf13480615https://repositorio.ufsc.br/bitstream/123456789/229755/-1/PGCC1203-T.pdfa15f0b5300575fb2d3c1a4199a727ff9MD5-1123456789/2297552021-11-11 16:23:35.125oai:repositorio.ufsc.br:123456789/229755Repositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732021-11-11T19:23:35Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv OPTIC: a holistic solution for entity linking of social media posts
title OPTIC: a holistic solution for entity linking of social media posts
spellingShingle OPTIC: a holistic solution for entity linking of social media posts
Oliveira, Italo Lopes
Computação
Processamento de linguagem natural (Computação)
Redes neurais (Computação)
title_short OPTIC: a holistic solution for entity linking of social media posts
title_full OPTIC: a holistic solution for entity linking of social media posts
title_fullStr OPTIC: a holistic solution for entity linking of social media posts
title_full_unstemmed OPTIC: a holistic solution for entity linking of social media posts
title_sort OPTIC: a holistic solution for entity linking of social media posts
author Oliveira, Italo Lopes
author_facet Oliveira, Italo Lopes
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Oliveira, Italo Lopes
dc.contributor.advisor1.fl_str_mv Fileto, Renato
dc.contributor.advisor-co1.fl_str_mv Garcia, Luís Paulo Faina
contributor_str_mv Fileto, Renato
Garcia, Luís Paulo Faina
dc.subject.classification.none.fl_str_mv Computação
Processamento de linguagem natural (Computação)
Redes neurais (Computação)
topic Computação
Processamento de linguagem natural (Computação)
Redes neurais (Computação)
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-11-11T19:23:34Z
dc.date.available.fl_str_mv 2021-11-11T19:23:34Z
dc.date.issued.fl_str_mv 2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/229755
dc.identifier.other.none.fl_str_mv 373453
identifier_str_mv 373453
url https://repositorio.ufsc.br/handle/123456789/229755
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 97 p.| il., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/229755/-1/PGCC1203-T.pdf
bitstream.checksum.fl_str_mv a15f0b5300575fb2d3c1a4199a727ff9
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766805132563972096