SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings

Detalhes bibliográficos
Autor(a) principal: Sorato, Danielly
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/214365
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2019.
id UFSC_5800d854fbead4b5a22a51f34129d4bf
oai_identifier_str oai:repositorio.ufsc.br:123456789/214365
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddingsComputaçãoProcessamento de linguagem natural (Computação)Análise do discursoMídia socialDissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2019.Postagens em microblogs, tais como tweets, frequentemente contêm opiniões e pensamentos de usuários sobre eventos, produtos, pessoas, entre outras possibilidades. Contudo, o uso de mídias sociais para propagar discursos de ódio, promover desinformação e manipular opiniões não são ocorrências incomuns. A análise de postagens problemáticas é crucial para entender, combater e desencorajar tais ações. Repetições de expressão, i.e. padrões de discurso, ocorrem na linguagem natural. Extrair fragmentos de texto com semântica recorrente podem levar à descoberta de padrões linguísticos usados em certos tipos de discurso textualmente expressos em postagens de microblogs. Nessa dissertação, esses padrões são usados no contexto de extração de informação, análise de discurso e classificação de texto.Através da abordagem aqui desenvolvida, chamada mineração de Padrões Semânticos Curtos (em inglês Short Semantic Patterns - SSP), é possível descobrir dinamicamente, bem como extrair, sequências de palavras que compartilham significado similar em relação à sua representação vetorial. O uso de vetores de palavras (word embeddings) permite a extração eficiente de padrões flexíveis, que não estão restritos à similaridade e ordem lexical. Primeiramente, os SSP são formalmente descritos e sua incidência é mostrada em tweets reais. Depois, a abordagem de mineração é aplicada para executar tarefas de Extração de Informação e Análise de Discurso em dois estudos de caso distintos, especificamente tweets da campanha presidencial de Donald Trump e de discurso de ódio. Por fim, os SSP extraídos no caso de discurso de ódio são usados como features para construir classificadores para detectar se um tweets contém discurso de ódio (classificação binária) e também para distinguir entre tweets contendo racismo, sexismo, ou conteúdo normal (classificação ternária). A análise das instâncias de SSP em relação aos tweets de Donald Trump evidenciaram que sua estratégia de campanha consistia em sistematicamente difamar a mídia e seus oponentes. As instâncias de SSP encontradas nos tweets contendo sexismo mostraram que um grande número de tweets sexistas com a introdução ?I'm not sexist but? e ? Call me sexist but?. Enquanto isso, instâncias do SSP encontradas em tweets sobre racismo revelaram uma proeminência de discursos contra a religião islâmica, entidades e organizações associadas.<br>Abstract : Microblog posts such as tweets frequently contain users opinions and thoughts about events, products, people, among other possibilities. However, the usage of social media to propagate hate speech, promote online disinformation and manipulation is not an uncommon occurrence. Analyzing such problematic social media posts is essential for understanding, fighting, and discouraging such actions. Repetition of discourses, i.e. speech patterns, occur in natural language. Extracting recurrent fragments of text which are semantically similar can lead to the discovery of linguistic patterns used in certain kinds of discourse. Therefore, we aim to use these patterns to encapsulate frequent discourses textually expressed in microblog posts. In this dissertation, we propose to exploit such linguistic patterns in the context of Information Extraction and Discourse Analysis. Though the technique developed in this work, called SSP (Short Semantic Pattern) mining, we are able to dynamically discover and extract sequences of words that share a similar thought in their word embedding representation. The use of word embeddings allows the efficient extraction of flexible patterns, which are not restricted to lexical and syntactic similarity. First, we formally describe our SSPs and show its incidence in real tweets. Then, we apply our technique to perform Information Extraction and Discourse Analysis in two case studies, namely Donald Trump's presidential campaign and hate speech tweets. Afterwards, we experiment using SSPs as features to build classifiers to detect if a tweet contains hate speech (binary classification) and to distinguish between sexism, racism and clean tweets (ternary classification). The analysis of SSP instances regarding Donald Trump's tweets showed that his campaign strategy consisted in systematically defaming the media and his opponents. The SSP instances encountered in tweets containing sexism have shown that a large number of sexist tweets with the introduction ?I'm not sexist but? and ?Call me sexist but?. Meanwhile, SSP instances found in tweets depicting racism revealed a prominence of discourses against the Islamic religion, associated entities and organizations.Fileto, RenatoUniversidade Federal de Santa CatarinaSorato, Danielly2020-10-21T21:04:26Z2020-10-21T21:04:26Z2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis91 p.| il., gráfs.application/pdf364027https://repositorio.ufsc.br/handle/123456789/214365engreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2020-10-21T21:04:26Zoai:repositorio.ufsc.br:123456789/214365Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732020-10-21T21:04:26Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
title SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
spellingShingle SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
Sorato, Danielly
Computação
Processamento de linguagem natural (Computação)
Análise do discurso
Mídia social
title_short SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
title_full SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
title_fullStr SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
title_full_unstemmed SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
title_sort SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
author Sorato, Danielly
author_facet Sorato, Danielly
author_role author
dc.contributor.none.fl_str_mv Fileto, Renato
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Sorato, Danielly
dc.subject.por.fl_str_mv Computação
Processamento de linguagem natural (Computação)
Análise do discurso
Mídia social
topic Computação
Processamento de linguagem natural (Computação)
Análise do discurso
Mídia social
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2019.
publishDate 2019
dc.date.none.fl_str_mv 2019
2020-10-21T21:04:26Z
2020-10-21T21:04:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 364027
https://repositorio.ufsc.br/handle/123456789/214365
identifier_str_mv 364027
url https://repositorio.ufsc.br/handle/123456789/214365
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 91 p.| il., gráfs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652256516505600