SAQL: query language for corpora with morpho-syntactic annotation

Detalhes bibliográficos
Autor(a) principal: Pereira, Ana Filipa Vilela
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: spa
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/78258
Resumo: Mestrado integrado em Engenharia Informática
id RCAP_7d12e380e9ee62ed7ec86bd0006cede0
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/78258
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling SAQL: query language for corpora with morpho-syntactic annotationSAQL: linguagem de interrogação para corpora com anotação morfossintáticaComputer mediated communicationHate Speech ClassificationMorpho-syntactic annotationNatural language processingClassificação de discurso de ódioComunicação mediada por computadorEtiquetação morfossintáticaProcessamento de linguagem naturalEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaMestrado integrado em Engenharia InformáticaComputer Mediated Communication becomes more prevalent with each passing day, be it in social media, blogs or forums. These mediums gather large amounts of people from different backgrounds and provide places where opposing ideals can clash. This can devolve into attacks, resorting to inappropriate language and, in more extreme cases, hate speech. The detection of these cases is a problem, due to the large amount of data posted online and due to the language itself. The various idiosyncrasies of language restrict the automatic classification efforts. The aim of this thesis was to develop a system capable of processing texts, identifying and annotating within them certain syntactic patterns typically present in hate speech. This main purpose can be split in two different goals: morpho-syntactic annotation of online texts, creating a query engine to search for patterns present in the corpus; and identify and classify the occurrence of hate speech in an online medium. As a case study, the corpus extracted from online platforms by the NetLang Project was used. To fulfill these goals, a pre-processing system was implemented, the resulting annotations feeding both the classification system and the query system. The hate speech classification system was developed adopting a mixed methodology, employing manual linguistic analysis to the results arising out of the automatic methods in order to classify instances of hate speech. The system was tested and the results were compared with the statistical classification. The query system consisted in the formulation of the query language and the creation of the respective query engine which allows to search the annotated corpus for particular sequences in the texts. To evaluate the usability of the query engine, an experiment was carried out, gathering feedback from possible final users.Comunicação mediada por Computador torna-se mais prevalente a cada dia que passa, seja nas redes sociais, blogs ou fóruns. Estes meios reúnem uma elevada quantidade de pessoas de diferentes origens, fornecendo um espaço onde ideais opostos possam entrar em conflito. Isto pode levar a ataques, recorrendo-se a linguagem imprópria e, em casos mais extremos, a discurso de ódio. A deteção destes casos é um problema, devido à grande quantidade de dados publicados online e devido à própria linguagem. As várias idiossincrasias da linguagem restringem os esforços de classificação automática. O objetivo desta tese foi desenvolver um sistema capaz de processar textos, identificando e etiquetando neles certos padrões sintáticos tipicamente presentes em discurso de ódio. Este propósito principal pode ser dividido em dois objetivos diferentes: etiquetar morfossintatica mente textos online, criando um mecanismo de consulta para pesquisar padrões presentes no corpus; e identificar e classificar a ocorrência de discurso de ódio num meio online. Como caso de estudo, foi usado o corpus extraído de plataformas online pelo Projeto NetLang. Para cumprir os objectivos, um sistema de pré-processamento foi implementado, as anotações resultantes alimentando tanto o sistema de classificação como o sistema de consulta. O sistema de classificação de discurso de ódio foi desenvolvido adotando uma metodologia mista, aplicando uma análise linguística manual aos resultados decorrentes de métodos automáticos a fim de classificar instâncias de discurso de ódio. O sistema foi testado e os resultados foram comparados com a classificação estatística. O sistema de consulta consistiu na formulação da linguagem de query e na criação do respetivo motor de consulta que permite pesquisar o corpus anotado por sequências específicas nos textos. De modo a avaliar a usabilidade do motor de consulta, foi realizado um experimento, recolhendo feedback de possíveis utilizadores finais.This Master Thesis was carried out within the framework of the international project NetLang – The Language of Cyberbullying: Forms and Mechanisms of Online Prejudice and Discrimination in Annotated Comparable Corpora of Portuguese and English (PTDC/LLT-LIN/29304/2017).Henriques, Pedro RangelAraújo, CristianaUniversidade do MinhoPereira, Ana Filipa Vilela2022-04-052022-04-05T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/78258spa202995879info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:02:37Zoai:repositorium.sdum.uminho.pt:1822/78258Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:52:38.860611Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv SAQL: query language for corpora with morpho-syntactic annotation
SAQL: linguagem de interrogação para corpora com anotação morfossintática
title SAQL: query language for corpora with morpho-syntactic annotation
spellingShingle SAQL: query language for corpora with morpho-syntactic annotation
Pereira, Ana Filipa Vilela
Computer mediated communication
Hate Speech Classification
Morpho-syntactic annotation
Natural language processing
Classificação de discurso de ódio
Comunicação mediada por computador
Etiquetação morfossintática
Processamento de linguagem natural
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short SAQL: query language for corpora with morpho-syntactic annotation
title_full SAQL: query language for corpora with morpho-syntactic annotation
title_fullStr SAQL: query language for corpora with morpho-syntactic annotation
title_full_unstemmed SAQL: query language for corpora with morpho-syntactic annotation
title_sort SAQL: query language for corpora with morpho-syntactic annotation
author Pereira, Ana Filipa Vilela
author_facet Pereira, Ana Filipa Vilela
author_role author
dc.contributor.none.fl_str_mv Henriques, Pedro Rangel
Araújo, Cristiana
Universidade do Minho
dc.contributor.author.fl_str_mv Pereira, Ana Filipa Vilela
dc.subject.por.fl_str_mv Computer mediated communication
Hate Speech Classification
Morpho-syntactic annotation
Natural language processing
Classificação de discurso de ódio
Comunicação mediada por computador
Etiquetação morfossintática
Processamento de linguagem natural
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Computer mediated communication
Hate Speech Classification
Morpho-syntactic annotation
Natural language processing
Classificação de discurso de ódio
Comunicação mediada por computador
Etiquetação morfossintática
Processamento de linguagem natural
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Mestrado integrado em Engenharia Informática
publishDate 2022
dc.date.none.fl_str_mv 2022-04-05
2022-04-05T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/78258
url https://hdl.handle.net/1822/78258
dc.language.iso.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv 202995879
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132303339814912