Relation extraction techniques applied to the portuguese news domain

Detalhes bibliográficos
Autor(a) principal: Manke, Luiz Felipe
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/79797
Resumo: Orientador: Prof. Dr. Leandro dos Santos Coelho
id UFPR_d07bb6ea7e7b6324355dd1b81419228b
oai_identifier_str oai:acervodigital.ufpr.br:1884/79797
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Manke, Luiz FelipeUniversidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia ElétricaCoelho, Leandro dos Santos, 1968-2022-10-25T15:46:03Z2022-10-25T15:46:03Z2022https://hdl.handle.net/1884/79797Orientador: Prof. Dr. Leandro dos Santos CoelhoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 25/08/2022Inclui referências: p. 60-62Área de concentração: Sistemas EletrônicosResumo: Not'icias negativas s˜ao definidas como qualquer tipo de informa¸c˜ao desfavor'avel encontrada em uma grande variedade de fontes de not'icias. A triagem dessas not'icias significa identificar e monitorar uma grande variedade de conte'udos de m'idias convencionais impressas e televisivas, juntamente com conte'udos on-line, como blogs e feeds de m'idias sociais. Este processo deve ser uma parte importante do processo de due diligence de qualquer institui¸c˜ao financeira para mitigar os riscos ao iniciar qualquer relacionamento comercial. A automa¸c˜ao 'e mais r'apida do que a triagem humana e pode ser melhor adaptada 'as preocupa¸c˜oes comerciais exclusivas de uma empresa. Com as vantagens do Machine Learning, agora 'e poss'ivel analisar as not'icias e isolar as entidades reais que foram identificadas como tendo informa¸c˜oes adversas sem verificar manualmente cada artigo. Estas t'ecnicas fazem parte da 'area de Extra¸c˜ao de Relacionamento, que vem do campo de Processamento de Linguagem Natural, e visa identificar automaticamente as associa¸c˜oes semˆanticas (rela¸c˜oes) entre as entidades nomeadas no texto. Esta disserta¸c˜ao prop˜oe desenvolver diferentes solu¸c˜oes de Extra¸c˜ao de Relacionamento para a tarefa espec'ifica de automatizar o processo de busca de not'icias negativas dentro da l'ingua portuguesa. Com base em um estudo cuidadoso da estrutura te'orica e uma revis˜ao sistem'atica da literatura sobre o assunto, trˆes abordagens diferentes foram propostas para resolver o problema: (i) um m'etodo de Embedding Sub-sequences, que usa os vetores de incorpora¸c˜ao das entidades como entrada para um classificador de Floresta Aleat'oria; (ii) uma Graph Convolutional Neural Network, que usa vetores de incorpora¸c˜ao junto com 'arvores parciais de dependˆencia como entrada para camadas convolutivas; e (iii) uma Transformer Neural Network, que usa uma rede neural pr'e-treinada que se baseia exclusivamente em mecanismos de aten¸c˜ao. Para avaliar as metodologias propostas, foi constru'ido um benchmark em portuguˆes para o dom'inio not'icias, onde os textos em n'ivel de senten¸ca das not'icias foram coletados manualmente, processados e rotulados em uma categoria bin'aria. Os m'etodos foram comparados em termos da pontua¸c˜ao F1, que 'e a m'edia harmˆonica entre as m'etricas de precis˜ao e recall. Ap'os uma valida¸c˜ao cruzada de cinco dobras, a metodologia Transformer mostrou resultados notavelmente melhores do que as outras abordagens, atingindo uma pontua¸c˜ao de F1 de 91,72, que foi 10% maior do que a pontua¸c˜ao do Graph CNN, e 27% maior do que a pontua¸c˜ao do Embedding Sub-sequences. Estes valores tamb'em s˜ao significativos quando comparados ao estado da arte. Al'em disso, foram aplicados os m'etodos Shapley Additive Explanations para melhor compreender a influˆencia que cada caracter'istica de entrada (palavras) tem no valor previsto, o que tamb'em destacou como o m'etodo Transformer superou as outras metodologias, dando grande aten¸c˜ao a palavras importantes pr'oximas 'as entidades, enquanto as outras metodologias n˜ao puderam se concentrar no contexto principal das frasesAbstract: Negative news is defined as any kind of unfavorable information found across a wide variety of news sources. Screening for these news means identifying and monitoring a large range of conventional printed and televised media content, along with online content like blogs and social media feeds. This process should be an important part of any financial institution’s customer due diligence process to mitigate risks when starting any business relationship. Automation is faster than human screening and can be better tailored to a company’s unique business concerns. With the advantages of Machine Learning, now it’s possible to analyze news and isolate the actual entities that have been identified as having adverse information without manually checking each article. These techniques are part of the Relation Extraction area, which comes from the Natural Language Processing field, and aims to automatically identify semantic associations (relations) between named entities in text. This thesis proposes to develop different Relation Extraction solutions to the specific task of automating the process of negative news search within the Portuguese language. Based on a careful study of the theoretical framework and a systematic literature review on the subject, three different approaches were proposed to solve the problem: (i) an Embedding Sub-sequences method, that uses the embedding vectors from around the entities as input to a Random Forest classifier; (ii) a Graph Convolutional Neural Network, that uses embedding vectors along with dependency parse trees as input to convolutional layers; and (iii) a Transformer Neural Network, which uses a pre-trained neural network that is based solely on attention mechanisms. To evaluate the proposed methodologies, a Portuguese benchmark was built for the News domain, where sentence-level texts from news were manually collected, processed, and labeled into a binary category. The methods were compared in terms of the F1 score, which is the harmonic mean between precision and recall metrics. After a 5-fold cross-validation, the Transformer methodology showed notably better results than the other approaches, reaching an F1 score of 91.72, which was 10% higher than the Graph CNN score, and 27% higher than the Embedding Sub-sequences score. These values are also significant when compared to state-of-the-art results. Additionally, Shapley Additive Explanations were applied the methods to better understand the influence that each input feature (words) has on the predicted value, which also highlighted how the Transformer method overcame the other methodologies by giving great attention to important words close to the entities, while the other methodologies couldn’t focus on the main context of the sentences.1 recurso online : PDF.application/pdfEngenharia eletricaRedes neurais (Computação)Agências de notíciasLingua portuguesaEngenharia ElétricaRelation extraction techniques applied to the portuguese news domaininfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - LUIZ FELIPE MANKE.pdfapplication/pdf5313870https://acervodigital.ufpr.br/bitstream/1884/79797/1/R%20-%20D%20-%20LUIZ%20FELIPE%20MANKE.pdf758dbb5dfeebaa9964ced8c759fcf3b1MD51open access1884/797972022-10-25 12:46:03.736open accessoai:acervodigital.ufpr.br:1884/79797Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-10-25T15:46:03Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Relation extraction techniques applied to the portuguese news domain
title Relation extraction techniques applied to the portuguese news domain
spellingShingle Relation extraction techniques applied to the portuguese news domain
Manke, Luiz Felipe
Engenharia eletrica
Redes neurais (Computação)
Agências de notícias
Lingua portuguesa
Engenharia Elétrica
title_short Relation extraction techniques applied to the portuguese news domain
title_full Relation extraction techniques applied to the portuguese news domain
title_fullStr Relation extraction techniques applied to the portuguese news domain
title_full_unstemmed Relation extraction techniques applied to the portuguese news domain
title_sort Relation extraction techniques applied to the portuguese news domain
author Manke, Luiz Felipe
author_facet Manke, Luiz Felipe
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica
dc.contributor.author.fl_str_mv Manke, Luiz Felipe
dc.contributor.advisor1.fl_str_mv Coelho, Leandro dos Santos, 1968-
contributor_str_mv Coelho, Leandro dos Santos, 1968-
dc.subject.por.fl_str_mv Engenharia eletrica
Redes neurais (Computação)
Agências de notícias
Lingua portuguesa
Engenharia Elétrica
topic Engenharia eletrica
Redes neurais (Computação)
Agências de notícias
Lingua portuguesa
Engenharia Elétrica
description Orientador: Prof. Dr. Leandro dos Santos Coelho
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-10-25T15:46:03Z
dc.date.available.fl_str_mv 2022-10-25T15:46:03Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/79797
url https://hdl.handle.net/1884/79797
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/79797/1/R%20-%20D%20-%20LUIZ%20FELIPE%20MANKE.pdf
bitstream.checksum.fl_str_mv 758dbb5dfeebaa9964ced8c759fcf3b1
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1813898796582567936