Relation extraction techniques applied to the portuguese news domain
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | https://hdl.handle.net/1884/79797 |
Resumo: | Orientador: Prof. Dr. Leandro dos Santos Coelho |
id |
UFPR_d07bb6ea7e7b6324355dd1b81419228b |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/79797 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Manke, Luiz FelipeUniversidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia ElétricaCoelho, Leandro dos Santos, 1968-2022-10-25T15:46:03Z2022-10-25T15:46:03Z2022https://hdl.handle.net/1884/79797Orientador: Prof. Dr. Leandro dos Santos CoelhoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 25/08/2022Inclui referências: p. 60-62Área de concentração: Sistemas EletrônicosResumo: Not'icias negativas s˜ao definidas como qualquer tipo de informa¸c˜ao desfavor'avel encontrada em uma grande variedade de fontes de not'icias. A triagem dessas not'icias significa identificar e monitorar uma grande variedade de conte'udos de m'idias convencionais impressas e televisivas, juntamente com conte'udos on-line, como blogs e feeds de m'idias sociais. Este processo deve ser uma parte importante do processo de due diligence de qualquer institui¸c˜ao financeira para mitigar os riscos ao iniciar qualquer relacionamento comercial. A automa¸c˜ao 'e mais r'apida do que a triagem humana e pode ser melhor adaptada 'as preocupa¸c˜oes comerciais exclusivas de uma empresa. Com as vantagens do Machine Learning, agora 'e poss'ivel analisar as not'icias e isolar as entidades reais que foram identificadas como tendo informa¸c˜oes adversas sem verificar manualmente cada artigo. Estas t'ecnicas fazem parte da 'area de Extra¸c˜ao de Relacionamento, que vem do campo de Processamento de Linguagem Natural, e visa identificar automaticamente as associa¸c˜oes semˆanticas (rela¸c˜oes) entre as entidades nomeadas no texto. Esta disserta¸c˜ao prop˜oe desenvolver diferentes solu¸c˜oes de Extra¸c˜ao de Relacionamento para a tarefa espec'ifica de automatizar o processo de busca de not'icias negativas dentro da l'ingua portuguesa. Com base em um estudo cuidadoso da estrutura te'orica e uma revis˜ao sistem'atica da literatura sobre o assunto, trˆes abordagens diferentes foram propostas para resolver o problema: (i) um m'etodo de Embedding Sub-sequences, que usa os vetores de incorpora¸c˜ao das entidades como entrada para um classificador de Floresta Aleat'oria; (ii) uma Graph Convolutional Neural Network, que usa vetores de incorpora¸c˜ao junto com 'arvores parciais de dependˆencia como entrada para camadas convolutivas; e (iii) uma Transformer Neural Network, que usa uma rede neural pr'e-treinada que se baseia exclusivamente em mecanismos de aten¸c˜ao. Para avaliar as metodologias propostas, foi constru'ido um benchmark em portuguˆes para o dom'inio not'icias, onde os textos em n'ivel de senten¸ca das not'icias foram coletados manualmente, processados e rotulados em uma categoria bin'aria. Os m'etodos foram comparados em termos da pontua¸c˜ao F1, que 'e a m'edia harmˆonica entre as m'etricas de precis˜ao e recall. Ap'os uma valida¸c˜ao cruzada de cinco dobras, a metodologia Transformer mostrou resultados notavelmente melhores do que as outras abordagens, atingindo uma pontua¸c˜ao de F1 de 91,72, que foi 10% maior do que a pontua¸c˜ao do Graph CNN, e 27% maior do que a pontua¸c˜ao do Embedding Sub-sequences. Estes valores tamb'em s˜ao significativos quando comparados ao estado da arte. Al'em disso, foram aplicados os m'etodos Shapley Additive Explanations para melhor compreender a influˆencia que cada caracter'istica de entrada (palavras) tem no valor previsto, o que tamb'em destacou como o m'etodo Transformer superou as outras metodologias, dando grande aten¸c˜ao a palavras importantes pr'oximas 'as entidades, enquanto as outras metodologias n˜ao puderam se concentrar no contexto principal das frasesAbstract: Negative news is defined as any kind of unfavorable information found across a wide variety of news sources. Screening for these news means identifying and monitoring a large range of conventional printed and televised media content, along with online content like blogs and social media feeds. This process should be an important part of any financial institution’s customer due diligence process to mitigate risks when starting any business relationship. Automation is faster than human screening and can be better tailored to a company’s unique business concerns. With the advantages of Machine Learning, now it’s possible to analyze news and isolate the actual entities that have been identified as having adverse information without manually checking each article. These techniques are part of the Relation Extraction area, which comes from the Natural Language Processing field, and aims to automatically identify semantic associations (relations) between named entities in text. This thesis proposes to develop different Relation Extraction solutions to the specific task of automating the process of negative news search within the Portuguese language. Based on a careful study of the theoretical framework and a systematic literature review on the subject, three different approaches were proposed to solve the problem: (i) an Embedding Sub-sequences method, that uses the embedding vectors from around the entities as input to a Random Forest classifier; (ii) a Graph Convolutional Neural Network, that uses embedding vectors along with dependency parse trees as input to convolutional layers; and (iii) a Transformer Neural Network, which uses a pre-trained neural network that is based solely on attention mechanisms. To evaluate the proposed methodologies, a Portuguese benchmark was built for the News domain, where sentence-level texts from news were manually collected, processed, and labeled into a binary category. The methods were compared in terms of the F1 score, which is the harmonic mean between precision and recall metrics. After a 5-fold cross-validation, the Transformer methodology showed notably better results than the other approaches, reaching an F1 score of 91.72, which was 10% higher than the Graph CNN score, and 27% higher than the Embedding Sub-sequences score. These values are also significant when compared to state-of-the-art results. Additionally, Shapley Additive Explanations were applied the methods to better understand the influence that each input feature (words) has on the predicted value, which also highlighted how the Transformer method overcame the other methodologies by giving great attention to important words close to the entities, while the other methodologies couldn’t focus on the main context of the sentences.1 recurso online : PDF.application/pdfEngenharia eletricaRedes neurais (Computação)Agências de notíciasLingua portuguesaEngenharia ElétricaRelation extraction techniques applied to the portuguese news domaininfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - LUIZ FELIPE MANKE.pdfapplication/pdf5313870https://acervodigital.ufpr.br/bitstream/1884/79797/1/R%20-%20D%20-%20LUIZ%20FELIPE%20MANKE.pdf758dbb5dfeebaa9964ced8c759fcf3b1MD51open access1884/797972022-10-25 12:46:03.736open accessoai:acervodigital.ufpr.br:1884/79797Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-10-25T15:46:03Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
Relation extraction techniques applied to the portuguese news domain |
title |
Relation extraction techniques applied to the portuguese news domain |
spellingShingle |
Relation extraction techniques applied to the portuguese news domain Manke, Luiz Felipe Engenharia eletrica Redes neurais (Computação) Agências de notícias Lingua portuguesa Engenharia Elétrica |
title_short |
Relation extraction techniques applied to the portuguese news domain |
title_full |
Relation extraction techniques applied to the portuguese news domain |
title_fullStr |
Relation extraction techniques applied to the portuguese news domain |
title_full_unstemmed |
Relation extraction techniques applied to the portuguese news domain |
title_sort |
Relation extraction techniques applied to the portuguese news domain |
author |
Manke, Luiz Felipe |
author_facet |
Manke, Luiz Felipe |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica |
dc.contributor.author.fl_str_mv |
Manke, Luiz Felipe |
dc.contributor.advisor1.fl_str_mv |
Coelho, Leandro dos Santos, 1968- |
contributor_str_mv |
Coelho, Leandro dos Santos, 1968- |
dc.subject.por.fl_str_mv |
Engenharia eletrica Redes neurais (Computação) Agências de notícias Lingua portuguesa Engenharia Elétrica |
topic |
Engenharia eletrica Redes neurais (Computação) Agências de notícias Lingua portuguesa Engenharia Elétrica |
description |
Orientador: Prof. Dr. Leandro dos Santos Coelho |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-10-25T15:46:03Z |
dc.date.available.fl_str_mv |
2022-10-25T15:46:03Z |
dc.date.issued.fl_str_mv |
2022 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/79797 |
url |
https://hdl.handle.net/1884/79797 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
1 recurso online : PDF. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/79797/1/R%20-%20D%20-%20LUIZ%20FELIPE%20MANKE.pdf |
bitstream.checksum.fl_str_mv |
758dbb5dfeebaa9964ced8c759fcf3b1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1813898796582567936 |