Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural

Detalhes bibliográficos
Autor(a) principal: Silva, João Marcos Nascimento da
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
Texto Completo: https://repository.ufrpe.br/handle/123456789/1881
Resumo: Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano.Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações.Este trabalho foca no primeiro problema que serve de base para o segundo, isto é,primeiramente tem-se que se identificar e classificar as entidades para, em seguida,com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver.A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL)em inglês.Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização,parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades(ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa.Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação.Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.
id UFRPE_badd5794bc67a34d556982de530513a4
oai_identifier_str oai:dspace:123456789/1881
network_acronym_str UFRPE
network_name_str Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository_id_str https://v2.sherpa.ac.uk/id/repository/10612
spelling Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem naturalAlgorítmos computacionaisMineração de dados (Computação)Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano.Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações.Este trabalho foca no primeiro problema que serve de base para o segundo, isto é,primeiramente tem-se que se identificar e classificar as entidades para, em seguida,com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver.A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL)em inglês.Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização,parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades(ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa.Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação.Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.Due to the large amount of works developed in the biomedical field and the availability ofhuge databases on biomedical entities, including proteins, genes and viruses, it comesthe need to be able to automatically index such human knowledge bases.Such need has led to the development and computational tools to assist the researcherin the recovery of specific information involving certain proteins and their relations. Inthis context, two of the main problems in the biomedical area involving techniques of Text Mining most investigated are the Named Entity Recognition (NER) and RelationExtraction.This work focuses on the first problem that serves as a basis for the second, i.e., first wehave to identify and classify the entities and then, with the identified/classified entities,identify the existing relations between them, if any. The approach adopted in this paperis based on the recent techniques of supervised/non-supervised learning of deep neural networks, or Deep Learning (DL). In particular, the problem of NER is investigated usingrecent techniques of dense feature representation using DL.At first, the sentences from a biomedical corpus are represented as graphs thanks tothe generation of annotations (metadata) generated automatically by natural language processing tools, such as tokenization, syntactic parsing, etc. These graphs are thenimported into a graph-based database so that various queries submitted to this data base can be optimized in order to extract both lexical and syntactic attributes (or features) ofthe entities (or nodes) present in the graphs. The information generated in the previousstep is used as input Deep Learning-based algorithms called Graph Embedding (GE)that map the representation of graph nodes (entity) in a dense vector representation(vector of real numbers) that has several properties of interest for this search. Finally,such dense representation of features) are employed as input for supervised machine learning algorithms.This work presents an experimental study where some of the existent algorithms of GEare compared, along with several types of sentence representation based on graphs,and their impacts on the task of entity classification (NER), or node classification. Theexperimental results are promising, reaching more than 90% accuracy in the best casesBrasilLima, Rinaldo José dehttp://lattes.cnpq.br/5276914899067852http://lattes.cnpq.br/7645118086647340Silva, João Marcos Nascimento da2020-01-31T13:46:46Z2020-01-31T13:46:46Z2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis69 f.application/pdfSILVA, João Marcos Nascimento da. Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural. 2019. 69 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.https://repository.ufrpe.br/handle/123456789/1881porAtribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0)https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BRopenAccessinfo:eu-repo/semantics/openAccessreponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)instname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPE2020-01-31T13:46:46Zoai:dspace:123456789/1881Repositório InstitucionalPUBhttps://repository.ufrpe.br/oai/requestrepositorio.sib@ufrpe.bropendoar:https://v2.sherpa.ac.uk/id/repository/106122020-01-31T13:46:46Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.none.fl_str_mv Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
spellingShingle Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
Silva, João Marcos Nascimento da
Algorítmos computacionais
Mineração de dados (Computação)
title_short Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_full Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_fullStr Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_full_unstemmed Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_sort Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
author Silva, João Marcos Nascimento da
author_facet Silva, João Marcos Nascimento da
author_role author
dc.contributor.none.fl_str_mv Lima, Rinaldo José de
http://lattes.cnpq.br/5276914899067852
http://lattes.cnpq.br/7645118086647340
dc.contributor.author.fl_str_mv Silva, João Marcos Nascimento da
dc.subject.por.fl_str_mv Algorítmos computacionais
Mineração de dados (Computação)
topic Algorítmos computacionais
Mineração de dados (Computação)
description Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano.Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações.Este trabalho foca no primeiro problema que serve de base para o segundo, isto é,primeiramente tem-se que se identificar e classificar as entidades para, em seguida,com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver.A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL)em inglês.Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização,parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades(ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa.Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação.Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.
publishDate 2019
dc.date.none.fl_str_mv 2019
2020-01-31T13:46:46Z
2020-01-31T13:46:46Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, João Marcos Nascimento da. Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural. 2019. 69 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.
https://repository.ufrpe.br/handle/123456789/1881
identifier_str_mv SILVA, João Marcos Nascimento da. Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural. 2019. 69 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.
url https://repository.ufrpe.br/handle/123456789/1881
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0)
https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BR
openAccess
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0)
https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BR
openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 69 f.
application/pdf
dc.publisher.none.fl_str_mv Brasil
publisher.none.fl_str_mv Brasil
dc.source.none.fl_str_mv reponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
instname:Universidade Federal Rural de Pernambuco (UFRPE)
instacron:UFRPE
instname_str Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str UFRPE
institution UFRPE
reponame_str Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
collection Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository.name.fl_str_mv Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv repositorio.sib@ufrpe.br
_version_ 1802120148917682176