Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural

Silva, João Marcos Nascimento da

Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural

Detalhes bibliográficos
Autor(a) principal:	Silva, João Marcos Nascimento da
Data de Publicação:	2019
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
Texto Completo:	https://repository.ufrpe.br/handle/123456789/1881
Resumo:	Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano.Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações.Este trabalho foca no primeiro problema que serve de base para o segundo, isto é,primeiramente tem-se que se identificar e classificar as entidades para, em seguida,com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver.A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL)em inglês.Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização,parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades(ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa.Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação.Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.

Metadados do item

id	UFRPE_badd5794bc67a34d556982de530513a4
oai_identifier_str	oai:dspace:123456789/1881
network_acronym_str	UFRPE
network_name_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository_id_str	https://v2.sherpa.ac.uk/id/repository/10612
spelling	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem naturalAlgorítmos computacionaisMineração de dados (Computação)Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano.Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações.Este trabalho foca no primeiro problema que serve de base para o segundo, isto é,primeiramente tem-se que se identificar e classificar as entidades para, em seguida,com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver.A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL)em inglês.Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização,parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades(ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa.Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação.Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.Due to the large amount of works developed in the biomedical field and the availability ofhuge databases on biomedical entities, including proteins, genes and viruses, it comesthe need to be able to automatically index such human knowledge bases.Such need has led to the development and computational tools to assist the researcherin the recovery of specific information involving certain proteins and their relations. Inthis context, two of the main problems in the biomedical area involving techniques of Text Mining most investigated are the Named Entity Recognition (NER) and RelationExtraction.This work focuses on the first problem that serves as a basis for the second, i.e., first wehave to identify and classify the entities and then, with the identified/classified entities,identify the existing relations between them, if any. The approach adopted in this paperis based on the recent techniques of supervised/non-supervised learning of deep neural networks, or Deep Learning (DL). In particular, the problem of NER is investigated usingrecent techniques of dense feature representation using DL.At first, the sentences from a biomedical corpus are represented as graphs thanks tothe generation of annotations (metadata) generated automatically by natural language processing tools, such as tokenization, syntactic parsing, etc. These graphs are thenimported into a graph-based database so that various queries submitted to this data base can be optimized in order to extract both lexical and syntactic attributes (or features) ofthe entities (or nodes) present in the graphs. The information generated in the previousstep is used as input Deep Learning-based algorithms called Graph Embedding (GE)that map the representation of graph nodes (entity) in a dense vector representation(vector of real numbers) that has several properties of interest for this search. Finally,such dense representation of features) are employed as input for supervised machine learning algorithms.This work presents an experimental study where some of the existent algorithms of GEare compared, along with several types of sentence representation based on graphs,and their impacts on the task of entity classification (NER), or node classification. Theexperimental results are promising, reaching more than 90% accuracy in the best casesBrasilLima, Rinaldo José dehttp://lattes.cnpq.br/5276914899067852http://lattes.cnpq.br/7645118086647340Silva, João Marcos Nascimento da2020-01-31T13:46:46Z2020-01-31T13:46:46Z2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis69 f.application/pdfSILVA, João Marcos Nascimento da. Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural. 2019. 69 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.https://repository.ufrpe.br/handle/123456789/1881porAtribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0)https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BRopenAccessinfo:eu-repo/semantics/openAccessreponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)instname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPE2020-01-31T13:46:46Zoai:dspace:123456789/1881Repositório InstitucionalPUBhttps://repository.ufrpe.br/oai/requestrepositorio.sib@ufrpe.bropendoar:https://v2.sherpa.ac.uk/id/repository/106122020-01-31T13:46:46Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.none.fl_str_mv	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
spellingShingle	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural Silva, João Marcos Nascimento da Algorítmos computacionais Mineração de dados (Computação)
title_short	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_full	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_fullStr	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_full_unstemmed	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
title_sort	Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural
author	Silva, João Marcos Nascimento da
author_facet	Silva, João Marcos Nascimento da
author_role	author
dc.contributor.none.fl_str_mv	Lima, Rinaldo José de http://lattes.cnpq.br/5276914899067852 http://lattes.cnpq.br/7645118086647340
dc.contributor.author.fl_str_mv	Silva, João Marcos Nascimento da
dc.subject.por.fl_str_mv	Algorítmos computacionais Mineração de dados (Computação)
topic	Algorítmos computacionais Mineração de dados (Computação)
description	Devido a grande quantidade de pesquisas desenvolvidas na área biomédica e na disponibilidade de enormes bases de dados sobre entidades biomédicas, incluindo proteínas, genes e vírus, vem a necessidade de se poder indexar de forma automática tais bases de conhecimento humano.Tal necessidade tem levado ao desenvolvimento e ferramentas computacionais para auxiliar o pesquisador na recuperação de informações específicas envolvendo certas proteínas e suas relações. Neste contexto, dois dos principais problemas na área biomédica envolvendo técnicas de Mineração de Textos (Text Mining) mais investigados são o reconhecimento de entidades nomeadas (REN) e extração de relações.Este trabalho foca no primeiro problema que serve de base para o segundo, isto é,primeiramente tem-se que se identificar e classificar as entidades para, em seguida,com as entidades identificas e classificadas, identificar as relações existentes entre selas, se houver.A abordagem adotada neste trabalho é baseada em técnicas recentes de aprendizado supervisionado/não supervisionado de redes neurais profundas, ou Deep Learning (DL)em inglês.Em particular, investiga-se o problema de REN usando técnicas recentes de representação densa de características (ou features, do inglês) usando DL. Dessa forma, em um primeiro momento, as frases de um corpus da área biomédica são representadas em forma de grafo graças à geração de anotações (metadados) gerados de forma automática por ferramentas de processamento de linguagem natural, tais como tokenização,parsing sintático etc. Em seguida, esses grafos são importados em um banco de dados baseada em grafo para que se possa otimizar diversas consultas que são submetidas a esta base a fim de se extrair atributos (ou features) léxicos e sintáticos das entidades(ou nós) presentes nos grafos. Com informação gerada na etapa anterior, emprega-se uma categoria de algoritmos de Deep Learning chamados Graph Embedding (GE) que mapeam a representação de nós do grafo (entidade) em uma representação densa em um espaço vetorial que possui diversas propriedades de interesse para esta pesquisa.Finalmente, faz-se uso desta representação densa de features (vetor de números reais)como entrada para algoritmos de classificação.Este trabalho apresenta um estudo experimental onde são comparados alguns dos algoritmos de GE, aliados a diversas formas de representação das frases baseadas em grafos e seus impactos na tarefa de classificação de entidades (REN), ou node classification. Os resultados experimentais obtidos são promissores alcançando nos melhores casos, mais de 90% de acurácia.
publishDate	2019
dc.date.none.fl_str_mv	2019 2020-01-31T13:46:46Z 2020-01-31T13:46:46Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	SILVA, João Marcos Nascimento da. Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural. 2019. 69 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019. https://repository.ufrpe.br/handle/123456789/1881
identifier_str_mv	SILVA, João Marcos Nascimento da. Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural. 2019. 69 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.
url	https://repository.ufrpe.br/handle/123456789/1881
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0) https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BR openAccess info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0) https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BR openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	69 f. application/pdf
dc.publisher.none.fl_str_mv	Brasil
publisher.none.fl_str_mv	Brasil
dc.source.none.fl_str_mv	reponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) instname:Universidade Federal Rural de Pernambuco (UFRPE) instacron:UFRPE
instname_str	Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str	UFRPE
institution	UFRPE
reponame_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
collection	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository.name.fl_str_mv	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv	repositorio.sib@ufrpe.br
_version_	1802120148917682176

Graph Embeddings para Node Classification em representação baseada em grafos de frases em linguagem natural

Registros relacionados