Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante

Detalhes bibliográficos
Autor(a) principal: Melo, Fabrício Silva
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFS
Texto Completo: http://ri.ufs.br/jspui/handle/riufs/10677
Resumo: Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification.
id UFS-2_2550129a5a43a30f2d2efef2b6821842
oai_identifier_str oai:ufs.br:riufs/10677
network_acronym_str UFS-2
network_name_str Repositório Institucional da UFS
repository_id_str
spelling Melo, Fabrício SilvaMacedo, Hendrik Teixeira2019-03-14T19:20:38Z2019-03-14T19:20:38Z2018-06-11MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018.http://ri.ufs.br/jspui/handle/riufs/10677Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification.Extração de relação é a tarefa de extrair relações entre entidades nomeadas de textos em linguagem natural. Este trabalho apresenta uma técnica de extração de informação para extração de relações com redes neurais convolucionais treinadas para o reconhecimento de padrões de sentenças representadas sobre word2vec de baixa dimensão e position embeddings. Importantes estudos relacionados à extração de relações com classificadores treinados sob supervisão distante usaram um conjunto de dados construído por Riedel, Yao e McCallum (2010) como meio para treinar e testar classificadores de relações. No entanto, importantes limitações acerca desses dados foram levantadas: o uso de uma metodologia de amostragem estatisticamente inapropriada na seleção de amostras que constituem o conjunto de dados; a falta de avaliação da precisão dos classificadores por tipo (classe) de relação; e a negligência do problema de desequilíbrio na distribuição de classes nesse conjunto de dados, bem como de medidas para treinar os classificadores em meio a dados desbalanceados. Diante do problema exposto, essa dissertação tem o objetivo de propor e avaliar um modelo baseado em deep convolutional neural networks para melhorar a precisão de classificação de relações entre entidades nomeadas extraídas sob supervisão distante. Foi feita uma avaliação da distribuição de amostras em cada tipo de relação em um conjunto de dados construído por supervisão distante, a partir da base de conhecimento FreeBase, largamente utilizado para treinamento pelos mais recentes trabalhos de extração de relações. Foi constatado que esses trabalhos fizeram referência à qualidade de classificação de relações generalizando conclusões bastante otimistas baseadas em um conjunto de dados fortemente desbalanceado, usando, inclusive, metodologias de amostragem estatisticamente inapropriadas na construção do conjunto de teste. Esse conjunto de dados foi tratado utilizando amostragem estratificada aleatória para seu uso no treinamento e teste do modelo convolucional proposto utilizando validação cruzada k-fold estratificada. Os experimentos demonstram que o modelo proposto pode alcançar 87.0% de precisão e 88.0% de recall. Esses resultados provam que nosso modelo supera o estado da arte em classificação de relações.São Cristóvão, SEporProcessamento de linguagem naturalExtração de informaçãoExtração de relaçãoClassificação de relaçãoSupervisão distanteRedes convolucionaisRelation extractionRelation classificationDistant supervisionConvolutional networkCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOExtração de relações a partir de dados não estruturados baseada em deep learning e supervisão distanteinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPós-Graduação em Ciência da ComputaçãoUniversidade Federal de Sergipereponame:Repositório Institucional da UFSinstname:Universidade Federal de Sergipe (UFS)instacron:UFSinfo:eu-repo/semantics/openAccessTEXTFABRICIO_SILVA_MELO.pdf.txtFABRICIO_SILVA_MELO.pdf.txtExtracted texttext/plain142412https://ri.ufs.br/jspui/bitstream/riufs/10677/3/FABRICIO_SILVA_MELO.pdf.txt5dd3fbe28e4a3c433d3147275f50a949MD53THUMBNAILFABRICIO_SILVA_MELO.pdf.jpgFABRICIO_SILVA_MELO.pdf.jpgGenerated Thumbnailimage/jpeg1363https://ri.ufs.br/jspui/bitstream/riufs/10677/4/FABRICIO_SILVA_MELO.pdf.jpgd57a577460706b324c4415c66c8e58f0MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81475https://ri.ufs.br/jspui/bitstream/riufs/10677/1/license.txt098cbbf65c2c15e1fb2e49c5d306a44cMD51ORIGINALFABRICIO_SILVA_MELO.pdfFABRICIO_SILVA_MELO.pdfapplication/pdf2776768https://ri.ufs.br/jspui/bitstream/riufs/10677/2/FABRICIO_SILVA_MELO.pdfca68d8fa3b6ae0777c77a4dedf67b1f3MD52riufs/106772019-03-14 16:20:39.11oai:ufs.br:riufs/10677TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvcihlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyIHNldSB0cmFiYWxobyBubyBmb3JtYXRvIGVsZXRyw7RuaWNvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFNlcmdpcGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIHNldSB0cmFiYWxobyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgZGUgc2V1IHRyYWJhbGhvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0bywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgbsOjbyBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5ndcOpbS4KCkNhc28gbyB0cmFiYWxobyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvLgoKQSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRvIHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuIAo=Repositório InstitucionalPUBhttps://ri.ufs.br/oai/requestrepositorio@academico.ufs.bropendoar:2019-03-14T19:20:39Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)false
dc.title.pt_BR.fl_str_mv Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
title Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
spellingShingle Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
Melo, Fabrício Silva
Processamento de linguagem natural
Extração de informação
Extração de relação
Classificação de relação
Supervisão distante
Redes convolucionais
Relation extraction
Relation classification
Distant supervision
Convolutional network
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
title_full Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
title_fullStr Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
title_full_unstemmed Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
title_sort Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
author Melo, Fabrício Silva
author_facet Melo, Fabrício Silva
author_role author
dc.contributor.author.fl_str_mv Melo, Fabrício Silva
dc.contributor.advisor1.fl_str_mv Macedo, Hendrik Teixeira
contributor_str_mv Macedo, Hendrik Teixeira
dc.subject.por.fl_str_mv Processamento de linguagem natural
Extração de informação
Extração de relação
Classificação de relação
Supervisão distante
Redes convolucionais
topic Processamento de linguagem natural
Extração de informação
Extração de relação
Classificação de relação
Supervisão distante
Redes convolucionais
Relation extraction
Relation classification
Distant supervision
Convolutional network
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Relation extraction
Relation classification
Distant supervision
Convolutional network
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification.
publishDate 2018
dc.date.issued.fl_str_mv 2018-06-11
dc.date.accessioned.fl_str_mv 2019-03-14T19:20:38Z
dc.date.available.fl_str_mv 2019-03-14T19:20:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018.
dc.identifier.uri.fl_str_mv http://ri.ufs.br/jspui/handle/riufs/10677
identifier_str_mv MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018.
url http://ri.ufs.br/jspui/handle/riufs/10677
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.program.fl_str_mv Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv Universidade Federal de Sergipe
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFS
instname:Universidade Federal de Sergipe (UFS)
instacron:UFS
instname_str Universidade Federal de Sergipe (UFS)
instacron_str UFS
institution UFS
reponame_str Repositório Institucional da UFS
collection Repositório Institucional da UFS
bitstream.url.fl_str_mv https://ri.ufs.br/jspui/bitstream/riufs/10677/3/FABRICIO_SILVA_MELO.pdf.txt
https://ri.ufs.br/jspui/bitstream/riufs/10677/4/FABRICIO_SILVA_MELO.pdf.jpg
https://ri.ufs.br/jspui/bitstream/riufs/10677/1/license.txt
https://ri.ufs.br/jspui/bitstream/riufs/10677/2/FABRICIO_SILVA_MELO.pdf
bitstream.checksum.fl_str_mv 5dd3fbe28e4a3c433d3147275f50a949
d57a577460706b324c4415c66c8e58f0
098cbbf65c2c15e1fb2e49c5d306a44c
ca68d8fa3b6ae0777c77a4dedf67b1f3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)
repository.mail.fl_str_mv repositorio@academico.ufs.br
_version_ 1802110757375049728