Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFS |
Texto Completo: | http://ri.ufs.br/jspui/handle/riufs/10677 |
Resumo: | Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification. |
id |
UFS-2_2550129a5a43a30f2d2efef2b6821842 |
---|---|
oai_identifier_str |
oai:ufs.br:riufs/10677 |
network_acronym_str |
UFS-2 |
network_name_str |
Repositório Institucional da UFS |
repository_id_str |
|
spelling |
Melo, Fabrício SilvaMacedo, Hendrik Teixeira2019-03-14T19:20:38Z2019-03-14T19:20:38Z2018-06-11MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018.http://ri.ufs.br/jspui/handle/riufs/10677Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification.Extração de relação é a tarefa de extrair relações entre entidades nomeadas de textos em linguagem natural. Este trabalho apresenta uma técnica de extração de informação para extração de relações com redes neurais convolucionais treinadas para o reconhecimento de padrões de sentenças representadas sobre word2vec de baixa dimensão e position embeddings. Importantes estudos relacionados à extração de relações com classificadores treinados sob supervisão distante usaram um conjunto de dados construído por Riedel, Yao e McCallum (2010) como meio para treinar e testar classificadores de relações. No entanto, importantes limitações acerca desses dados foram levantadas: o uso de uma metodologia de amostragem estatisticamente inapropriada na seleção de amostras que constituem o conjunto de dados; a falta de avaliação da precisão dos classificadores por tipo (classe) de relação; e a negligência do problema de desequilíbrio na distribuição de classes nesse conjunto de dados, bem como de medidas para treinar os classificadores em meio a dados desbalanceados. Diante do problema exposto, essa dissertação tem o objetivo de propor e avaliar um modelo baseado em deep convolutional neural networks para melhorar a precisão de classificação de relações entre entidades nomeadas extraídas sob supervisão distante. Foi feita uma avaliação da distribuição de amostras em cada tipo de relação em um conjunto de dados construído por supervisão distante, a partir da base de conhecimento FreeBase, largamente utilizado para treinamento pelos mais recentes trabalhos de extração de relações. Foi constatado que esses trabalhos fizeram referência à qualidade de classificação de relações generalizando conclusões bastante otimistas baseadas em um conjunto de dados fortemente desbalanceado, usando, inclusive, metodologias de amostragem estatisticamente inapropriadas na construção do conjunto de teste. Esse conjunto de dados foi tratado utilizando amostragem estratificada aleatória para seu uso no treinamento e teste do modelo convolucional proposto utilizando validação cruzada k-fold estratificada. Os experimentos demonstram que o modelo proposto pode alcançar 87.0% de precisão e 88.0% de recall. Esses resultados provam que nosso modelo supera o estado da arte em classificação de relações.São Cristóvão, SEporProcessamento de linguagem naturalExtração de informaçãoExtração de relaçãoClassificação de relaçãoSupervisão distanteRedes convolucionaisRelation extractionRelation classificationDistant supervisionConvolutional networkCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOExtração de relações a partir de dados não estruturados baseada em deep learning e supervisão distanteinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPós-Graduação em Ciência da ComputaçãoUniversidade Federal de Sergipereponame:Repositório Institucional da UFSinstname:Universidade Federal de Sergipe (UFS)instacron:UFSinfo:eu-repo/semantics/openAccessTEXTFABRICIO_SILVA_MELO.pdf.txtFABRICIO_SILVA_MELO.pdf.txtExtracted texttext/plain142412https://ri.ufs.br/jspui/bitstream/riufs/10677/3/FABRICIO_SILVA_MELO.pdf.txt5dd3fbe28e4a3c433d3147275f50a949MD53THUMBNAILFABRICIO_SILVA_MELO.pdf.jpgFABRICIO_SILVA_MELO.pdf.jpgGenerated Thumbnailimage/jpeg1363https://ri.ufs.br/jspui/bitstream/riufs/10677/4/FABRICIO_SILVA_MELO.pdf.jpgd57a577460706b324c4415c66c8e58f0MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81475https://ri.ufs.br/jspui/bitstream/riufs/10677/1/license.txt098cbbf65c2c15e1fb2e49c5d306a44cMD51ORIGINALFABRICIO_SILVA_MELO.pdfFABRICIO_SILVA_MELO.pdfapplication/pdf2776768https://ri.ufs.br/jspui/bitstream/riufs/10677/2/FABRICIO_SILVA_MELO.pdfca68d8fa3b6ae0777c77a4dedf67b1f3MD52riufs/106772019-03-14 16:20:39.11oai:ufs.br:riufs/10677TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvcihlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyIHNldSB0cmFiYWxobyBubyBmb3JtYXRvIGVsZXRyw7RuaWNvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFNlcmdpcGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIHNldSB0cmFiYWxobyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgZGUgc2V1IHRyYWJhbGhvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0bywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgbsOjbyBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5ndcOpbS4KCkNhc28gbyB0cmFiYWxobyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvLgoKQSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRvIHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuIAo=Repositório InstitucionalPUBhttps://ri.ufs.br/oai/requestrepositorio@academico.ufs.bropendoar:2019-03-14T19:20:39Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)false |
dc.title.pt_BR.fl_str_mv |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
title |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
spellingShingle |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante Melo, Fabrício Silva Processamento de linguagem natural Extração de informação Extração de relação Classificação de relação Supervisão distante Redes convolucionais Relation extraction Relation classification Distant supervision Convolutional network CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
title_full |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
title_fullStr |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
title_full_unstemmed |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
title_sort |
Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
author |
Melo, Fabrício Silva |
author_facet |
Melo, Fabrício Silva |
author_role |
author |
dc.contributor.author.fl_str_mv |
Melo, Fabrício Silva |
dc.contributor.advisor1.fl_str_mv |
Macedo, Hendrik Teixeira |
contributor_str_mv |
Macedo, Hendrik Teixeira |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural Extração de informação Extração de relação Classificação de relação Supervisão distante Redes convolucionais |
topic |
Processamento de linguagem natural Extração de informação Extração de relação Classificação de relação Supervisão distante Redes convolucionais Relation extraction Relation classification Distant supervision Convolutional network CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Relation extraction Relation classification Distant supervision Convolutional network |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-06-11 |
dc.date.accessioned.fl_str_mv |
2019-03-14T19:20:38Z |
dc.date.available.fl_str_mv |
2019-03-14T19:20:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018. |
dc.identifier.uri.fl_str_mv |
http://ri.ufs.br/jspui/handle/riufs/10677 |
identifier_str_mv |
MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018. |
url |
http://ri.ufs.br/jspui/handle/riufs/10677 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.program.fl_str_mv |
Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
Universidade Federal de Sergipe |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFS instname:Universidade Federal de Sergipe (UFS) instacron:UFS |
instname_str |
Universidade Federal de Sergipe (UFS) |
instacron_str |
UFS |
institution |
UFS |
reponame_str |
Repositório Institucional da UFS |
collection |
Repositório Institucional da UFS |
bitstream.url.fl_str_mv |
https://ri.ufs.br/jspui/bitstream/riufs/10677/3/FABRICIO_SILVA_MELO.pdf.txt https://ri.ufs.br/jspui/bitstream/riufs/10677/4/FABRICIO_SILVA_MELO.pdf.jpg https://ri.ufs.br/jspui/bitstream/riufs/10677/1/license.txt https://ri.ufs.br/jspui/bitstream/riufs/10677/2/FABRICIO_SILVA_MELO.pdf |
bitstream.checksum.fl_str_mv |
5dd3fbe28e4a3c433d3147275f50a949 d57a577460706b324c4415c66c8e58f0 098cbbf65c2c15e1fb2e49c5d306a44c ca68d8fa3b6ae0777c77a4dedf67b1f3 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS) |
repository.mail.fl_str_mv |
repositorio@academico.ufs.br |
_version_ |
1802110757375049728 |