Extração automática de relações semânticas a partir de dados ruidosos

Detalhes bibliográficos
Autor(a) principal: Sardinha, Diorge Brognara
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/13209
Resumo: Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds.
id SCAR_1df2868688b6461bbab7897d2d180e03
oai_identifier_str oai:repositorio.ufscar.br:ufscar/13209
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Sardinha, Diorge BrognaraCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/937392087785997573a9f2bf-35a0-4e7c-bb6c-5e6d3d5f85842020-09-02T20:07:42Z2020-09-02T20:07:42Z2020-03-09SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13209.https://repositorio.ufscar.br/handle/ufscar/13209Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds.Extração de relações é uma tarefa realizada em sistemas de aprendizado contínuo a partir de fontes textuais, com o objetivo de encontrar relações semânticas entre categorias ou entidades. A NELL é um sistema desse tipo, que encontra problemas na extração de relações devido a suas propriedades de supervisionamento e rotulação. Um dos algoritmos para essa tarefa desenvolvidos para a NELL é o OntExt, que apresenta dificuldades de execução devido a entradas ruidosas e ao seu custo computacional. No entanto, o algoritmo possui propriedades interessantes para o contexto da aplicação, que não estão presentes em outros métodos. Neste trabalho, é proposta uma variante do algoritmo a fim de aliviar as principais deficiências identificadas, que utiliza uma estrutura de grafo, e é flexível para tratamento de outliers. O novo método proposto possui precisão comparável ao existente, e uma revocação maior. Também é apresentada uma forma eficiente de representar o problema através de uma estrutura esparsa, reduzindo o custo computacional da ordem de minutos para segundos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessExtração da informaçãoExtração de relaçõesAprendizado contínuoInformation extractionRelationship extractionContinuous learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOExtração automática de relações semânticas a partir de dados ruidososAutomatic relationship extraction from noisy datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertacao 2020-09-02.pdfdissertacao 2020-09-02.pdfDissertação mestrado - Diorge Brognara Sardinhaapplication/pdf713865https://repositorio.ufscar.br/bitstream/ufscar/13209/4/dissertacao%202020-09-02.pdf57e46b6144bed1f7dbfbb78784773f9bMD54Carta Comprovante Assinada.pdfCarta Comprovante Assinada.pdfCarta Comprovante Assinada - Mestrado Diorge Brognara Sardinhaapplication/pdf116189https://repositorio.ufscar.br/bitstream/ufscar/13209/5/Carta%20Comprovante%20Assinada.pdfe3c420ac8a546a2d0901e754de39fd1eMD55CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/13209/6/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD56TEXTdissertacao 2020-09-02.pdf.txtdissertacao 2020-09-02.pdf.txtExtracted texttext/plain78818https://repositorio.ufscar.br/bitstream/ufscar/13209/7/dissertacao%202020-09-02.pdf.txt058218e1de22883b6714db894d7255e2MD57Carta Comprovante Assinada.pdf.txtCarta Comprovante Assinada.pdf.txtExtracted texttext/plain1574https://repositorio.ufscar.br/bitstream/ufscar/13209/9/Carta%20Comprovante%20Assinada.pdf.txt837f4ab599b11abe71ea0ed7316c7f3eMD59THUMBNAILdissertacao 2020-09-02.pdf.jpgdissertacao 2020-09-02.pdf.jpgIM Thumbnailimage/jpeg4734https://repositorio.ufscar.br/bitstream/ufscar/13209/8/dissertacao%202020-09-02.pdf.jpge933318fd88789e59e78ecdfdd1b3119MD58Carta Comprovante Assinada.pdf.jpgCarta Comprovante Assinada.pdf.jpgIM Thumbnailimage/jpeg13443https://repositorio.ufscar.br/bitstream/ufscar/13209/10/Carta%20Comprovante%20Assinada.pdf.jpg04da8834edc15afd59b532f74572aee6MD510ufscar/132092023-09-18 18:32:00.185oai:repositorio.ufscar.br:ufscar/13209Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Extração automática de relações semânticas a partir de dados ruidosos
dc.title.alternative.eng.fl_str_mv Automatic relationship extraction from noisy data
title Extração automática de relações semânticas a partir de dados ruidosos
spellingShingle Extração automática de relações semânticas a partir de dados ruidosos
Sardinha, Diorge Brognara
Extração da informação
Extração de relações
Aprendizado contínuo
Information extraction
Relationship extraction
Continuous learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Extração automática de relações semânticas a partir de dados ruidosos
title_full Extração automática de relações semânticas a partir de dados ruidosos
title_fullStr Extração automática de relações semânticas a partir de dados ruidosos
title_full_unstemmed Extração automática de relações semânticas a partir de dados ruidosos
title_sort Extração automática de relações semânticas a partir de dados ruidosos
author Sardinha, Diorge Brognara
author_facet Sardinha, Diorge Brognara
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/9373920877859975
dc.contributor.author.fl_str_mv Sardinha, Diorge Brognara
dc.contributor.advisor1.fl_str_mv Cerri, Ricardo
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6266519868438512
dc.contributor.authorID.fl_str_mv 73a9f2bf-35a0-4e7c-bb6c-5e6d3d5f8584
contributor_str_mv Cerri, Ricardo
dc.subject.por.fl_str_mv Extração da informação
Extração de relações
Aprendizado contínuo
topic Extração da informação
Extração de relações
Aprendizado contínuo
Information extraction
Relationship extraction
Continuous learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Information extraction
Relationship extraction
Continuous learning
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-09-02T20:07:42Z
dc.date.available.fl_str_mv 2020-09-02T20:07:42Z
dc.date.issued.fl_str_mv 2020-03-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13209.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/13209
identifier_str_mv SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13209.
url https://repositorio.ufscar.br/handle/ufscar/13209
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv c997f5ee-db84-40ed-8971-521dd105f2d1
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/13209/4/dissertacao%202020-09-02.pdf
https://repositorio.ufscar.br/bitstream/ufscar/13209/5/Carta%20Comprovante%20Assinada.pdf
https://repositorio.ufscar.br/bitstream/ufscar/13209/6/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/13209/7/dissertacao%202020-09-02.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/13209/9/Carta%20Comprovante%20Assinada.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/13209/8/dissertacao%202020-09-02.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/13209/10/Carta%20Comprovante%20Assinada.pdf.jpg
bitstream.checksum.fl_str_mv 57e46b6144bed1f7dbfbb78784773f9b
e3c420ac8a546a2d0901e754de39fd1e
e39d27027a6cc9cb039ad269a5db8e34
058218e1de22883b6714db894d7255e2
837f4ab599b11abe71ea0ed7316c7f3e
e933318fd88789e59e78ecdfdd1b3119
04da8834edc15afd59b532f74572aee6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136379514159104