Extração automática de relações semânticas a partir de dados ruidosos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/13209 |
Resumo: | Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds. |
id |
SCAR_1df2868688b6461bbab7897d2d180e03 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/13209 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Sardinha, Diorge BrognaraCerri, Ricardohttp://lattes.cnpq.br/6266519868438512http://lattes.cnpq.br/937392087785997573a9f2bf-35a0-4e7c-bb6c-5e6d3d5f85842020-09-02T20:07:42Z2020-09-02T20:07:42Z2020-03-09SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13209.https://repositorio.ufscar.br/handle/ufscar/13209Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds.Extração de relações é uma tarefa realizada em sistemas de aprendizado contínuo a partir de fontes textuais, com o objetivo de encontrar relações semânticas entre categorias ou entidades. A NELL é um sistema desse tipo, que encontra problemas na extração de relações devido a suas propriedades de supervisionamento e rotulação. Um dos algoritmos para essa tarefa desenvolvidos para a NELL é o OntExt, que apresenta dificuldades de execução devido a entradas ruidosas e ao seu custo computacional. No entanto, o algoritmo possui propriedades interessantes para o contexto da aplicação, que não estão presentes em outros métodos. Neste trabalho, é proposta uma variante do algoritmo a fim de aliviar as principais deficiências identificadas, que utiliza uma estrutura de grafo, e é flexível para tratamento de outliers. O novo método proposto possui precisão comparável ao existente, e uma revocação maior. Também é apresentada uma forma eficiente de representar o problema através de uma estrutura esparsa, reduzindo o custo computacional da ordem de minutos para segundos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código de Financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessExtração da informaçãoExtração de relaçõesAprendizado contínuoInformation extractionRelationship extractionContinuous learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOExtração automática de relações semânticas a partir de dados ruidososAutomatic relationship extraction from noisy datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600600c997f5ee-db84-40ed-8971-521dd105f2d1reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALdissertacao 2020-09-02.pdfdissertacao 2020-09-02.pdfDissertação mestrado - Diorge Brognara Sardinhaapplication/pdf713865https://repositorio.ufscar.br/bitstream/ufscar/13209/4/dissertacao%202020-09-02.pdf57e46b6144bed1f7dbfbb78784773f9bMD54Carta Comprovante Assinada.pdfCarta Comprovante Assinada.pdfCarta Comprovante Assinada - Mestrado Diorge Brognara Sardinhaapplication/pdf116189https://repositorio.ufscar.br/bitstream/ufscar/13209/5/Carta%20Comprovante%20Assinada.pdfe3c420ac8a546a2d0901e754de39fd1eMD55CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/13209/6/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD56TEXTdissertacao 2020-09-02.pdf.txtdissertacao 2020-09-02.pdf.txtExtracted texttext/plain78818https://repositorio.ufscar.br/bitstream/ufscar/13209/7/dissertacao%202020-09-02.pdf.txt058218e1de22883b6714db894d7255e2MD57Carta Comprovante Assinada.pdf.txtCarta Comprovante Assinada.pdf.txtExtracted texttext/plain1574https://repositorio.ufscar.br/bitstream/ufscar/13209/9/Carta%20Comprovante%20Assinada.pdf.txt837f4ab599b11abe71ea0ed7316c7f3eMD59THUMBNAILdissertacao 2020-09-02.pdf.jpgdissertacao 2020-09-02.pdf.jpgIM Thumbnailimage/jpeg4734https://repositorio.ufscar.br/bitstream/ufscar/13209/8/dissertacao%202020-09-02.pdf.jpge933318fd88789e59e78ecdfdd1b3119MD58Carta Comprovante Assinada.pdf.jpgCarta Comprovante Assinada.pdf.jpgIM Thumbnailimage/jpeg13443https://repositorio.ufscar.br/bitstream/ufscar/13209/10/Carta%20Comprovante%20Assinada.pdf.jpg04da8834edc15afd59b532f74572aee6MD510ufscar/132092023-09-18 18:32:00.185oai:repositorio.ufscar.br:ufscar/13209Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Extração automática de relações semânticas a partir de dados ruidosos |
dc.title.alternative.eng.fl_str_mv |
Automatic relationship extraction from noisy data |
title |
Extração automática de relações semânticas a partir de dados ruidosos |
spellingShingle |
Extração automática de relações semânticas a partir de dados ruidosos Sardinha, Diorge Brognara Extração da informação Extração de relações Aprendizado contínuo Information extraction Relationship extraction Continuous learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Extração automática de relações semânticas a partir de dados ruidosos |
title_full |
Extração automática de relações semânticas a partir de dados ruidosos |
title_fullStr |
Extração automática de relações semânticas a partir de dados ruidosos |
title_full_unstemmed |
Extração automática de relações semânticas a partir de dados ruidosos |
title_sort |
Extração automática de relações semânticas a partir de dados ruidosos |
author |
Sardinha, Diorge Brognara |
author_facet |
Sardinha, Diorge Brognara |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/9373920877859975 |
dc.contributor.author.fl_str_mv |
Sardinha, Diorge Brognara |
dc.contributor.advisor1.fl_str_mv |
Cerri, Ricardo |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6266519868438512 |
dc.contributor.authorID.fl_str_mv |
73a9f2bf-35a0-4e7c-bb6c-5e6d3d5f8584 |
contributor_str_mv |
Cerri, Ricardo |
dc.subject.por.fl_str_mv |
Extração da informação Extração de relações Aprendizado contínuo |
topic |
Extração da informação Extração de relações Aprendizado contínuo Information extraction Relationship extraction Continuous learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Information extraction Relationship extraction Continuous learning |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
Relationship extraction is a task performed in text-based continuous learning systems, aiming to find semantic relationships between categories or entities. NELL is such a system, which suffers from supervised labeling in its relationship extraction. One of the algorithms attempting to solve this task for NELL is OntExt, but it does not handle noisy input very well, and is computationally expensive. However this algorithm has interesting properties in the context of NELL’s application, not available in other methods. In this work, it is proposed a variant of the algorithm to reduce the impact of its flaws, using a graph-based representation, which is flexible in the handling of outliers. This new method has a comparable precision and higher recall, compared to the existing method. It is also shown an efficient way to represent the problem using sparse structures, reducing the computational cost from minutes to seconds. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-09-02T20:07:42Z |
dc.date.available.fl_str_mv |
2020-09-02T20:07:42Z |
dc.date.issued.fl_str_mv |
2020-03-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13209. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/13209 |
identifier_str_mv |
SARDINHA, Diorge Brognara. Extração automática de relações semânticas a partir de dados ruidosos. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/13209. |
url |
https://repositorio.ufscar.br/handle/ufscar/13209 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
c997f5ee-db84-40ed-8971-521dd105f2d1 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/13209/4/dissertacao%202020-09-02.pdf https://repositorio.ufscar.br/bitstream/ufscar/13209/5/Carta%20Comprovante%20Assinada.pdf https://repositorio.ufscar.br/bitstream/ufscar/13209/6/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/13209/7/dissertacao%202020-09-02.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/13209/9/Carta%20Comprovante%20Assinada.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/13209/8/dissertacao%202020-09-02.pdf.jpg https://repositorio.ufscar.br/bitstream/ufscar/13209/10/Carta%20Comprovante%20Assinada.pdf.jpg |
bitstream.checksum.fl_str_mv |
57e46b6144bed1f7dbfbb78784773f9b e3c420ac8a546a2d0901e754de39fd1e e39d27027a6cc9cb039ad269a5db8e34 058218e1de22883b6714db894d7255e2 837f4ab599b11abe71ea0ed7316c7f3e e933318fd88789e59e78ecdfdd1b3119 04da8834edc15afd59b532f74572aee6 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715620817010688 |