Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa

Detalhes bibliográficos
Autor(a) principal: Souza, Erick Nilsen Pereira de
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFBA
Texto Completo: http://repositorio.ufba.br/ri/handle/ri/19271
Resumo: A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da di culdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classi cação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE
id UFBA-2_5b51d2ce5a496dddf235b3554f44f5d2
oai_identifier_str oai:repositorio.ufba.br:ri/19271
network_acronym_str UFBA-2
network_name_str Repositório Institucional da UFBA
repository_id_str 1932
spelling Souza, Erick Nilsen Pereira deSouza, Erick Nilsen Pereira deClaro, Daniela BarreiroSalvador, Laís do NascimentoFreitas, Frederico Luiz Gonçalves de2016-05-25T12:52:22Z2016-05-25T12:52:22Z2016-05-252014-07-22http://repositorio.ufba.br/ri/handle/ri/19271A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da di culdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classi cação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOESubmitted by Santos Davilene (davilenes@ufba.br) on 2016-05-25T12:52:22Z No. of bitstreams: 1 erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5)Made available in DSpace on 2016-05-25T12:52:22Z (GMT). No. of bitstreams: 1 erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5)FAPESBCiência da ComputaçãoExtração da informaçãoIsomor smo em subgrafosExtração de relações abertasClassificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisInstituto de Matemática. Departamento de Ciência da ComputaçãoMestrado Multiinstitucional em Ciência da ComputaçãoUFBABrasilinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINALerick_dissertacao_versaofinal.pdferick_dissertacao_versaofinal.pdfapplication/pdf1670283https://repositorio.ufba.br/bitstream/ri/19271/1/erick_dissertacao_versaofinal.pdf3d419d4786be6400c19cb957aa228486MD51LICENSElicense.txtlicense.txttext/plain1345https://repositorio.ufba.br/bitstream/ri/19271/2/license.txt0d4b811ef71182510d2015daa7c8a900MD52TEXTerick_dissertacao_versaofinal.pdf.txterick_dissertacao_versaofinal.pdf.txtExtracted texttext/plain212420https://repositorio.ufba.br/bitstream/ri/19271/3/erick_dissertacao_versaofinal.pdf.txt7395173cf82c5d8c1ea8e68577fd865aMD53ri/192712022-07-12 12:29:19.432oai:repositorio.ufba.br:ri/19271VGVybW8gZGUgTGljZW4/YSwgbj9vIGV4Y2x1c2l2bywgcGFyYSBvIGRlcD9zaXRvIG5vIFJlcG9zaXQ/cmlvIEluc3RpdHVjaW9uYWwgZGEgVUZCQS4KCiBQZWxvIHByb2Nlc3NvIGRlIHN1Ym1pc3M/byBkZSBkb2N1bWVudG9zLCBvIGF1dG9yIG91IHNldSByZXByZXNlbnRhbnRlIGxlZ2FsLCBhbyBhY2VpdGFyIAplc3NlIHRlcm1vIGRlIGxpY2VuP2EsIGNvbmNlZGUgYW8gUmVwb3NpdD9yaW8gSW5zdGl0dWNpb25hbCBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkYSBCYWhpYSAKbyBkaXJlaXRvIGRlIG1hbnRlciB1bWEgYz9waWEgZW0gc2V1IHJlcG9zaXQ/cmlvIGNvbSBhIGZpbmFsaWRhZGUsIHByaW1laXJhLCBkZSBwcmVzZXJ2YT8/by4gCkVzc2VzIHRlcm1vcywgbj9vIGV4Y2x1c2l2b3MsIG1hbnQ/bSBvcyBkaXJlaXRvcyBkZSBhdXRvci9jb3B5cmlnaHQsIG1hcyBlbnRlbmRlIG8gZG9jdW1lbnRvIApjb21vIHBhcnRlIGRvIGFjZXJ2byBpbnRlbGVjdHVhbCBkZXNzYSBVbml2ZXJzaWRhZGUuCgogUGFyYSBvcyBkb2N1bWVudG9zIHB1YmxpY2Fkb3MgY29tIHJlcGFzc2UgZGUgZGlyZWl0b3MgZGUgZGlzdHJpYnVpPz9vLCBlc3NlIHRlcm1vIGRlIGxpY2VuP2EgCmVudGVuZGUgcXVlOgoKIE1hbnRlbmRvIG9zIGRpcmVpdG9zIGF1dG9yYWlzLCByZXBhc3NhZG9zIGEgdGVyY2Vpcm9zLCBlbSBjYXNvIGRlIHB1YmxpY2E/P2VzLCBvIHJlcG9zaXQ/cmlvCnBvZGUgcmVzdHJpbmdpciBvIGFjZXNzbyBhbyB0ZXh0byBpbnRlZ3JhbCwgbWFzIGxpYmVyYSBhcyBpbmZvcm1hPz9lcyBzb2JyZSBvIGRvY3VtZW50bwooTWV0YWRhZG9zIGVzY3JpdGl2b3MpLgoKIERlc3RhIGZvcm1hLCBhdGVuZGVuZG8gYW9zIGFuc2Vpb3MgZGVzc2EgdW5pdmVyc2lkYWRlIGVtIG1hbnRlciBzdWEgcHJvZHU/P28gY2llbnQ/ZmljYSBjb20gCmFzIHJlc3RyaT8/ZXMgaW1wb3N0YXMgcGVsb3MgZWRpdG9yZXMgZGUgcGVyaT9kaWNvcy4KCiBQYXJhIGFzIHB1YmxpY2E/P2VzIHNlbSBpbmljaWF0aXZhcyBxdWUgc2VndWVtIGEgcG9sP3RpY2EgZGUgQWNlc3NvIEFiZXJ0bywgb3MgZGVwP3NpdG9zIApjb21wdWxzP3Jpb3MgbmVzc2UgcmVwb3NpdD9yaW8gbWFudD9tIG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBtYXMgbWFudD9tIGFjZXNzbyBpcnJlc3RyaXRvIAphbyBtZXRhZGFkb3MgZSB0ZXh0byBjb21wbGV0by4gQXNzaW0sIGEgYWNlaXRhPz9vIGRlc3NlIHRlcm1vIG4/byBuZWNlc3NpdGEgZGUgY29uc2VudGltZW50bwogcG9yIHBhcnRlIGRlIGF1dG9yZXMvZGV0ZW50b3JlcyBkb3MgZGlyZWl0b3MsIHBvciBlc3RhcmVtIGVtIGluaWNpYXRpdmFzIGRlIGFjZXNzbyBhYmVydG8uCg==Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322022-07-12T15:29:19Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
title Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
spellingShingle Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
Souza, Erick Nilsen Pereira de
Ciência da Computação
Extração da informação
Isomor smo em subgrafos
Extração de relações abertas
title_short Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
title_full Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
title_fullStr Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
title_full_unstemmed Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
title_sort Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
author Souza, Erick Nilsen Pereira de
author_facet Souza, Erick Nilsen Pereira de
author_role author
dc.contributor.author.fl_str_mv Souza, Erick Nilsen Pereira de
Souza, Erick Nilsen Pereira de
dc.contributor.advisor1.fl_str_mv Claro, Daniela Barreiro
dc.contributor.referee1.fl_str_mv Salvador, Laís do Nascimento
Freitas, Frederico Luiz Gonçalves de
contributor_str_mv Claro, Daniela Barreiro
Salvador, Laís do Nascimento
Freitas, Frederico Luiz Gonçalves de
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Extração da informação
Isomor smo em subgrafos
Extração de relações abertas
dc.subject.por.fl_str_mv Extração da informação
Isomor smo em subgrafos
Extração de relações abertas
description A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da di culdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classi cação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE
publishDate 2014
dc.date.submitted.none.fl_str_mv 2014-07-22
dc.date.accessioned.fl_str_mv 2016-05-25T12:52:22Z
dc.date.available.fl_str_mv 2016-05-25T12:52:22Z
dc.date.issued.fl_str_mv 2016-05-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufba.br/ri/handle/ri/19271
url http://repositorio.ufba.br/ri/handle/ri/19271
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Instituto de Matemática. Departamento de Ciência da Computação
dc.publisher.program.fl_str_mv Mestrado Multiinstitucional em Ciência da Computação
dc.publisher.initials.fl_str_mv UFBA
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Instituto de Matemática. Departamento de Ciência da Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFBA
instname:Universidade Federal da Bahia (UFBA)
instacron:UFBA
instname_str Universidade Federal da Bahia (UFBA)
instacron_str UFBA
institution UFBA
reponame_str Repositório Institucional da UFBA
collection Repositório Institucional da UFBA
bitstream.url.fl_str_mv https://repositorio.ufba.br/bitstream/ri/19271/1/erick_dissertacao_versaofinal.pdf
https://repositorio.ufba.br/bitstream/ri/19271/2/license.txt
https://repositorio.ufba.br/bitstream/ri/19271/3/erick_dissertacao_versaofinal.pdf.txt
bitstream.checksum.fl_str_mv 3d419d4786be6400c19cb957aa228486
0d4b811ef71182510d2015daa7c8a900
7395173cf82c5d8c1ea8e68577fd865a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv
_version_ 1808459513820348416