Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFBA |
Texto Completo: | http://repositorio.ufba.br/ri/handle/ri/19271 |
Resumo: | A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da di culdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classi cação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE |
id |
UFBA-2_5b51d2ce5a496dddf235b3554f44f5d2 |
---|---|
oai_identifier_str |
oai:repositorio.ufba.br:ri/19271 |
network_acronym_str |
UFBA-2 |
network_name_str |
Repositório Institucional da UFBA |
repository_id_str |
1932 |
spelling |
Souza, Erick Nilsen Pereira deSouza, Erick Nilsen Pereira deClaro, Daniela BarreiroSalvador, Laís do NascimentoFreitas, Frederico Luiz Gonçalves de2016-05-25T12:52:22Z2016-05-25T12:52:22Z2016-05-252014-07-22http://repositorio.ufba.br/ri/handle/ri/19271A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da di culdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classi cação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOESubmitted by Santos Davilene (davilenes@ufba.br) on 2016-05-25T12:52:22Z No. of bitstreams: 1 erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5)Made available in DSpace on 2016-05-25T12:52:22Z (GMT). No. of bitstreams: 1 erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5)FAPESBCiência da ComputaçãoExtração da informaçãoIsomor smo em subgrafosExtração de relações abertasClassificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisInstituto de Matemática. Departamento de Ciência da ComputaçãoMestrado Multiinstitucional em Ciência da ComputaçãoUFBABrasilinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBAORIGINALerick_dissertacao_versaofinal.pdferick_dissertacao_versaofinal.pdfapplication/pdf1670283https://repositorio.ufba.br/bitstream/ri/19271/1/erick_dissertacao_versaofinal.pdf3d419d4786be6400c19cb957aa228486MD51LICENSElicense.txtlicense.txttext/plain1345https://repositorio.ufba.br/bitstream/ri/19271/2/license.txt0d4b811ef71182510d2015daa7c8a900MD52TEXTerick_dissertacao_versaofinal.pdf.txterick_dissertacao_versaofinal.pdf.txtExtracted texttext/plain212420https://repositorio.ufba.br/bitstream/ri/19271/3/erick_dissertacao_versaofinal.pdf.txt7395173cf82c5d8c1ea8e68577fd865aMD53ri/192712022-07-12 12:29:19.432oai:repositorio.ufba.br:ri/19271VGVybW8gZGUgTGljZW4/YSwgbj9vIGV4Y2x1c2l2bywgcGFyYSBvIGRlcD9zaXRvIG5vIFJlcG9zaXQ/cmlvIEluc3RpdHVjaW9uYWwgZGEgVUZCQS4KCiBQZWxvIHByb2Nlc3NvIGRlIHN1Ym1pc3M/byBkZSBkb2N1bWVudG9zLCBvIGF1dG9yIG91IHNldSByZXByZXNlbnRhbnRlIGxlZ2FsLCBhbyBhY2VpdGFyIAplc3NlIHRlcm1vIGRlIGxpY2VuP2EsIGNvbmNlZGUgYW8gUmVwb3NpdD9yaW8gSW5zdGl0dWNpb25hbCBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkYSBCYWhpYSAKbyBkaXJlaXRvIGRlIG1hbnRlciB1bWEgYz9waWEgZW0gc2V1IHJlcG9zaXQ/cmlvIGNvbSBhIGZpbmFsaWRhZGUsIHByaW1laXJhLCBkZSBwcmVzZXJ2YT8/by4gCkVzc2VzIHRlcm1vcywgbj9vIGV4Y2x1c2l2b3MsIG1hbnQ/bSBvcyBkaXJlaXRvcyBkZSBhdXRvci9jb3B5cmlnaHQsIG1hcyBlbnRlbmRlIG8gZG9jdW1lbnRvIApjb21vIHBhcnRlIGRvIGFjZXJ2byBpbnRlbGVjdHVhbCBkZXNzYSBVbml2ZXJzaWRhZGUuCgogUGFyYSBvcyBkb2N1bWVudG9zIHB1YmxpY2Fkb3MgY29tIHJlcGFzc2UgZGUgZGlyZWl0b3MgZGUgZGlzdHJpYnVpPz9vLCBlc3NlIHRlcm1vIGRlIGxpY2VuP2EgCmVudGVuZGUgcXVlOgoKIE1hbnRlbmRvIG9zIGRpcmVpdG9zIGF1dG9yYWlzLCByZXBhc3NhZG9zIGEgdGVyY2Vpcm9zLCBlbSBjYXNvIGRlIHB1YmxpY2E/P2VzLCBvIHJlcG9zaXQ/cmlvCnBvZGUgcmVzdHJpbmdpciBvIGFjZXNzbyBhbyB0ZXh0byBpbnRlZ3JhbCwgbWFzIGxpYmVyYSBhcyBpbmZvcm1hPz9lcyBzb2JyZSBvIGRvY3VtZW50bwooTWV0YWRhZG9zIGVzY3JpdGl2b3MpLgoKIERlc3RhIGZvcm1hLCBhdGVuZGVuZG8gYW9zIGFuc2Vpb3MgZGVzc2EgdW5pdmVyc2lkYWRlIGVtIG1hbnRlciBzdWEgcHJvZHU/P28gY2llbnQ/ZmljYSBjb20gCmFzIHJlc3RyaT8/ZXMgaW1wb3N0YXMgcGVsb3MgZWRpdG9yZXMgZGUgcGVyaT9kaWNvcy4KCiBQYXJhIGFzIHB1YmxpY2E/P2VzIHNlbSBpbmljaWF0aXZhcyBxdWUgc2VndWVtIGEgcG9sP3RpY2EgZGUgQWNlc3NvIEFiZXJ0bywgb3MgZGVwP3NpdG9zIApjb21wdWxzP3Jpb3MgbmVzc2UgcmVwb3NpdD9yaW8gbWFudD9tIG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBtYXMgbWFudD9tIGFjZXNzbyBpcnJlc3RyaXRvIAphbyBtZXRhZGFkb3MgZSB0ZXh0byBjb21wbGV0by4gQXNzaW0sIGEgYWNlaXRhPz9vIGRlc3NlIHRlcm1vIG4/byBuZWNlc3NpdGEgZGUgY29uc2VudGltZW50bwogcG9yIHBhcnRlIGRlIGF1dG9yZXMvZGV0ZW50b3JlcyBkb3MgZGlyZWl0b3MsIHBvciBlc3RhcmVtIGVtIGluaWNpYXRpdmFzIGRlIGFjZXNzbyBhYmVydG8uCg==Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322022-07-12T15:29:19Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false |
dc.title.pt_BR.fl_str_mv |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa |
title |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa |
spellingShingle |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa Souza, Erick Nilsen Pereira de Ciência da Computação Extração da informação Isomor smo em subgrafos Extração de relações abertas |
title_short |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa |
title_full |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa |
title_fullStr |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa |
title_full_unstemmed |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa |
title_sort |
Classificação de relações semânticas abertas baseada em similaridade de estruturas gramaticais na língua portuguesa |
author |
Souza, Erick Nilsen Pereira de |
author_facet |
Souza, Erick Nilsen Pereira de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Souza, Erick Nilsen Pereira de Souza, Erick Nilsen Pereira de |
dc.contributor.advisor1.fl_str_mv |
Claro, Daniela Barreiro |
dc.contributor.referee1.fl_str_mv |
Salvador, Laís do Nascimento Freitas, Frederico Luiz Gonçalves de |
contributor_str_mv |
Claro, Daniela Barreiro Salvador, Laís do Nascimento Freitas, Frederico Luiz Gonçalves de |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
topic |
Ciência da Computação Extração da informação Isomor smo em subgrafos Extração de relações abertas |
dc.subject.por.fl_str_mv |
Extração da informação Isomor smo em subgrafos Extração de relações abertas |
description |
A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da di culdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classi cação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE |
publishDate |
2014 |
dc.date.submitted.none.fl_str_mv |
2014-07-22 |
dc.date.accessioned.fl_str_mv |
2016-05-25T12:52:22Z |
dc.date.available.fl_str_mv |
2016-05-25T12:52:22Z |
dc.date.issued.fl_str_mv |
2016-05-25 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://repositorio.ufba.br/ri/handle/ri/19271 |
url |
http://repositorio.ufba.br/ri/handle/ri/19271 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Instituto de Matemática. Departamento de Ciência da Computação |
dc.publisher.program.fl_str_mv |
Mestrado Multiinstitucional em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UFBA |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Instituto de Matemática. Departamento de Ciência da Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFBA instname:Universidade Federal da Bahia (UFBA) instacron:UFBA |
instname_str |
Universidade Federal da Bahia (UFBA) |
instacron_str |
UFBA |
institution |
UFBA |
reponame_str |
Repositório Institucional da UFBA |
collection |
Repositório Institucional da UFBA |
bitstream.url.fl_str_mv |
https://repositorio.ufba.br/bitstream/ri/19271/1/erick_dissertacao_versaofinal.pdf https://repositorio.ufba.br/bitstream/ri/19271/2/license.txt https://repositorio.ufba.br/bitstream/ri/19271/3/erick_dissertacao_versaofinal.pdf.txt |
bitstream.checksum.fl_str_mv |
3d419d4786be6400c19cb957aa228486 0d4b811ef71182510d2015daa7c8a900 7395173cf82c5d8c1ea8e68577fd865a |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA) |
repository.mail.fl_str_mv |
|
_version_ |
1808459513820348416 |