Evaluation of methods for taxonomic relation extraction from text
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/7108 |
Resumo: | Sistemas de informação modernos têm mudado a ideia “processamento de dados” para a ideia de “processamento de conceitos”, assim, ao invés de processarem palavras, tais sistemas fazem o processamento de conceitos que contêm ignificado e que compartilham contextos com outros contextos. Ontologias são normalmente utilizadas como uma estrutura que captura o conhecimento a cerca de uma certa área, provendo conceitos e relações entre tais conceitos. Tradicionalmente, hierarquias de conceitos são construídas manualmente por engenheiros do conhecimento ou especialistas do domínio. Entretanto, este tipo de construção sofre com diversas limitações, tais como, cobertura e o alto custo de extensão e manutenção. Assim, se faz necessária a construção de tais estruturas automaticamente. O suporte (semi-)automatico no desenvolvimento de ontologias é comumente referenciado como aprendizagem de ontologias e é normalmente dividido em etapas, como identificação de conceitos, detecção de relações hierarquicas e não hierarquicas, e extração de axiomas. É razoável dizer que entre tais passos a fronteira está no estabelecimento de hierarquias de conceitos, pois é a espinha dorsal das ontologias e, por consequência, uma boa hierarquia de conceitos é um recurso válido para várias aplicações de ontologias. Hierarquias de conceitos são representadas por estruturas em árvore com relacionamentos de especialização/generalização, onde conceitos nos níveis mais baixos são mais específicos e conceitos nos níveis mais altos são mais gerais. A construção automática de tais hierarquias é uma tarefa complexa e desde a década de 80 muitos trabalhos têm proposto melhores formas para fazer a extração de relações entre conceitos. Estas propostas nunca foram contrastadas usando um mesmo conjunto de dados. Tal comparação é importante para ver se os métodos são complementares ou incrementais, bem como se apresentam diferentes tendências em relação à precisão e abrangência, i.e., alguns podem ser bastante precisos e ter uma baixa abrangência enquanto outros têm uma abrangência melhor porém com uma baixa precisão. Outro aspecto refere-se à variação dos resultados em diferentes línguas. Esta tese avalia os métodos utilizando métricas de hierarquias como densidade e profundidade, e métricas de evaliação como precisão e abrangência. A avaliação é realizada utilizando o mesmo corpora, consistindo de textos paralelos e comparáveis em inglês e português. São realizadas avaliações automática e manual, sendo a saída de sete métodos avaliados automaticamente e quatro manualmente. Os resultados dão uma luz sobre a abrangência dos métodos que são utilizados no estado da arte de acordo com a literatura. |
id |
P_RS_d7fc39d895802a2a7df9f9bc75d10727 |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/7108 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Vieira, Renata451.334.330-34http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782140T7Aussenac-Gilles, NathalieSantos, Cássia Trojahn doshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4770599U0961.884.300-97http://buscatextual.cnpq.br/buscatextual/busca.doGranada, Roger Leitzke2016-12-26T16:34:57Z2015-09-28http://tede2.pucrs.br/tede2/handle/tede/7108Sistemas de informação modernos têm mudado a ideia “processamento de dados” para a ideia de “processamento de conceitos”, assim, ao invés de processarem palavras, tais sistemas fazem o processamento de conceitos que contêm ignificado e que compartilham contextos com outros contextos. Ontologias são normalmente utilizadas como uma estrutura que captura o conhecimento a cerca de uma certa área, provendo conceitos e relações entre tais conceitos. Tradicionalmente, hierarquias de conceitos são construídas manualmente por engenheiros do conhecimento ou especialistas do domínio. Entretanto, este tipo de construção sofre com diversas limitações, tais como, cobertura e o alto custo de extensão e manutenção. Assim, se faz necessária a construção de tais estruturas automaticamente. O suporte (semi-)automatico no desenvolvimento de ontologias é comumente referenciado como aprendizagem de ontologias e é normalmente dividido em etapas, como identificação de conceitos, detecção de relações hierarquicas e não hierarquicas, e extração de axiomas. É razoável dizer que entre tais passos a fronteira está no estabelecimento de hierarquias de conceitos, pois é a espinha dorsal das ontologias e, por consequência, uma boa hierarquia de conceitos é um recurso válido para várias aplicações de ontologias. Hierarquias de conceitos são representadas por estruturas em árvore com relacionamentos de especialização/generalização, onde conceitos nos níveis mais baixos são mais específicos e conceitos nos níveis mais altos são mais gerais. A construção automática de tais hierarquias é uma tarefa complexa e desde a década de 80 muitos trabalhos têm proposto melhores formas para fazer a extração de relações entre conceitos. Estas propostas nunca foram contrastadas usando um mesmo conjunto de dados. Tal comparação é importante para ver se os métodos são complementares ou incrementais, bem como se apresentam diferentes tendências em relação à precisão e abrangência, i.e., alguns podem ser bastante precisos e ter uma baixa abrangência enquanto outros têm uma abrangência melhor porém com uma baixa precisão. Outro aspecto refere-se à variação dos resultados em diferentes línguas. Esta tese avalia os métodos utilizando métricas de hierarquias como densidade e profundidade, e métricas de evaliação como precisão e abrangência. A avaliação é realizada utilizando o mesmo corpora, consistindo de textos paralelos e comparáveis em inglês e português. São realizadas avaliações automática e manual, sendo a saída de sete métodos avaliados automaticamente e quatro manualmente. Os resultados dão uma luz sobre a abrangência dos métodos que são utilizados no estado da arte de acordo com a literatura.Modern information systems are changing the idea of “data processing” to the idea of “concept processing”, meaning that instead of processing words, such systems process semantic concepts which carry meaning and share contexts with other concepts. Ontology is commonly used as a structure that captures the knowledge about a certain area via providing concepts and relations between them. Traditionally, concept hierarchies have been built manually by knowledge engineers or domain experts. However, the manual construction of a concept hierarchy suffers from several limitations such as its coverage and the enormous costs of extension and maintenance. Furthermore, keeping up with a hand-crafted concept hierarchy along with the evolution of domain knowledge is an overwhelming task, being necessary to build concept hierarchies automatically. The (semi-)automatic support in ontology development is usually referred to as ontology learning. The ontology learning from texts is usually divided in steps, going from concepts identification, passing through hierarchy and non-hierarchy relations detection and, seldom, axiom extraction. It is reasonable to say that among these steps the current frontier is in the establishment of concept hierarchies, since this is the backbone of ontologies and, therefore, a good concept hierarchy is already a valuable resource for many ontology applications. A concept hierarchy is represented with a tree-structured form with specialization/generalization relations between concepts, in which lower-level concepts are more specific while higher-level are more general. The automatic construction of concept hierarchies from texts is a complex task and since the 1980 decade a large number of works have been proposing approaches to better extract relations between concepts. These different proposals have never been contrasted against each other on the same set of data and across different languages. Such comparison is important to see whether they are complementary or incremental, also we can see whether they present different tendencies towards recall and precision, i.e., some can be very precise but with very low recall and others can achieve better recall but low precision. Another aspect concerns to the variation of results for different languages. This thesis evaluates these different methods on the basis of hierarchy metrics such as density and depth, and evaluation metrics such as Recall and Precision. The evaluation is performed over the same corpora, which consist of English and Portuguese parallel and comparable texts. Both automatic and manual evaluations are presented. The output of seven methods are evaluated automatically and the output of four methods are evaluated manually. Results shed light over the comprehensive set of methods that are the state of the art according to the literature in the area.Submitted by Setor de Tratamento da Informação - BC/PUCRS (tede2@pucrs.br) on 2016-12-26T16:34:57Z No. of bitstreams: 1 TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf: 2483840 bytes, checksum: 8f81d3f0496d8fa8d3a1b013dfdf932b (MD5)Made available in DSpace on 2016-12-26T16:34:57Z (GMT). No. of bitstreams: 1 TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf: 2483840 bytes, checksum: 8f81d3f0496d8fa8d3a1b013dfdf932b (MD5) Previous issue date: 2015-09-28Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/167062/TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilFaculdade de InformáticaONTOLOGIAPROCESSAMENTO DA LINGUAGEM NATURALINFORMÁTICACIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEvaluation of methods for taxonomic relation extraction from textAvaliação de métodos para extração automática de relações a partir de textosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis1974996533081274470600600600600-300854251040114914436717112058112045092075167498588264571info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILTES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.jpgTES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.jpgimage/jpeg3709http://tede2.pucrs.br/tede2/bitstream/tede/7108/5/TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.jpg7327fbd299010da66468e7fb05ef0072MD55TEXTTES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.txtTES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.txttext/plain345357http://tede2.pucrs.br/tede2/bitstream/tede/7108/4/TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.txtfa9d604ab95912d5f5671245da2a79a7MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-8610http://tede2.pucrs.br/tede2/bitstream/tede/7108/3/license.txt5a9d6006225b368ef605ba16b4f6d1beMD53ORIGINALTES_ROGER_LEITZKE_GRANADA_COMPLETO.pdfTES_ROGER_LEITZKE_GRANADA_COMPLETO.pdfapplication/pdf2483840http://tede2.pucrs.br/tede2/bitstream/tede/7108/2/TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf8f81d3f0496d8fa8d3a1b013dfdf932bMD52tede/71082016-12-26 20:00:39.066oai:tede2.pucrs.br:tede/7108QXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBFbGV0csO0bmljYTogQ29tIGJhc2Ugbm8gZGlzcG9zdG8gbmEgTGVpIEZlZGVyYWwgbsK6OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYcOnw6NvIGVsZXRyw7RuaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWbDrWNpYSBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRvIFJpbyBHcmFuZGUgZG8gU3VsLCBzZWRpYWRhIGEgQXYuIElwaXJhbmdhIDY2ODEsIFBvcnRvIEFsZWdyZSwgUmlvIEdyYW5kZSBkbyBTdWwsIGNvbSByZWdpc3RybyBkZSBDTlBKIDg4NjMwNDEzMDAwMi04MSBiZW0gY29tbyBlbSBvdXRyYXMgYmlibGlvdGVjYXMgZGlnaXRhaXMsIG5hY2lvbmFpcyBlIGludGVybmFjaW9uYWlzLCBjb25zw7NyY2lvcyBlIHJlZGVzIMOgcyBxdWFpcyBhIGJpYmxpb3RlY2EgZGEgUFVDUlMgcG9zc2EgYSB2aXIgcGFydGljaXBhciwgc2VtIMO0bnVzIGFsdXNpdm8gYW9zIGRpcmVpdG9zIGF1dG9yYWlzLCBhIHTDrXR1bG8gZGUgZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2016-12-26T22:00:39Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Evaluation of methods for taxonomic relation extraction from text |
dc.title.alternative.por.fl_str_mv |
Avaliação de métodos para extração automática de relações a partir de textos |
title |
Evaluation of methods for taxonomic relation extraction from text |
spellingShingle |
Evaluation of methods for taxonomic relation extraction from text Granada, Roger Leitzke ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL INFORMÁTICA CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Evaluation of methods for taxonomic relation extraction from text |
title_full |
Evaluation of methods for taxonomic relation extraction from text |
title_fullStr |
Evaluation of methods for taxonomic relation extraction from text |
title_full_unstemmed |
Evaluation of methods for taxonomic relation extraction from text |
title_sort |
Evaluation of methods for taxonomic relation extraction from text |
author |
Granada, Roger Leitzke |
author_facet |
Granada, Roger Leitzke |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Vieira, Renata |
dc.contributor.advisor1ID.fl_str_mv |
451.334.330-34 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4782140T7 |
dc.contributor.advisor2.fl_str_mv |
Aussenac-Gilles, Nathalie |
dc.contributor.advisor-co1.fl_str_mv |
Santos, Cássia Trojahn dos |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4770599U0 |
dc.contributor.authorID.fl_str_mv |
961.884.300-97 |
dc.contributor.authorLattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/busca.do |
dc.contributor.author.fl_str_mv |
Granada, Roger Leitzke |
contributor_str_mv |
Vieira, Renata Aussenac-Gilles, Nathalie Santos, Cássia Trojahn dos |
dc.subject.por.fl_str_mv |
ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL INFORMÁTICA |
topic |
ONTOLOGIA PROCESSAMENTO DA LINGUAGEM NATURAL INFORMÁTICA CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Sistemas de informação modernos têm mudado a ideia “processamento de dados” para a ideia de “processamento de conceitos”, assim, ao invés de processarem palavras, tais sistemas fazem o processamento de conceitos que contêm ignificado e que compartilham contextos com outros contextos. Ontologias são normalmente utilizadas como uma estrutura que captura o conhecimento a cerca de uma certa área, provendo conceitos e relações entre tais conceitos. Tradicionalmente, hierarquias de conceitos são construídas manualmente por engenheiros do conhecimento ou especialistas do domínio. Entretanto, este tipo de construção sofre com diversas limitações, tais como, cobertura e o alto custo de extensão e manutenção. Assim, se faz necessária a construção de tais estruturas automaticamente. O suporte (semi-)automatico no desenvolvimento de ontologias é comumente referenciado como aprendizagem de ontologias e é normalmente dividido em etapas, como identificação de conceitos, detecção de relações hierarquicas e não hierarquicas, e extração de axiomas. É razoável dizer que entre tais passos a fronteira está no estabelecimento de hierarquias de conceitos, pois é a espinha dorsal das ontologias e, por consequência, uma boa hierarquia de conceitos é um recurso válido para várias aplicações de ontologias. Hierarquias de conceitos são representadas por estruturas em árvore com relacionamentos de especialização/generalização, onde conceitos nos níveis mais baixos são mais específicos e conceitos nos níveis mais altos são mais gerais. A construção automática de tais hierarquias é uma tarefa complexa e desde a década de 80 muitos trabalhos têm proposto melhores formas para fazer a extração de relações entre conceitos. Estas propostas nunca foram contrastadas usando um mesmo conjunto de dados. Tal comparação é importante para ver se os métodos são complementares ou incrementais, bem como se apresentam diferentes tendências em relação à precisão e abrangência, i.e., alguns podem ser bastante precisos e ter uma baixa abrangência enquanto outros têm uma abrangência melhor porém com uma baixa precisão. Outro aspecto refere-se à variação dos resultados em diferentes línguas. Esta tese avalia os métodos utilizando métricas de hierarquias como densidade e profundidade, e métricas de evaliação como precisão e abrangência. A avaliação é realizada utilizando o mesmo corpora, consistindo de textos paralelos e comparáveis em inglês e português. São realizadas avaliações automática e manual, sendo a saída de sete métodos avaliados automaticamente e quatro manualmente. Os resultados dão uma luz sobre a abrangência dos métodos que são utilizados no estado da arte de acordo com a literatura. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-09-28 |
dc.date.accessioned.fl_str_mv |
2016-12-26T16:34:57Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/7108 |
url |
http://tede2.pucrs.br/tede2/handle/tede/7108 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.program.fl_str_mv |
1974996533081274470 |
dc.relation.confidence.fl_str_mv |
600 600 600 600 |
dc.relation.department.fl_str_mv |
-3008542510401149144 |
dc.relation.cnpq.fl_str_mv |
3671711205811204509 |
dc.relation.sponsorship.fl_str_mv |
2075167498588264571 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Faculdade de Informática |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/7108/5/TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/7108/4/TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/7108/3/license.txt http://tede2.pucrs.br/tede2/bitstream/tede/7108/2/TES_ROGER_LEITZKE_GRANADA_COMPLETO.pdf |
bitstream.checksum.fl_str_mv |
7327fbd299010da66468e7fb05ef0072 fa9d604ab95912d5f5671245da2a79a7 5a9d6006225b368ef605ba16b4f6d1be 8f81d3f0496d8fa8d3a1b013dfdf932b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765323430232064 |