A tool for ontology instance matching

Detalhes bibliográficos
Autor(a) principal: Lopes, André Filipe Agostinho
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/9966
Resumo: Tese de mestrado em Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013
id RCAP_cc098966b088a1e2448a741ba6e566bf
oai_identifier_str oai:repositorio.ul.pt:10451/9966
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling A tool for ontology instance matchingWeb semânticaOntologiasEmparelhamento de ontologiasEmparelhamento de exemplaresEmparelhamento de cadeia de caracteresAprendizagem automáticaTese de mestrado em Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013A Web Semântica pretende fornecer formatos comuns para caracterizar semanticamente os dados publicados na Web, melhorando a interoperabilidade e integração de dados. A iniciativa Linked Data visa ligar dados relacionados que não foram previamente ligados. As ontologias têm um papel fundamental nisso, pois, fornecem vocabulários controlados, para caracterizar semanticamente os dados de uma forma inequívoca. Conforme definido por Gruber, uma ontologia é uma especificação de uma conceituação, que se destina a modelar um domínio em particular. A especificação de uma ontologia é composto por dois tipos de declarações: TBox (classes) e ABox (exemplares). TBox são classes que são interpretadas como um conjunto de indivíduos no domínio; ABox são exemplares que são interpretados como indivíduos particulares de um domínio. Al´em disso, uma ontologia também é composta por: Relacionamentos ou relações entre classes e/ou exemplares; Tipos de dados são partes particulares do domínio que especificam valores; Valores de dados são valores simples. Apesar de uma ontologia se destinar a modelar um domínio em particular, existem muitas ontologias de diferentes fontes a modelar o mesmo domínio, isto é, existe um problema de sobreposição. O problema de sobreposição consiste em ontologias distintas que representam as mesmas entidades de uma forma diferente. É, portanto, necessário criar processos capazes de encontrar as sobreposições e fundi-las. Emparelhamento de ontologias é geralmente aplicado para alinhar duas TBox de duas ontologias diferentes, ou seja, para encontrar relações ou correspondências entre as classes ontológicas. Há um caso particular de emparelhamento de ontologias, o Emparelhamento de Exemplares. O objetivo do emparelhamento de exemplares é alinhar dois ABox de duas ontologias diferentes, ou seja, encontrar as correspondências entre exemplares de diferentes ontologias. O Emparelhamento de Exemplares adota o princípio de que, quanto maior for a semelhança entre duas descriçõees de exemplares de duas ontologias distintas, maior é a probabilidade de estes exemplares representarem a mesma entidade de um determinado domínio. Por exemplo, no domínio político, vamos considerar o actual Presidente da Comissão Europeia, Durão Barroso e assumir que na Ontologia 1 tem um exemplar com o descritor: “José Manuel Durão Barroso”, e Ontologia 2 tem um exemplar com o descritor: “José Durão Barroso”. Portanto, é necessário implementar técnicas de emparelhamento de exemplares, para descobrir se estes dois exemplares destas duas ontologias diferentes correspondem à mesma pessoa/entidade, isto é, se eles emparelham. Os objectivos desta dissertação eram: Desenvolvimento de algoritmos de emparelhamento de exemplares que visou o desenvolvimento de algoritmos para o emparelhamento de ontologias ao nível dos seus exemplares, de forma a resolver problemas de emparelhamento de exemplares. O desenvolvimento de algoritmos foi baseado em técnicas de emparelhamento de exemplares já propostas por outros; Alinhamento de exemplares do mundo real Que visou a aplicação dos algoritmos desenvolvidos, para gerar emparelhamentos de alta qualidade em exemplares do mundo real, e avaliar a sua qualidade em termos de Precisão, Sensibilidade, Medida-F, Exatidão e Exatidão Unilateral; Desenvolvimento de um emparelhador de exemplares Web Que visou o desenvolvimento de uma ferramenta capaz de realizar emparelhamento de exemplares através da Web, incorporando os algoritmos desenvolvidos por mim. Os resultados alcançados por esta dissertação foram a produção de alinhamentos de exemplares, entre as ontologias POWER-DBpediaPT, POWER-Verbetes e POWERPOWER. Estas três ontologias contêm exemplares que representam entidades políticas. E também entre as ontologias provenientes do OAEI 2012. O OAEI (Ontology Alignment Evaluation Initiative), é um concurso internacional, realizado todos os anos, que entre vários tipos de competições, tem uma dedicada à avaliação de ferramentas e de técnicas de emparelhamento de exemplares. Para avaliar a qualidade dos alinhamentos produzidos foram implementadas as seguintes métricas: Precisão; Sensibilidade; Medida-F; Exatidão; e Exatidão Unilateral. Esta dissertação também produziu um emparelhador de exemplares disponível através da Web, que implementa as métricas mencionadas para avaliar os alinhamentos produzidos por ele. POWER (Politics Ontology for Web Entity Retrieval) é uma ontologia que modela o domínio da política portuguesa, que foi desenvolvida e fornecida pela grupo REACTION. Os seus exemplares foram alinhados com os das ontologias DBpediaPT e Verbetes. A DBpediaPT é uma ontologia que contém exemplares que representam entidades da DBpedia versão 3.8. Cada entidade é referida na versão Portuguesa da Wikipédia. Esta ontologia foi construída a partir de uma lista, fornecida pelo grupo REACTION. Verbetes é uma ontologia, cujos os exemplares representam entidades que têm pelo menos cinco ocorrências nas notícias agregadas pelo serviço SAPO Verbetes. Para avaliar o alinhamento POWER-DBpediaPT foi usada a métrica Exatidão Unilateral. Usando o algoritmo de emparelhamento FirstLastNamePlusJaccard, alcançou-se 97.29% de Exatidão Unilateral para o POWER, e 87.25% de Exatidão Unilateral para o DBpediaPT. Usando o algoritmo de emparelhamento Stratified 10-fold Cross-Validation, alcançou-se 99.11% de Exatidão Unilateral para o POWER, e 95.97% de Exatidão Unilateral para o DBpediaPT. Estes foram os melhores resultados conseguidos para este alinhamento. No caso do alinhamento POWER-Verbetes não foram calculadas métricas mas, fez-se uma avaliação manual pela minha parte e pela parte do grupo REACTION, e foi positiva. Além disso, porque o POWER contém exemplares duplicados, ou seja, dois ou mais exemplares a representarem a mesma entidade, foi efectuado o alinhamento POWER-POWER de forma a encontrar os exemplares duplicados. No caso do POWER, estas situações não podiam acontecer. O alinhamento foi entregue ao grupo REACTION, para eles poderem melhorar a sua ontologia. Estes dois alinhamentos, POWER-Verbetes e POWER-POWER, foram realizados pelo algoritmo de emparelhamento MachineLearning. Foram também realizados alinhamentos de exemplares entre as ontologias fornecidas pelo OAEI 2012. Estas ontologias encontram-se divididas em dois grupos: o Sandbox que contém onze ontologias; e o IIMB que contém oitenta ontologias. Os alinhamentos produzidos foram realizados dentro de cada grupo. Neste caso, os algoritmos de emparelhamento utilizados foram FirstLastNamePlusJaccard e o Stratified 10-fold Cross- Validation. Na maioria dos alinhamentos produzidos a Medida-F foi maior no segundo algoritmo do que no primeiro. Todas as ontologias cujos exemplares foram alinhados, e os seus respectivos alinhamentos e métricas, estão disponíveis através da ligação: http://lasige.di.fc.ul.pt/webtools/instancematcher/dissertation_work.zip. O emparelhador de exemplares Web, foi outra realização desta dissertação, e está disponível através da ligação: http://lasige.di.fc.ul.pt/webtools/instancematcher/. Este disponibiliza aos utilizadores dois algoritmos de emparelhamento: o FirstLastNamePlusJaccard; e o MachineLearning. Além disso, também permite que o utilizador escolha que tipo de alinhamentos quer. Um-para-um (em Inglês: one-to-one) ou muitos-para-muitos (em Inglês: many-to-many). No primeiro caso, cada exemplar só pode estar presente uma vez no alinhamento, isto é, não pode haver mais do que um emparelhamento por exemplar; no segundo caso, cada exemplar pode estar presente várias vezes no alinhamento, ou seja, pode haver mais do que um emparelhamento por exemplar. Os alinhamentos POWER-DBpediaPT e POWER-Verbetes foram um-para-um. E os alinhamentos OAEI 2012 e POWER-POWER foram muitos-para-muitos. Há ainda a opção Limiar (em Inglês: Threshold) que permite ao utilizador indicar qual é o valor mínimo dos alinhamentos devolvidos pelo emparelhador de exemplares Web. Em cada alinhamento de exemplares é atribuído um valor [0,1] pelos algoritmos de emparelhamento, que determina o grau de confiabilidade/certeza do alinhamento estabelecido. No alinhamento também se podem encontrar exemplares que emparelham para nada, ou seja, para NULL. Estes, são os exemplares para os quais o algoritmo de emparelhamento escolhido, não encontrou nenhum exemplar correspondente. Para que o emparelhador de exemplares Web devolva métricas que atestem a qualidade do alinhamento produzido, o utilizador tem que introduzir o alinhamento de referência (em Inglês: Reference Alignment). Este é um documento, que se assume, que contenha todos os emparelhamentos correctos entre os exemplares de duas ontologias. As métricas são calculadas aquando da comparação do alinhamento produzido com o alinhamento de referência. Existem ainda as opções POWER 2010 e OAEI 2012, que permitem indicar ao emparelhador de exemplares Web, que os exemplares a emparelhar são do POWER e do OAEI 2012. É também necessário que o utilizador insira os identificadores dos descritores dos exemplares, para que o emparelhador obtenha a informação necessária para poder efectuar os alinhamentos. Cada identificador tem que começar pelo prefixo http.An ontology is an object-based conceptualization of some particular domain. An ontology provides a shared controlled vocabulary to semantically characterize the data of the modelled domain. But it often happens that independently created ontologies model the same domain in different ways. This constitutes a problem because there may be entities being represented differently, therefore creating ambiguity and interoperability problems when linking related data characterized by two ontologies. So it is necessary to develop processes capable of matching the data. The matching can be made at the class level or at the instance level. The goal of the instance matching is to find the correspondences between instances from different ontologies, called instance alignments. The objective of this dissertation was the development of instance matching algorithms for generating instance alignments of real world instances. And the creation of an instance matcher Web tool, where the algorithms developed by me were incorporated. The outcome of this dissertation was the generation of instance alignments between POWER-DBpediaPT, POWER-Verbetes and POWER-POWER. All these three ontologies have instances representing political entities. Furthermore, it was generated instance alignments between ontologies from the OAEI 2012. OAEI (Ontology Alignment Evaluation Initiative), is an international contest, that has a track focus on evaluation of instance matching tools and techniques. To assess the quality of the instance alignments produced, it was implemented the metrics of Precision, Recall, F-measure, Accuracy and Unilateral Accuracy. Another outcome of this dissertation is the instance matcher tool, available through the Web. The tool implements two instance matchers. The FirstLastNamePlusJaccard which is based on element-level matching techniques, that uses the descriptors of the instances to correspond them. And the MachineLearning matcher that uses machine learning approaches to find those correspondences. This Web tool also assesses the instance alignments that it produces, because it implements the already mentioned metrics.Couto, Francisco José MoreiraSilva, Mário J. Gaspar da, 1961-Repositório da Universidade de LisboaLopes, André Filipe Agostinho2014-01-07T15:47:21Z20132013-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/9966TID:201290006enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T15:54:52Zoai:repositorio.ul.pt:10451/9966Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:34:02.315300Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv A tool for ontology instance matching
title A tool for ontology instance matching
spellingShingle A tool for ontology instance matching
Lopes, André Filipe Agostinho
Web semântica
Ontologias
Emparelhamento de ontologias
Emparelhamento de exemplares
Emparelhamento de cadeia de caracteres
Aprendizagem automática
title_short A tool for ontology instance matching
title_full A tool for ontology instance matching
title_fullStr A tool for ontology instance matching
title_full_unstemmed A tool for ontology instance matching
title_sort A tool for ontology instance matching
author Lopes, André Filipe Agostinho
author_facet Lopes, André Filipe Agostinho
author_role author
dc.contributor.none.fl_str_mv Couto, Francisco José Moreira
Silva, Mário J. Gaspar da, 1961-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Lopes, André Filipe Agostinho
dc.subject.por.fl_str_mv Web semântica
Ontologias
Emparelhamento de ontologias
Emparelhamento de exemplares
Emparelhamento de cadeia de caracteres
Aprendizagem automática
topic Web semântica
Ontologias
Emparelhamento de ontologias
Emparelhamento de exemplares
Emparelhamento de cadeia de caracteres
Aprendizagem automática
description Tese de mestrado em Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013
publishDate 2013
dc.date.none.fl_str_mv 2013
2013-01-01T00:00:00Z
2014-01-07T15:47:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/9966
TID:201290006
url http://hdl.handle.net/10451/9966
identifier_str_mv TID:201290006
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134234769620992