Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/ |
Resumo: | A diversidade biológica é essencial para a sustentabilidade da vida na Terra e motiva numerosos esforços para coleta de dados sobre espécies, dando origem a uma grande quantidade de informação. Esses dados são geralmente armazenados em bancos de dados relacionais. Pesquisadores usam esses bancos de dados para extrair conhecimento e compartilhar novas descobertas. No entanto, atualmente a busca tradicional (baseada em palavras-chave) já não é adequada para ser usada em grandes quantidades de dados heterogêneos, como os de biodiversidade. Ela tem baixa precisão e revocação para esse tipo de dado. Este trabalho apresenta uma nova arquitetura para abordar esse problema aplicando técnicas de buscas semânticas em dados sobre biodiversidade e usando formatos e ferramentas da Web Semântica para representar esses dados. A busca semântica tem como objetivo melhorar a acurácia dos resultados de buscas com o uso de ontologias para entender os objetivos dos usuários e o significado contextual dos termos utilizados. Este trabalho também apresenta os resultados de testes usando um conjunto de dados representativos sobre biodiversidade do Instituto Nacional de Pesquisas da Amazônia (INPA) e do Museu Paraense Emílio Goeldi (MPEG). Ontologias permitem que conhecimento seja organizado em espaços conceituais de acordo com seu significado. Para a busca semântica funcionar, um ponto chave é a criação de mapeamentos entre os dados (neste caso, dados sobre biodiversidade do INPA e MPEG) e termos das ontologias que os descrevem, neste caso: a classificação taxonômica de espécies e a OntoBio, a ontologia de biodiversidade do INPA. Esses mapeamentos foram criados depois que extraímos a classificação taxonômica do site Catalog of Life (CoL) e criamos uma nova versão da OntoBio. Um protótipo da arquitetura foi construído e testado usando casos de uso e dados do INPA e MPEG. Os resultados dos testes mostraram que a abordagem da busca semântica tinha uma melhor precisão (28% melhor) e revocação (25% melhor) quando comparada com a busca por palavras-chave. Eles também mostraram que é possível conectar facilmente os dados mapeados a outras fontes de dados abertas, como a fonte Amazon Forest Linked Data do Instituto Nacional de Pesquisas Espaciais. (INPE) |
id |
USP_de53b03bffd071f67d7e0fd49d504f0a |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-03072014-150009 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidadeAn architecture for semantic search systems for retrieving information in repositories of biodiversityBiodiversidadeBiodiversityBusca semânticaOntologiasOntologySemantic searchSemantic webWeb semânticaA diversidade biológica é essencial para a sustentabilidade da vida na Terra e motiva numerosos esforços para coleta de dados sobre espécies, dando origem a uma grande quantidade de informação. Esses dados são geralmente armazenados em bancos de dados relacionais. Pesquisadores usam esses bancos de dados para extrair conhecimento e compartilhar novas descobertas. No entanto, atualmente a busca tradicional (baseada em palavras-chave) já não é adequada para ser usada em grandes quantidades de dados heterogêneos, como os de biodiversidade. Ela tem baixa precisão e revocação para esse tipo de dado. Este trabalho apresenta uma nova arquitetura para abordar esse problema aplicando técnicas de buscas semânticas em dados sobre biodiversidade e usando formatos e ferramentas da Web Semântica para representar esses dados. A busca semântica tem como objetivo melhorar a acurácia dos resultados de buscas com o uso de ontologias para entender os objetivos dos usuários e o significado contextual dos termos utilizados. Este trabalho também apresenta os resultados de testes usando um conjunto de dados representativos sobre biodiversidade do Instituto Nacional de Pesquisas da Amazônia (INPA) e do Museu Paraense Emílio Goeldi (MPEG). Ontologias permitem que conhecimento seja organizado em espaços conceituais de acordo com seu significado. Para a busca semântica funcionar, um ponto chave é a criação de mapeamentos entre os dados (neste caso, dados sobre biodiversidade do INPA e MPEG) e termos das ontologias que os descrevem, neste caso: a classificação taxonômica de espécies e a OntoBio, a ontologia de biodiversidade do INPA. Esses mapeamentos foram criados depois que extraímos a classificação taxonômica do site Catalog of Life (CoL) e criamos uma nova versão da OntoBio. Um protótipo da arquitetura foi construído e testado usando casos de uso e dados do INPA e MPEG. Os resultados dos testes mostraram que a abordagem da busca semântica tinha uma melhor precisão (28% melhor) e revocação (25% melhor) quando comparada com a busca por palavras-chave. Eles também mostraram que é possível conectar facilmente os dados mapeados a outras fontes de dados abertas, como a fonte Amazon Forest Linked Data do Instituto Nacional de Pesquisas Espaciais. (INPE)Biological diversity is of essential value to life sustainability on Earth and motivates many efforts to collect data about species. That gives rise to a large amount of information. Biodiversity data, in most cases, is stored in relational databases. Researchers use this data to extract knowledge and share their new discoveries about living things. However, nowadays the traditional search approach (based basically on keywords matching) is not appropriate to be used in large amounts of heterogeneous biodiversity data. Search by keyword has low precision and recall in this kind of data. This work presents a new architecture to tackle this problem using a semantic search system for biodiversity data and semantic web formats and tools to represent this data. Semantic search aims to improve search accuracy by using ontologies to understand user objectives and the contextual meaning of terms used in the search to generate more relevant results. This work also presents test results using a set of representative biodiversity data from the National Research Institute for the Amazon (INPA) and the Emilio Gueldi Museum in Pará (MPEG). Ontologies allow knowledge to be organized into conceptual spaces in accordance to its meaning. For semantic search to work, a key point is to create mappings between the data (in this case, INPAs and MPEGs biodiversity data) and the ontologies describing it, in this case: the species taxonomy (a taxonomy is an ontology where each class can have just one parent) and OntoBio, INPAs biodiversity ontology. These mappings were created after we extracted the taxonomic classification from the Catalogue of Life (CoL) website and created a new version of OntoBio. A prototype of the architecture was built and tested using INPAs and MPEGs use cases and data. The results showed that the semantic search approach had a better precision (28% improvement) and recall (25% improvement) when compared to keyword based search. They also showed that it was possible to easily connect the mapped data to other Linked Open Data sources, such as the Amazon Forest Linked Data from the National Institute for Space Research (INPE)Biblioteca Digitais de Teses e Dissertações da USPMoreira, Dilvan de AbreuAmanqui, Flor Karina Mamani2014-05-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:11:49Zoai:teses.usp.br:tde-03072014-150009Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:11:49Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade An architecture for semantic search systems for retrieving information in repositories of biodiversity |
title |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade |
spellingShingle |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade Amanqui, Flor Karina Mamani Biodiversidade Biodiversity Busca semântica Ontologias Ontology Semantic search Semantic web Web semântica |
title_short |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade |
title_full |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade |
title_fullStr |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade |
title_full_unstemmed |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade |
title_sort |
Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade |
author |
Amanqui, Flor Karina Mamani |
author_facet |
Amanqui, Flor Karina Mamani |
author_role |
author |
dc.contributor.none.fl_str_mv |
Moreira, Dilvan de Abreu |
dc.contributor.author.fl_str_mv |
Amanqui, Flor Karina Mamani |
dc.subject.por.fl_str_mv |
Biodiversidade Biodiversity Busca semântica Ontologias Ontology Semantic search Semantic web Web semântica |
topic |
Biodiversidade Biodiversity Busca semântica Ontologias Ontology Semantic search Semantic web Web semântica |
description |
A diversidade biológica é essencial para a sustentabilidade da vida na Terra e motiva numerosos esforços para coleta de dados sobre espécies, dando origem a uma grande quantidade de informação. Esses dados são geralmente armazenados em bancos de dados relacionais. Pesquisadores usam esses bancos de dados para extrair conhecimento e compartilhar novas descobertas. No entanto, atualmente a busca tradicional (baseada em palavras-chave) já não é adequada para ser usada em grandes quantidades de dados heterogêneos, como os de biodiversidade. Ela tem baixa precisão e revocação para esse tipo de dado. Este trabalho apresenta uma nova arquitetura para abordar esse problema aplicando técnicas de buscas semânticas em dados sobre biodiversidade e usando formatos e ferramentas da Web Semântica para representar esses dados. A busca semântica tem como objetivo melhorar a acurácia dos resultados de buscas com o uso de ontologias para entender os objetivos dos usuários e o significado contextual dos termos utilizados. Este trabalho também apresenta os resultados de testes usando um conjunto de dados representativos sobre biodiversidade do Instituto Nacional de Pesquisas da Amazônia (INPA) e do Museu Paraense Emílio Goeldi (MPEG). Ontologias permitem que conhecimento seja organizado em espaços conceituais de acordo com seu significado. Para a busca semântica funcionar, um ponto chave é a criação de mapeamentos entre os dados (neste caso, dados sobre biodiversidade do INPA e MPEG) e termos das ontologias que os descrevem, neste caso: a classificação taxonômica de espécies e a OntoBio, a ontologia de biodiversidade do INPA. Esses mapeamentos foram criados depois que extraímos a classificação taxonômica do site Catalog of Life (CoL) e criamos uma nova versão da OntoBio. Um protótipo da arquitetura foi construído e testado usando casos de uso e dados do INPA e MPEG. Os resultados dos testes mostraram que a abordagem da busca semântica tinha uma melhor precisão (28% melhor) e revocação (25% melhor) quando comparada com a busca por palavras-chave. Eles também mostraram que é possível conectar facilmente os dados mapeados a outras fontes de dados abertas, como a fonte Amazon Forest Linked Data do Instituto Nacional de Pesquisas Espaciais. (INPE) |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-05-16 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/ |
url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256640142704640 |