Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade

Detalhes bibliográficos
Autor(a) principal: Amanqui, Flor Karina Mamani
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/
Resumo: A diversidade biológica é essencial para a sustentabilidade da vida na Terra e motiva numerosos esforços para coleta de dados sobre espécies, dando origem a uma grande quantidade de informação. Esses dados são geralmente armazenados em bancos de dados relacionais. Pesquisadores usam esses bancos de dados para extrair conhecimento e compartilhar novas descobertas. No entanto, atualmente a busca tradicional (baseada em palavras-chave) já não é adequada para ser usada em grandes quantidades de dados heterogêneos, como os de biodiversidade. Ela tem baixa precisão e revocação para esse tipo de dado. Este trabalho apresenta uma nova arquitetura para abordar esse problema aplicando técnicas de buscas semânticas em dados sobre biodiversidade e usando formatos e ferramentas da Web Semântica para representar esses dados. A busca semântica tem como objetivo melhorar a acurácia dos resultados de buscas com o uso de ontologias para entender os objetivos dos usuários e o significado contextual dos termos utilizados. Este trabalho também apresenta os resultados de testes usando um conjunto de dados representativos sobre biodiversidade do Instituto Nacional de Pesquisas da Amazônia (INPA) e do Museu Paraense Emílio Goeldi (MPEG). Ontologias permitem que conhecimento seja organizado em espaços conceituais de acordo com seu significado. Para a busca semântica funcionar, um ponto chave é a criação de mapeamentos entre os dados (neste caso, dados sobre biodiversidade do INPA e MPEG) e termos das ontologias que os descrevem, neste caso: a classificação taxonômica de espécies e a OntoBio, a ontologia de biodiversidade do INPA. Esses mapeamentos foram criados depois que extraímos a classificação taxonômica do site Catalog of Life (CoL) e criamos uma nova versão da OntoBio. Um protótipo da arquitetura foi construído e testado usando casos de uso e dados do INPA e MPEG. Os resultados dos testes mostraram que a abordagem da busca semântica tinha uma melhor precisão (28% melhor) e revocação (25% melhor) quando comparada com a busca por palavras-chave. Eles também mostraram que é possível conectar facilmente os dados mapeados a outras fontes de dados abertas, como a fonte Amazon Forest Linked Data do Instituto Nacional de Pesquisas Espaciais. (INPE)
id USP_de53b03bffd071f67d7e0fd49d504f0a
oai_identifier_str oai:teses.usp.br:tde-03072014-150009
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidadeAn architecture for semantic search systems for retrieving information in repositories of biodiversityBiodiversidadeBiodiversityBusca semânticaOntologiasOntologySemantic searchSemantic webWeb semânticaA diversidade biológica é essencial para a sustentabilidade da vida na Terra e motiva numerosos esforços para coleta de dados sobre espécies, dando origem a uma grande quantidade de informação. Esses dados são geralmente armazenados em bancos de dados relacionais. Pesquisadores usam esses bancos de dados para extrair conhecimento e compartilhar novas descobertas. No entanto, atualmente a busca tradicional (baseada em palavras-chave) já não é adequada para ser usada em grandes quantidades de dados heterogêneos, como os de biodiversidade. Ela tem baixa precisão e revocação para esse tipo de dado. Este trabalho apresenta uma nova arquitetura para abordar esse problema aplicando técnicas de buscas semânticas em dados sobre biodiversidade e usando formatos e ferramentas da Web Semântica para representar esses dados. A busca semântica tem como objetivo melhorar a acurácia dos resultados de buscas com o uso de ontologias para entender os objetivos dos usuários e o significado contextual dos termos utilizados. Este trabalho também apresenta os resultados de testes usando um conjunto de dados representativos sobre biodiversidade do Instituto Nacional de Pesquisas da Amazônia (INPA) e do Museu Paraense Emílio Goeldi (MPEG). Ontologias permitem que conhecimento seja organizado em espaços conceituais de acordo com seu significado. Para a busca semântica funcionar, um ponto chave é a criação de mapeamentos entre os dados (neste caso, dados sobre biodiversidade do INPA e MPEG) e termos das ontologias que os descrevem, neste caso: a classificação taxonômica de espécies e a OntoBio, a ontologia de biodiversidade do INPA. Esses mapeamentos foram criados depois que extraímos a classificação taxonômica do site Catalog of Life (CoL) e criamos uma nova versão da OntoBio. Um protótipo da arquitetura foi construído e testado usando casos de uso e dados do INPA e MPEG. Os resultados dos testes mostraram que a abordagem da busca semântica tinha uma melhor precisão (28% melhor) e revocação (25% melhor) quando comparada com a busca por palavras-chave. Eles também mostraram que é possível conectar facilmente os dados mapeados a outras fontes de dados abertas, como a fonte Amazon Forest Linked Data do Instituto Nacional de Pesquisas Espaciais. (INPE)Biological diversity is of essential value to life sustainability on Earth and motivates many efforts to collect data about species. That gives rise to a large amount of information. Biodiversity data, in most cases, is stored in relational databases. Researchers use this data to extract knowledge and share their new discoveries about living things. However, nowadays the traditional search approach (based basically on keywords matching) is not appropriate to be used in large amounts of heterogeneous biodiversity data. Search by keyword has low precision and recall in this kind of data. This work presents a new architecture to tackle this problem using a semantic search system for biodiversity data and semantic web formats and tools to represent this data. Semantic search aims to improve search accuracy by using ontologies to understand user objectives and the contextual meaning of terms used in the search to generate more relevant results. This work also presents test results using a set of representative biodiversity data from the National Research Institute for the Amazon (INPA) and the Emilio Gueldi Museum in Pará (MPEG). Ontologies allow knowledge to be organized into conceptual spaces in accordance to its meaning. For semantic search to work, a key point is to create mappings between the data (in this case, INPAs and MPEGs biodiversity data) and the ontologies describing it, in this case: the species taxonomy (a taxonomy is an ontology where each class can have just one parent) and OntoBio, INPAs biodiversity ontology. These mappings were created after we extracted the taxonomic classification from the Catalogue of Life (CoL) website and created a new version of OntoBio. A prototype of the architecture was built and tested using INPAs and MPEGs use cases and data. The results showed that the semantic search approach had a better precision (28% improvement) and recall (25% improvement) when compared to keyword based search. They also showed that it was possible to easily connect the mapped data to other Linked Open Data sources, such as the Amazon Forest Linked Data from the National Institute for Space Research (INPE)Biblioteca Digitais de Teses e Dissertações da USPMoreira, Dilvan de AbreuAmanqui, Flor Karina Mamani2014-05-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:11:49Zoai:teses.usp.br:tde-03072014-150009Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:11:49Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
An architecture for semantic search systems for retrieving information in repositories of biodiversity
title Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
spellingShingle Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
Amanqui, Flor Karina Mamani
Biodiversidade
Biodiversity
Busca semântica
Ontologias
Ontology
Semantic search
Semantic web
Web semântica
title_short Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
title_full Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
title_fullStr Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
title_full_unstemmed Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
title_sort Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade
author Amanqui, Flor Karina Mamani
author_facet Amanqui, Flor Karina Mamani
author_role author
dc.contributor.none.fl_str_mv Moreira, Dilvan de Abreu
dc.contributor.author.fl_str_mv Amanqui, Flor Karina Mamani
dc.subject.por.fl_str_mv Biodiversidade
Biodiversity
Busca semântica
Ontologias
Ontology
Semantic search
Semantic web
Web semântica
topic Biodiversidade
Biodiversity
Busca semântica
Ontologias
Ontology
Semantic search
Semantic web
Web semântica
description A diversidade biológica é essencial para a sustentabilidade da vida na Terra e motiva numerosos esforços para coleta de dados sobre espécies, dando origem a uma grande quantidade de informação. Esses dados são geralmente armazenados em bancos de dados relacionais. Pesquisadores usam esses bancos de dados para extrair conhecimento e compartilhar novas descobertas. No entanto, atualmente a busca tradicional (baseada em palavras-chave) já não é adequada para ser usada em grandes quantidades de dados heterogêneos, como os de biodiversidade. Ela tem baixa precisão e revocação para esse tipo de dado. Este trabalho apresenta uma nova arquitetura para abordar esse problema aplicando técnicas de buscas semânticas em dados sobre biodiversidade e usando formatos e ferramentas da Web Semântica para representar esses dados. A busca semântica tem como objetivo melhorar a acurácia dos resultados de buscas com o uso de ontologias para entender os objetivos dos usuários e o significado contextual dos termos utilizados. Este trabalho também apresenta os resultados de testes usando um conjunto de dados representativos sobre biodiversidade do Instituto Nacional de Pesquisas da Amazônia (INPA) e do Museu Paraense Emílio Goeldi (MPEG). Ontologias permitem que conhecimento seja organizado em espaços conceituais de acordo com seu significado. Para a busca semântica funcionar, um ponto chave é a criação de mapeamentos entre os dados (neste caso, dados sobre biodiversidade do INPA e MPEG) e termos das ontologias que os descrevem, neste caso: a classificação taxonômica de espécies e a OntoBio, a ontologia de biodiversidade do INPA. Esses mapeamentos foram criados depois que extraímos a classificação taxonômica do site Catalog of Life (CoL) e criamos uma nova versão da OntoBio. Um protótipo da arquitetura foi construído e testado usando casos de uso e dados do INPA e MPEG. Os resultados dos testes mostraram que a abordagem da busca semântica tinha uma melhor precisão (28% melhor) e revocação (25% melhor) quando comparada com a busca por palavras-chave. Eles também mostraram que é possível conectar facilmente os dados mapeados a outras fontes de dados abertas, como a fonte Amazon Forest Linked Data do Instituto Nacional de Pesquisas Espaciais. (INPE)
publishDate 2014
dc.date.none.fl_str_mv 2014-05-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256640142704640