[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION

JOSE EDUARDO TALAVERA HERRERA

[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION

Detalhes bibliográficos
Autor(a) principal:	JOSE EDUARDO TALAVERA HERRERA
Data de Publicação:	2013
Tipo de documento:	Outros
Idioma:	por
Título da fonte:	Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@2 http://doi.org/10.17771/PUCRio.acad.21367
Resumo:	[pt] Dentro do processo de publicação de dados na Web recomenda-se interligar os dados entre diferentes fontes, através de recursos similares que descrevam um domínio em comum. No entanto, com o crescimento do número dos conjuntos de dados publicados na Web de Dados, as tarefas de descoberta e seleção de dados tornam-se cada vez mais complexas. Além disso, a natureza distribuída e interconectada dos dados, fazem com que a sua análise e entendimento sejam muito demorados. Neste sentido, este trabalho visa oferecer uma arquitetura Web para a identificação de fontes de dados em RDF, com o objetivo de prover melhorias nos processos de publicação, interconex ão, e exploração de dados na Linked Open Data. Para tal, nossa abordagem utiliza o modelo de MapReduce sobre o paradigma de computa ção nas nuvens. Assim, podemos efetuar buscas paralelas por palavraschave sobre um índice de dados semânticos existente na Web. Estas buscas permitem identificar fontes candidatas para ligar os dados. Por meio desta abordagem, foi possível integrar diferentes ferramentas da web semântica em um processo de busca para descobrir fontes de dados relevantes, e relacionar tópicos de interesse denidos pelo usuário. Para atingir nosso objetivo foi necessária a indexação e análise de texto para aperfeiçoar a busca de recursos na Linked Open Data. Para mostrar a ecácia de nossa abordagem foi desenvolvido um estudo de caso, utilizando um subconjunto de dados de uma fonte na Linked Open Data, através do seu serviço SPARQL endpoint. Os resultados do nosso trabalho revelam que a geração de estatísticas sobre os dados da fonte é, de fato, um grande diferencial no processo de busca. Estas estatísticas ajudam ao usuário no processo de escolha de indivíduos. Um processo especializado de extração de palavras-chave é aplicado para cada indivíduo com o objetivo de gerar diferentes buscas sobre o índice semântico. Mostramos a escalabilidade de nosso processo de recomendação de fontes RDF através de diferentes amostras de indivíduos.

Metadados do item

id	PUC_RIO-1_864be6102a598ff80492a4bb11c95cea
oai_identifier_str	oai:MAXWELL.puc-rio.br:21367
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str	534
spelling	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION [pt] ARQUITETURA PARA RECOMENDAÇÃO DE FONTES DE DADOS RDF [pt] RECUPERACAO DE INFORMACAO[pt] DESCOBERTA DE LINKS[pt] SIMILARIDADE[en] INFORMATION RETRIEVAL[en] LINK DISCOVERY[en] SIMILARITY[pt] Dentro do processo de publicação de dados na Web recomenda-se interligar os dados entre diferentes fontes, através de recursos similares que descrevam um domínio em comum. No entanto, com o crescimento do número dos conjuntos de dados publicados na Web de Dados, as tarefas de descoberta e seleção de dados tornam-se cada vez mais complexas. Além disso, a natureza distribuída e interconectada dos dados, fazem com que a sua análise e entendimento sejam muito demorados. Neste sentido, este trabalho visa oferecer uma arquitetura Web para a identificação de fontes de dados em RDF, com o objetivo de prover melhorias nos processos de publicação, interconex ão, e exploração de dados na Linked Open Data. Para tal, nossa abordagem utiliza o modelo de MapReduce sobre o paradigma de computa ção nas nuvens. Assim, podemos efetuar buscas paralelas por palavraschave sobre um índice de dados semânticos existente na Web. Estas buscas permitem identificar fontes candidatas para ligar os dados. Por meio desta abordagem, foi possível integrar diferentes ferramentas da web semântica em um processo de busca para descobrir fontes de dados relevantes, e relacionar tópicos de interesse denidos pelo usuário. Para atingir nosso objetivo foi necessária a indexação e análise de texto para aperfeiçoar a busca de recursos na Linked Open Data. Para mostrar a ecácia de nossa abordagem foi desenvolvido um estudo de caso, utilizando um subconjunto de dados de uma fonte na Linked Open Data, através do seu serviço SPARQL endpoint. Os resultados do nosso trabalho revelam que a geração de estatísticas sobre os dados da fonte é, de fato, um grande diferencial no processo de busca. Estas estatísticas ajudam ao usuário no processo de escolha de indivíduos. Um processo especializado de extração de palavras-chave é aplicado para cada indivíduo com o objetivo de gerar diferentes buscas sobre o índice semântico. Mostramos a escalabilidade de nosso processo de recomendação de fontes RDF através de diferentes amostras de indivíduos.[en] In the Web publishing process of data it is recommended to link the data from different sources using similar resources that describe a domain in common. However, the growing number of published data sets on the Web have made the data discovery and data selection tasks become increasingly complex. Moreover, the distributed and interconnected nature of the data causes the understanding and analysis to become too prolonged. In this context, this work aims to provide a Web architecture for identifying RDF data sources with the goal of improving the publishing, interconnection, and data exploration processes within the Linked Open Data. Our approach utilizes the MapReduce computing model on top of the cloud computing paradigm. In this manner, we are able to make parallel keyword searches over existing semantic data indexes available on the web. This will allow to identify candidate sources to link the data. Through this approach, it was possible to integrate different semantic web tools and relevant data sources in a search process, and also to relate topics of interest denied by the user. In order to achieve our objectives it was necessary to index and analyze text to improve the search of resources in the Linked Open Data. To show the effectiveness of our approach we developed a case study using a subset of data from a source in the Linked Open Data through its SPARQL endpoint service. The results of our work reveal that the generation and usage of data source s statistics do make a great difference within the search process. These statistics help the user within the choosing individuals process. Furthermore, a specialized keyword extraction process is run for each individual in order to create different search processes using the semantic index. We show the scalability of our RDF recommendation process by sampling several individuals.MAXWELLKARIN KOOGAN BREITMANKARIN KOOGAN BREITMANKARIN KOOGAN BREITMANJOSE EDUARDO TALAVERA HERRERA2013-03-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@2http://doi.org/10.17771/PUCRio.acad.21367porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2019-08-29T00:00:00Zoai:MAXWELL.puc-rio.br:21367Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342019-08-29T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION [pt] ARQUITETURA PARA RECOMENDAÇÃO DE FONTES DE DADOS RDF
title	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION
spellingShingle	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION JOSE EDUARDO TALAVERA HERRERA [pt] RECUPERACAO DE INFORMACAO [pt] DESCOBERTA DE LINKS [pt] SIMILARIDADE [en] INFORMATION RETRIEVAL [en] LINK DISCOVERY [en] SIMILARITY
title_short	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION
title_full	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION
title_fullStr	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION
title_full_unstemmed	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION
title_sort	[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION
author	JOSE EDUARDO TALAVERA HERRERA
author_facet	JOSE EDUARDO TALAVERA HERRERA
author_role	author
dc.contributor.none.fl_str_mv	KARIN KOOGAN BREITMAN KARIN KOOGAN BREITMAN KARIN KOOGAN BREITMAN
dc.contributor.author.fl_str_mv	JOSE EDUARDO TALAVERA HERRERA
dc.subject.por.fl_str_mv	[pt] RECUPERACAO DE INFORMACAO [pt] DESCOBERTA DE LINKS [pt] SIMILARIDADE [en] INFORMATION RETRIEVAL [en] LINK DISCOVERY [en] SIMILARITY
topic	[pt] RECUPERACAO DE INFORMACAO [pt] DESCOBERTA DE LINKS [pt] SIMILARIDADE [en] INFORMATION RETRIEVAL [en] LINK DISCOVERY [en] SIMILARITY
description	[pt] Dentro do processo de publicação de dados na Web recomenda-se interligar os dados entre diferentes fontes, através de recursos similares que descrevam um domínio em comum. No entanto, com o crescimento do número dos conjuntos de dados publicados na Web de Dados, as tarefas de descoberta e seleção de dados tornam-se cada vez mais complexas. Além disso, a natureza distribuída e interconectada dos dados, fazem com que a sua análise e entendimento sejam muito demorados. Neste sentido, este trabalho visa oferecer uma arquitetura Web para a identificação de fontes de dados em RDF, com o objetivo de prover melhorias nos processos de publicação, interconex ão, e exploração de dados na Linked Open Data. Para tal, nossa abordagem utiliza o modelo de MapReduce sobre o paradigma de computa ção nas nuvens. Assim, podemos efetuar buscas paralelas por palavraschave sobre um índice de dados semânticos existente na Web. Estas buscas permitem identificar fontes candidatas para ligar os dados. Por meio desta abordagem, foi possível integrar diferentes ferramentas da web semântica em um processo de busca para descobrir fontes de dados relevantes, e relacionar tópicos de interesse denidos pelo usuário. Para atingir nosso objetivo foi necessária a indexação e análise de texto para aperfeiçoar a busca de recursos na Linked Open Data. Para mostrar a ecácia de nossa abordagem foi desenvolvido um estudo de caso, utilizando um subconjunto de dados de uma fonte na Linked Open Data, através do seu serviço SPARQL endpoint. Os resultados do nosso trabalho revelam que a geração de estatísticas sobre os dados da fonte é, de fato, um grande diferencial no processo de busca. Estas estatísticas ajudam ao usuário no processo de escolha de indivíduos. Um processo especializado de extração de palavras-chave é aplicado para cada indivíduo com o objetivo de gerar diferentes buscas sobre o índice semântico. Mostramos a escalabilidade de nosso processo de recomendação de fontes RDF através de diferentes amostras de indivíduos.
publishDate	2013
dc.date.none.fl_str_mv	2013-03-25
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/other
format	other
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@2 http://doi.org/10.17771/PUCRio.acad.21367
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=21367@2 http://doi.org/10.17771/PUCRio.acad.21367
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1814822585551028224

[en] AN ARCHITECTURE FOR RDF DATA SOURCES RECOMMENDATION

Registros relacionados