[en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS

Detalhes bibliográficos
Autor(a) principal: ANGELO BATISTA NEVES JUNIOR
Data de Publicação: 2022
Tipo de documento: Outros
Idioma: eng
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@2
http://doi.org/10.17771/PUCRio.acad.61091
Resumo: [pt] Os sistemas de busca textual fornecem aos usuários uma alternativa amigável para acessar datasets RDF (Resource Description Framework). A avaliação de desempenho de tais sistemas requer benchmarks adequados, consistindo de datasets RDF, consultas e respectivas respostas esperadas. No entanto, os benchmarks disponíveis geralmente possuem poucas consultas e respostas incompletas, principalmente porque são construídos manualmente com a ajuda de especialistas. A contribuição central desta tese é um método para construir benchmarks automaticamente, com um maior número de consultas e com respostas mais completas. O método proposto aplica-se tanto a consultas baseadas em palavras-chave quanto em linguagem natural e possui duas partes: geração de consultas e geração de respostas. A geração de consultas seleciona um conjunto de entidades relevantes, chamadas de indutores, e, para cada uma, heurísticas orientam o processo de extração de consultas relacionadas. A geração de respostas recebe as consultas produzidas no passo anterior e computa geradores de solução (SG), subgrafos do dataset original contendo diferentes respostas às consultas. Heurísticas também orientam a construção dos SGs evitando o desperdiço de recursos computacionais na geração de respostas irrelevantes.
id PUC_RIO-1_6a15ba24bc5d7751499470e9cfc665e8
oai_identifier_str oai:MAXWELL.puc-rio.br:61091
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS [pt] GERAÇÃO AUTOMÁTICA DE BENCHMARKS PARA AVALIAR INTERFACES BASEADAS EM PALAVRAS-CHAVE E LINGUAGEM NATURAL PARA DATASETS RDF [pt] BENCHMARK[pt] INTERFACE EM LINGUAGEM NATURAL[pt] DATASETS[en] BENCHMARK[en] NATURAL LANGUAGE INTERFACE[en] DATASETS[pt] Os sistemas de busca textual fornecem aos usuários uma alternativa amigável para acessar datasets RDF (Resource Description Framework). A avaliação de desempenho de tais sistemas requer benchmarks adequados, consistindo de datasets RDF, consultas e respectivas respostas esperadas. No entanto, os benchmarks disponíveis geralmente possuem poucas consultas e respostas incompletas, principalmente porque são construídos manualmente com a ajuda de especialistas. A contribuição central desta tese é um método para construir benchmarks automaticamente, com um maior número de consultas e com respostas mais completas. O método proposto aplica-se tanto a consultas baseadas em palavras-chave quanto em linguagem natural e possui duas partes: geração de consultas e geração de respostas. A geração de consultas seleciona um conjunto de entidades relevantes, chamadas de indutores, e, para cada uma, heurísticas orientam o processo de extração de consultas relacionadas. A geração de respostas recebe as consultas produzidas no passo anterior e computa geradores de solução (SG), subgrafos do dataset original contendo diferentes respostas às consultas. Heurísticas também orientam a construção dos SGs evitando o desperdiço de recursos computacionais na geração de respostas irrelevantes.[en] Text search systems provide users with a friendly alternative to access Resource Description Framework (RDF) datasets. The performance evaluation of such systems requires adequate benchmarks, consisting of RDF datasets, text queries, and respective expected answers. However, available benchmarks often have small sets of queries and incomplete sets of answers, mainly because they are manually constructed with the help of experts. The central contribution of this thesis is a method for building benchmarks automatically, with larger sets of queries and more complete answers. The proposed method works for both keyword and natural language queries and has two steps: query generation and answer generation. The query generation step selects a set of relevant entities, called inducers, and, for each one, heuristics guide the process of extracting related queries. The answer generation step takes the queries and computes solution generators (SG), subgraphs of the original dataset containing different answers to the queries. Heuristics also guide the construction of SGs, avoiding the waste of computational resources in generating irrelevant answers.MAXWELLMARCO ANTONIO CASANOVAMARCO ANTONIO CASANOVAMARCO ANTONIO CASANOVAANGELO BATISTA NEVES JUNIOR2022-11-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@2http://doi.org/10.17771/PUCRio.acad.61091engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-04T00:00:00Zoai:MAXWELL.puc-rio.br:61091Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-11-04T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
[pt] GERAÇÃO AUTOMÁTICA DE BENCHMARKS PARA AVALIAR INTERFACES BASEADAS EM PALAVRAS-CHAVE E LINGUAGEM NATURAL PARA DATASETS RDF
title [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
spellingShingle [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
ANGELO BATISTA NEVES JUNIOR
[pt] BENCHMARK
[pt] INTERFACE EM LINGUAGEM NATURAL
[pt] DATASETS
[en] BENCHMARK
[en] NATURAL LANGUAGE INTERFACE
[en] DATASETS
title_short [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
title_full [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
title_fullStr [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
title_full_unstemmed [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
title_sort [en] AUTOMATIC GENERATION OF BENCHMARKS FOR EVALUATING KEYWORD AND NATURAL LANGUAGE INTERFACES TO RDF DATASETS
author ANGELO BATISTA NEVES JUNIOR
author_facet ANGELO BATISTA NEVES JUNIOR
author_role author
dc.contributor.none.fl_str_mv MARCO ANTONIO CASANOVA
MARCO ANTONIO CASANOVA
MARCO ANTONIO CASANOVA
dc.contributor.author.fl_str_mv ANGELO BATISTA NEVES JUNIOR
dc.subject.por.fl_str_mv [pt] BENCHMARK
[pt] INTERFACE EM LINGUAGEM NATURAL
[pt] DATASETS
[en] BENCHMARK
[en] NATURAL LANGUAGE INTERFACE
[en] DATASETS
topic [pt] BENCHMARK
[pt] INTERFACE EM LINGUAGEM NATURAL
[pt] DATASETS
[en] BENCHMARK
[en] NATURAL LANGUAGE INTERFACE
[en] DATASETS
description [pt] Os sistemas de busca textual fornecem aos usuários uma alternativa amigável para acessar datasets RDF (Resource Description Framework). A avaliação de desempenho de tais sistemas requer benchmarks adequados, consistindo de datasets RDF, consultas e respectivas respostas esperadas. No entanto, os benchmarks disponíveis geralmente possuem poucas consultas e respostas incompletas, principalmente porque são construídos manualmente com a ajuda de especialistas. A contribuição central desta tese é um método para construir benchmarks automaticamente, com um maior número de consultas e com respostas mais completas. O método proposto aplica-se tanto a consultas baseadas em palavras-chave quanto em linguagem natural e possui duas partes: geração de consultas e geração de respostas. A geração de consultas seleciona um conjunto de entidades relevantes, chamadas de indutores, e, para cada uma, heurísticas orientam o processo de extração de consultas relacionadas. A geração de respostas recebe as consultas produzidas no passo anterior e computa geradores de solução (SG), subgrafos do dataset original contendo diferentes respostas às consultas. Heurísticas também orientam a construção dos SGs evitando o desperdiço de recursos computacionais na geração de respostas irrelevantes.
publishDate 2022
dc.date.none.fl_str_mv 2022-11-04
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/other
format other
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@2
http://doi.org/10.17771/PUCRio.acad.61091
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=61091@2
http://doi.org/10.17771/PUCRio.acad.61091
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1814822638496776192