Beyond accuracy : completeness and relevance metrics for evaluating long answers
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/276519 |
Resumo: | O desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários. |
id |
URGS_e928d9289610e9fbee1fd85b1d3015f6 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/276519 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Côrtes, Eduardo GabrielBarone, Dante Augusto CoutoVieira, Renata2024-07-19T06:21:40Z2024http://hdl.handle.net/10183/276519001206899O desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários.The development of Question Answering (QA) systems that provide long answers face significant challenges in assessing the quality of these answers. Developing metrics ca pable of evaluating specific criteria individually, such as completeness, relevance, cor rectness and comprehensiveness, are important for identifying weaknesses and guiding improvements in these systems. Traditional metrics, like BLEU and ROUGE, often fail to capture semantic details and linguistic flexibility, and rely on a single score value that indicates how similar the system generated answer is compared to a reference answer. In this context, the goal of this work is to initiate and establish research, development, and validation of specific metrics to evaluate the completeness and relevance of answers pro vided by QA systems. For this purpose, a systematic review of non-factoid QA systems was conducted, followed by the creation of a dataset specifically annotated to assess com pleteness and relevance, containing long answers annotated by humans based on these criteria. Three metric models for evaluating these criteria were proposed: a prompt-based strategy using Large Language Models (LLMs), such as GPT-4; a model that adapts con cepts of precision and recall to assess relevance and completeness, respectively, by seg menting the answer into discrete information units; and a regression model trained with synthetic data to assign scores of completeness and relevance. The experiments con ducted compared these new metrics with conventional metrics to assess their correlation with human evaluations. The results highlighted the efficacy of the prompt model with GPT-4, which showed high correlation with human judgment, as well as the regression model, which shows high correlation in evaluating completeness, suggesting that metrics that do not require reference answers are competitive and can surpass traditional metrics in various scenarios.application/pdfengProcessamento de linguagem naturalAprendizado de máquinaInteligência artificialRespostas longasAvaliação da qualidadeQuestion answeringNon-factoid questionsAnswer evaluationSystematic revieBeyond accuracy : completeness and relevance metrics for evaluating long answersAlém da acurácia: métricas de completude e relevância para avaliar respostas longasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001206899.pdf.txt001206899.pdf.txtExtracted Texttext/plain389824http://www.lume.ufrgs.br/bitstream/10183/276519/2/001206899.pdf.txt9ad3872b89ce5205e3d6a63db9806b94MD52ORIGINAL001206899.pdfTexto completo (inglês)application/pdf2451469http://www.lume.ufrgs.br/bitstream/10183/276519/1/001206899.pdfea747477aa3106894e73891e222af883MD5110183/2765192024-07-20 06:24:23.358515oai:www.lume.ufrgs.br:10183/276519Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-07-20T09:24:23Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Beyond accuracy : completeness and relevance metrics for evaluating long answers |
dc.title.alternative.pt.fl_str_mv |
Além da acurácia: métricas de completude e relevância para avaliar respostas longas |
title |
Beyond accuracy : completeness and relevance metrics for evaluating long answers |
spellingShingle |
Beyond accuracy : completeness and relevance metrics for evaluating long answers Côrtes, Eduardo Gabriel Processamento de linguagem natural Aprendizado de máquina Inteligência artificial Respostas longas Avaliação da qualidade Question answering Non-factoid questions Answer evaluation Systematic revie |
title_short |
Beyond accuracy : completeness and relevance metrics for evaluating long answers |
title_full |
Beyond accuracy : completeness and relevance metrics for evaluating long answers |
title_fullStr |
Beyond accuracy : completeness and relevance metrics for evaluating long answers |
title_full_unstemmed |
Beyond accuracy : completeness and relevance metrics for evaluating long answers |
title_sort |
Beyond accuracy : completeness and relevance metrics for evaluating long answers |
author |
Côrtes, Eduardo Gabriel |
author_facet |
Côrtes, Eduardo Gabriel |
author_role |
author |
dc.contributor.author.fl_str_mv |
Côrtes, Eduardo Gabriel |
dc.contributor.advisor1.fl_str_mv |
Barone, Dante Augusto Couto |
dc.contributor.advisor-co1.fl_str_mv |
Vieira, Renata |
contributor_str_mv |
Barone, Dante Augusto Couto Vieira, Renata |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural Aprendizado de máquina Inteligência artificial Respostas longas Avaliação da qualidade |
topic |
Processamento de linguagem natural Aprendizado de máquina Inteligência artificial Respostas longas Avaliação da qualidade Question answering Non-factoid questions Answer evaluation Systematic revie |
dc.subject.eng.fl_str_mv |
Question answering Non-factoid questions Answer evaluation Systematic revie |
description |
O desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-07-19T06:21:40Z |
dc.date.issued.fl_str_mv |
2024 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/276519 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001206899 |
url |
http://hdl.handle.net/10183/276519 |
identifier_str_mv |
001206899 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/276519/2/001206899.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/276519/1/001206899.pdf |
bitstream.checksum.fl_str_mv |
9ad3872b89ce5205e3d6a63db9806b94 ea747477aa3106894e73891e222af883 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085645915258880 |