Beyond accuracy : completeness and relevance metrics for evaluating long answers

Detalhes bibliográficos
Autor(a) principal: Côrtes, Eduardo Gabriel
Data de Publicação: 2024
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/276519
Resumo: O desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários.
id URGS_e928d9289610e9fbee1fd85b1d3015f6
oai_identifier_str oai:www.lume.ufrgs.br:10183/276519
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Côrtes, Eduardo GabrielBarone, Dante Augusto CoutoVieira, Renata2024-07-19T06:21:40Z2024http://hdl.handle.net/10183/276519001206899O desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários.The development of Question Answering (QA) systems that provide long answers face significant challenges in assessing the quality of these answers. Developing metrics ca pable of evaluating specific criteria individually, such as completeness, relevance, cor rectness and comprehensiveness, are important for identifying weaknesses and guiding improvements in these systems. Traditional metrics, like BLEU and ROUGE, often fail to capture semantic details and linguistic flexibility, and rely on a single score value that indicates how similar the system generated answer is compared to a reference answer. In this context, the goal of this work is to initiate and establish research, development, and validation of specific metrics to evaluate the completeness and relevance of answers pro vided by QA systems. For this purpose, a systematic review of non-factoid QA systems was conducted, followed by the creation of a dataset specifically annotated to assess com pleteness and relevance, containing long answers annotated by humans based on these criteria. Three metric models for evaluating these criteria were proposed: a prompt-based strategy using Large Language Models (LLMs), such as GPT-4; a model that adapts con cepts of precision and recall to assess relevance and completeness, respectively, by seg menting the answer into discrete information units; and a regression model trained with synthetic data to assign scores of completeness and relevance. The experiments con ducted compared these new metrics with conventional metrics to assess their correlation with human evaluations. The results highlighted the efficacy of the prompt model with GPT-4, which showed high correlation with human judgment, as well as the regression model, which shows high correlation in evaluating completeness, suggesting that metrics that do not require reference answers are competitive and can surpass traditional metrics in various scenarios.application/pdfengProcessamento de linguagem naturalAprendizado de máquinaInteligência artificialRespostas longasAvaliação da qualidadeQuestion answeringNon-factoid questionsAnswer evaluationSystematic revieBeyond accuracy : completeness and relevance metrics for evaluating long answersAlém da acurácia: métricas de completude e relevância para avaliar respostas longasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2024doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001206899.pdf.txt001206899.pdf.txtExtracted Texttext/plain389824http://www.lume.ufrgs.br/bitstream/10183/276519/2/001206899.pdf.txt9ad3872b89ce5205e3d6a63db9806b94MD52ORIGINAL001206899.pdfTexto completo (inglês)application/pdf2451469http://www.lume.ufrgs.br/bitstream/10183/276519/1/001206899.pdfea747477aa3106894e73891e222af883MD5110183/2765192024-07-20 06:24:23.358515oai:www.lume.ufrgs.br:10183/276519Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-07-20T09:24:23Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Beyond accuracy : completeness and relevance metrics for evaluating long answers
dc.title.alternative.pt.fl_str_mv Além da acurácia: métricas de completude e relevância para avaliar respostas longas
title Beyond accuracy : completeness and relevance metrics for evaluating long answers
spellingShingle Beyond accuracy : completeness and relevance metrics for evaluating long answers
Côrtes, Eduardo Gabriel
Processamento de linguagem natural
Aprendizado de máquina
Inteligência artificial
Respostas longas
Avaliação da qualidade
Question answering
Non-factoid questions
Answer evaluation
Systematic revie
title_short Beyond accuracy : completeness and relevance metrics for evaluating long answers
title_full Beyond accuracy : completeness and relevance metrics for evaluating long answers
title_fullStr Beyond accuracy : completeness and relevance metrics for evaluating long answers
title_full_unstemmed Beyond accuracy : completeness and relevance metrics for evaluating long answers
title_sort Beyond accuracy : completeness and relevance metrics for evaluating long answers
author Côrtes, Eduardo Gabriel
author_facet Côrtes, Eduardo Gabriel
author_role author
dc.contributor.author.fl_str_mv Côrtes, Eduardo Gabriel
dc.contributor.advisor1.fl_str_mv Barone, Dante Augusto Couto
dc.contributor.advisor-co1.fl_str_mv Vieira, Renata
contributor_str_mv Barone, Dante Augusto Couto
Vieira, Renata
dc.subject.por.fl_str_mv Processamento de linguagem natural
Aprendizado de máquina
Inteligência artificial
Respostas longas
Avaliação da qualidade
topic Processamento de linguagem natural
Aprendizado de máquina
Inteligência artificial
Respostas longas
Avaliação da qualidade
Question answering
Non-factoid questions
Answer evaluation
Systematic revie
dc.subject.eng.fl_str_mv Question answering
Non-factoid questions
Answer evaluation
Systematic revie
description O desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-07-19T06:21:40Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/276519
dc.identifier.nrb.pt_BR.fl_str_mv 001206899
url http://hdl.handle.net/10183/276519
identifier_str_mv 001206899
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/276519/2/001206899.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/276519/1/001206899.pdf
bitstream.checksum.fl_str_mv 9ad3872b89ce5205e3d6a63db9806b94
ea747477aa3106894e73891e222af883
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085645915258880