DUBI : um framework para avaliação automática de chatbots

Souza Filho, José Ronaldo Agra de Souza

DUBI : um framework para avaliação automática de chatbots

Detalhes bibliográficos
Autor(a) principal:	Souza Filho, José Ronaldo Agra de Souza
Data de Publicação:	2024
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UnB
Texto Completo:	http://repositorio.unb.br/handle/10482/50958
Resumo:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.

Metadados do item

id	UNB_a66ae92f7dad3143e7e2490d327e47db
oai_identifier_str	oai:repositorio.unb.br:10482/50958
network_acronym_str	UNB
network_name_str	Repositório Institucional da UnB
repository_id_str
spelling	DUBI : um framework para avaliação automática de chatbotsChatbotChatbot - avaliaçãoInteligência artificialTestes automatizadosFrameworkDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.A proliferação da inteligência artificial impulsiona a adoção de chatbots, sistemas conversacionais projetados para automatizar interações com usuários. No entanto, avaliá-los representa um desafio complexo e que frequentemente depende da intervenção humana, tornando-se impraticável em larga escala. Uma revisão do estado da arte indicou que duas abordagens de avaliação são utilizadas: estática e interativa. A primeira examina a modelagem do assistente virtual, enquanto a última interage com o sistema para avaliar seu desempenho. No entanto, foi observado que falta um método que combine ambas as avaliações, algo crucial para o diagnóstico completo do sistema. Nesse contexto, este estudo apresenta o framework DUBI, acrônimo para Design Understanding (DU) e chatBot Intelligence (BI), como um meio de avaliar automaticamente chatbots, cobrindo seus componentes estáticos e interativos. O DUBI é um avanço em comparação aos métodos existentes, pois permite a avaliação contínua do desempenho dos assistentes virtuais e fornece recomendações objetivas para aprimorar sua estrutura, que podem ser usadas como base para intervenções. O módulo de avaliação estática mede uma série de métricas e indica quais áreas exigem melhorias na modelagem do chatbot. A avaliação interativa utiliza grandes modelos de linguagem para criar casos de teste a partir do conteúdo de treinamento do chatbot e analisa seu desempenho após a execução desses testes. O procedimento automatizado é o diferencial do DUBI, pois reduz a variabilidade e o viés da avaliação humana, ao mesmo tempo em que economiza tempo e recursos. Um experimento com assistentes virtuais reais foi realizado para validar o DUBI. As descobertas evidenciaram que os aprimoramentos sugeridos pelo DUBI levou a avanços substanciais nas medidas de desempenho. Especificamente, um dos chatbots avaliados teve um aumento notável de 55% na acurácia e uma redução impressionante de 89% na taxa de fallback. Os resultados comprovam a eficácia do DUBI em identificar deficiências na modelagem e propor aprimoramentos tangíveis. Este trabalho contribui para a literatura ao integrar avaliações estáticas e interativas, fornecendo uma ferramenta para melhorar a qualidade de chatbots, o que possibilita reduzir riscos financeiros ou de reputação.The proliferation of artificial intelligence is driving the adoption of chatbots, which are conversational systems designed to automate user interactions. Nevertheless, evaluating chatbots poses an intricate difficulty that frequently depends on human intervention, rendering it impractical on a large scale. A review of the state of the art indicated that two evaluation approaches have been utilized: static and interactive. The former examines the structure and training content of the virtual assistant, while the latter engages with the system to assess its performance. However, it has been noted that there is a lack of a method that combines both evaluations, which are crucial for a thorough system diagnosis. Within this perspective, this study introduces the DUBI framework, an acronym for Design Understanding (DU) and chatBot Intelligence (BI), as a means to automatically assess chatbots, covering both their static and interactive components. DUBI offers a notable improvement compared to existing methods, since it enables ongoing assessment of virtual assistants’ performance and provides objective recommendations for enhancing their structure, which can be used as a basis for interventions. The static assessment measures a range of metrics and provides feedback on areas that require improvement in the chatbot’s modeling. The interactive assessment utilizes large language models to create test cases from the chatbot’s training material and analyzes its performance after the execution of these tests. The automated procedure is a key feature of DUBI, since it reduces the variability and bias from human evaluation while saving time and resources. An experiment was done to authenticate DUBI by employing actual virtual assistants. Our findings demonstrated that implementing the enhancements suggested by DUBI led to substantial advancements in performance measures. Specifically, one of the assessed chatbots had a remarkable 55% increase in accuracy and an impressive 89% decrease in the fallback rate. The results clearly showcase the efficacy of DUBI in pinpointing shortcomings in modeling and proposing tangible enhancements. This work contributes to the literature by integrating static and interactive evaluations, providing a tool to improve chatbot quality and reduce financial or reputational risks.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em Computação Aplicada, Mestrado ProfissionalBordim, Jacir LuizSouza Filho, José Ronaldo Agra de Souza2024-11-19T16:12:53Z2024-11-19T16:12:53Z2024-11-182024-08-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.http://repositorio.unb.br/handle/10482/50958A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-11-19T16:18:47Zoai:repositorio.unb.br:10482/50958Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-11-19T16:18:47Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv	DUBI : um framework para avaliação automática de chatbots
title	DUBI : um framework para avaliação automática de chatbots
spellingShingle	DUBI : um framework para avaliação automática de chatbots Souza Filho, José Ronaldo Agra de Souza Chatbot Chatbot - avaliação Inteligência artificial Testes automatizados Framework
title_short	DUBI : um framework para avaliação automática de chatbots
title_full	DUBI : um framework para avaliação automática de chatbots
title_fullStr	DUBI : um framework para avaliação automática de chatbots
title_full_unstemmed	DUBI : um framework para avaliação automática de chatbots
title_sort	DUBI : um framework para avaliação automática de chatbots
author	Souza Filho, José Ronaldo Agra de Souza
author_facet	Souza Filho, José Ronaldo Agra de Souza
author_role	author
dc.contributor.none.fl_str_mv	Bordim, Jacir Luiz
dc.contributor.author.fl_str_mv	Souza Filho, José Ronaldo Agra de Souza
dc.subject.por.fl_str_mv	Chatbot Chatbot - avaliação Inteligência artificial Testes automatizados Framework
topic	Chatbot Chatbot - avaliação Inteligência artificial Testes automatizados Framework
description	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.
publishDate	2024
dc.date.none.fl_str_mv	2024-11-19T16:12:53Z 2024-11-19T16:12:53Z 2024-11-18 2024-08-06
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	SOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024. http://repositorio.unb.br/handle/10482/50958
identifier_str_mv	SOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.
url	http://repositorio.unb.br/handle/10482/50958
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Repositório Institucional da UnB
collection	Repositório Institucional da UnB
repository.name.fl_str_mv	Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv	repositorio@unb.br
_version_	1824043889928962048

DUBI : um framework para avaliação automática de chatbots

Registros relacionados