DUBI : um framework para avaliação automática de chatbots

Detalhes bibliográficos
Autor(a) principal: Souza Filho, José Ronaldo Agra de Souza
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/50958
Resumo: Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.
id UNB_a66ae92f7dad3143e7e2490d327e47db
oai_identifier_str oai:repositorio.unb.br:10482/50958
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling DUBI : um framework para avaliação automática de chatbotsChatbotChatbot - avaliaçãoInteligência artificialTestes automatizadosFrameworkDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.A proliferação da inteligência artificial impulsiona a adoção de chatbots, sistemas conversacionais projetados para automatizar interações com usuários. No entanto, avaliá-los representa um desafio complexo e que frequentemente depende da intervenção humana, tornando-se impraticável em larga escala. Uma revisão do estado da arte indicou que duas abordagens de avaliação são utilizadas: estática e interativa. A primeira examina a modelagem do assistente virtual, enquanto a última interage com o sistema para avaliar seu desempenho. No entanto, foi observado que falta um método que combine ambas as avaliações, algo crucial para o diagnóstico completo do sistema. Nesse contexto, este estudo apresenta o framework DUBI, acrônimo para Design Understanding (DU) e chatBot Intelligence (BI), como um meio de avaliar automaticamente chatbots, cobrindo seus componentes estáticos e interativos. O DUBI é um avanço em comparação aos métodos existentes, pois permite a avaliação contínua do desempenho dos assistentes virtuais e fornece recomendações objetivas para aprimorar sua estrutura, que podem ser usadas como base para intervenções. O módulo de avaliação estática mede uma série de métricas e indica quais áreas exigem melhorias na modelagem do chatbot. A avaliação interativa utiliza grandes modelos de linguagem para criar casos de teste a partir do conteúdo de treinamento do chatbot e analisa seu desempenho após a execução desses testes. O procedimento automatizado é o diferencial do DUBI, pois reduz a variabilidade e o viés da avaliação humana, ao mesmo tempo em que economiza tempo e recursos. Um experimento com assistentes virtuais reais foi realizado para validar o DUBI. As descobertas evidenciaram que os aprimoramentos sugeridos pelo DUBI levou a avanços substanciais nas medidas de desempenho. Especificamente, um dos chatbots avaliados teve um aumento notável de 55% na acurácia e uma redução impressionante de 89% na taxa de fallback. Os resultados comprovam a eficácia do DUBI em identificar deficiências na modelagem e propor aprimoramentos tangíveis. Este trabalho contribui para a literatura ao integrar avaliações estáticas e interativas, fornecendo uma ferramenta para melhorar a qualidade de chatbots, o que possibilita reduzir riscos financeiros ou de reputação.The proliferation of artificial intelligence is driving the adoption of chatbots, which are conversational systems designed to automate user interactions. Nevertheless, evaluating chatbots poses an intricate difficulty that frequently depends on human intervention, rendering it impractical on a large scale. A review of the state of the art indicated that two evaluation approaches have been utilized: static and interactive. The former examines the structure and training content of the virtual assistant, while the latter engages with the system to assess its performance. However, it has been noted that there is a lack of a method that combines both evaluations, which are crucial for a thorough system diagnosis. Within this perspective, this study introduces the DUBI framework, an acronym for Design Understanding (DU) and chatBot Intelligence (BI), as a means to automatically assess chatbots, covering both their static and interactive components. DUBI offers a notable improvement compared to existing methods, since it enables ongoing assessment of virtual assistants’ performance and provides objective recommendations for enhancing their structure, which can be used as a basis for interventions. The static assessment measures a range of metrics and provides feedback on areas that require improvement in the chatbot’s modeling. The interactive assessment utilizes large language models to create test cases from the chatbot’s training material and analyzes its performance after the execution of these tests. The automated procedure is a key feature of DUBI, since it reduces the variability and bias from human evaluation while saving time and resources. An experiment was done to authenticate DUBI by employing actual virtual assistants. Our findings demonstrated that implementing the enhancements suggested by DUBI led to substantial advancements in performance measures. Specifically, one of the assessed chatbots had a remarkable 55% increase in accuracy and an impressive 89% decrease in the fallback rate. The results clearly showcase the efficacy of DUBI in pinpointing shortcomings in modeling and proposing tangible enhancements. This work contributes to the literature by integrating static and interactive evaluations, providing a tool to improve chatbot quality and reduce financial or reputational risks.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em Computação Aplicada, Mestrado ProfissionalBordim, Jacir LuizSouza Filho, José Ronaldo Agra de Souza2024-11-19T16:12:53Z2024-11-19T16:12:53Z2024-11-182024-08-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.http://repositorio.unb.br/handle/10482/50958A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-11-19T16:18:47Zoai:repositorio.unb.br:10482/50958Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-11-19T16:18:47Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv DUBI : um framework para avaliação automática de chatbots
title DUBI : um framework para avaliação automática de chatbots
spellingShingle DUBI : um framework para avaliação automática de chatbots
Souza Filho, José Ronaldo Agra de Souza
Chatbot
Chatbot - avaliação
Inteligência artificial
Testes automatizados
Framework
title_short DUBI : um framework para avaliação automática de chatbots
title_full DUBI : um framework para avaliação automática de chatbots
title_fullStr DUBI : um framework para avaliação automática de chatbots
title_full_unstemmed DUBI : um framework para avaliação automática de chatbots
title_sort DUBI : um framework para avaliação automática de chatbots
author Souza Filho, José Ronaldo Agra de Souza
author_facet Souza Filho, José Ronaldo Agra de Souza
author_role author
dc.contributor.none.fl_str_mv Bordim, Jacir Luiz
dc.contributor.author.fl_str_mv Souza Filho, José Ronaldo Agra de Souza
dc.subject.por.fl_str_mv Chatbot
Chatbot - avaliação
Inteligência artificial
Testes automatizados
Framework
topic Chatbot
Chatbot - avaliação
Inteligência artificial
Testes automatizados
Framework
description Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-19T16:12:53Z
2024-11-19T16:12:53Z
2024-11-18
2024-08-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.
http://repositorio.unb.br/handle/10482/50958
identifier_str_mv SOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.
url http://repositorio.unb.br/handle/10482/50958
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1818900921683279872