Avoiding question-answering congestion on health services using chatbots
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/80111 |
Resumo: | Dissertação de mestrado integrado em Engenharia Informática |
id |
RCAP_6f625e0819982075a74f3d3a8e617f3e |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/80111 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Avoiding question-answering congestion on health services using chatbotsChatbotInformation processingNatural language processingCOVID-19Processamento da informaçãoProcessamento de linguagem naturalweb crawlingDissertação de mestrado integrado em Engenharia InformáticaThe proliferation of social networks presents a significant amount of fake news and fake information every day and every second. The COVID-19 pandemic confirms this situation. The general ignorance of this disease causes the spreading of misleading information, harming people's lives and governments' actions to contain it. To fight this infodemic, the populations resorted to the health services' phone lines, congesting them with questions, most of them repeated among different individuals and locations. A chatbot for COVID-19- related questions would redirect this workload from the health services, mitigating such congestion. This chatbot should work for both the English and Portuguese languages. This work provides a background overview about web crawlers, information processing and chatbot development, which are the three components of the application. A systematic literature review was done to provide an analysis of the existing literature on the mentioned thematics. The application presented in this work consists of three main modules: a web crawler, using the ACHE crawler application, which downloads the web pages from the trustworthy sources; a text processor, that parses the web pages and indexes them according to their language to the respective ElasticSearch index; and a chatbot component, composed by a fine-tuned BERT model with the SQuAD 2.0 dataset and a web interface that queries the ElasticSearch indexes for the most relevant pages and extracts the answers to the given questions by the users. To comply with the English and Portuguese requirement, two sets of reliable sources were defined (one for each language) and a translated version of SQuAD 1.1 dataset was used to train the Portuguese BERT model. The chatbot queries the correct model using the web browser's defined language. Our system was evaluated using a set of COVID-19 QA pairs extracted from the United Nations website, and the obtained results are described in this work. These were far from the desirable outcomes, so some improvements were applied to the crawler and to the ElasticSearch indexes. However the results were still not satisfactory, requiring a set of future modifications that are presented in this work.Com a proliferação das redes sociais, um número significativo de fake news é disponibilizado às pessoas todos os dias, a cada segundo. Isto foi confirmado durante a pandemia da COVID-19, onde um desconhecimento geral da doença causou a difusão de informação enganosa, colocando em risco a vida das pessoas e as ações governamentais que visavam o controlo da doença. Para combater esta infodemia, as populações recorreram às linhas telefónicas dos serviços de saúde nacionais, congestionando-as com questões muitas vezes repetidas. Com o intuito de mitigar este con-gestionamento, um chatbot para a COVID-19 ajudaria a redirecionar esta carga de trabalho dos serviços de saúde para a aplicação. Este chatbot deve suportar as linguas Portuguesa e Inglesa. Este trabalho apresenta uma visão geral acerca de web crawlers, de processamento de informação e de desenvolvimento de chatbots. Uma revisão sistemática da literatura foi conduzida com o intuito de apresentar uma análise da literatura existente. A aplicação apresentada neste trabalho consiste em três componentes principais: um web crawler, usando a aplicação ACHE, que descarrega as páginas web das fontes confiáveis; um componente de processamento de texto, que processa as páginas e as indexa de acordo com a sua língua no respetivo índice de ElasticSearch; e um chatbot, composto por um modelo BERT treinado e refinado com o dataset SQuAD 2.0 e uma interface web, que pesquisa no ElasticSearch as páginas mais relevantes e extrai dai as respostas para as perguntas dos utilizadores. Para satisfazer o requisito das duas línguas, dois conjuntos de páginas confiáveis foram definidos (um para cada lingua), e uma versão traduzida do SQuAD 1.1 foi utilizada para treinar o modelo BERT em Português. O chatbot questiona o modelo correto consoante a língua configurada no browser utilizado. O sistema foi avaliado usando um conjunto real de perguntas e respostas sobre COVID-19, sendo apresentados neste trabalho os resultados obtidos. Estes ficaram longe do desejado, pelo que algumas melhorias foram aplicadas ao sistema. Porém, os resultados permaneceram ainda assim insatisfatórios, necessitando de um conjunto de Muras alterações que são apresentadas neste trabalhoMacedo, JoaquimCraveiro, OlgaUniversidade do MinhoPereira, Henrique Manuel Palmeira2022-05-182022-05-18T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80111eng203022963info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-09T01:20:28Zoai:repositorium.sdum.uminho.pt:1822/80111Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:16:10.939642Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Avoiding question-answering congestion on health services using chatbots |
title |
Avoiding question-answering congestion on health services using chatbots |
spellingShingle |
Avoiding question-answering congestion on health services using chatbots Pereira, Henrique Manuel Palmeira Chatbot Information processing Natural language processing COVID-19 Processamento da informação Processamento de linguagem natural web crawling |
title_short |
Avoiding question-answering congestion on health services using chatbots |
title_full |
Avoiding question-answering congestion on health services using chatbots |
title_fullStr |
Avoiding question-answering congestion on health services using chatbots |
title_full_unstemmed |
Avoiding question-answering congestion on health services using chatbots |
title_sort |
Avoiding question-answering congestion on health services using chatbots |
author |
Pereira, Henrique Manuel Palmeira |
author_facet |
Pereira, Henrique Manuel Palmeira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Macedo, Joaquim Craveiro, Olga Universidade do Minho |
dc.contributor.author.fl_str_mv |
Pereira, Henrique Manuel Palmeira |
dc.subject.por.fl_str_mv |
Chatbot Information processing Natural language processing COVID-19 Processamento da informação Processamento de linguagem natural web crawling |
topic |
Chatbot Information processing Natural language processing COVID-19 Processamento da informação Processamento de linguagem natural web crawling |
description |
Dissertação de mestrado integrado em Engenharia Informática |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-05-18 2022-05-18T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/80111 |
url |
https://hdl.handle.net/1822/80111 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203022963 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132609915125760 |