Avoiding question-answering congestion on health services using chatbots

Detalhes bibliográficos
Autor(a) principal: Pereira, Henrique Manuel Palmeira
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/80111
Resumo: Dissertação de mestrado integrado em Engenharia Informática
id RCAP_6f625e0819982075a74f3d3a8e617f3e
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/80111
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Avoiding question-answering congestion on health services using chatbotsChatbotInformation processingNatural language processingCOVID-19Processamento da informaçãoProcessamento de linguagem naturalweb crawlingDissertação de mestrado integrado em Engenharia InformáticaThe proliferation of social networks presents a significant amount of fake news and fake information every day and every second. The COVID-19 pandemic confirms this situation. The general ignorance of this disease causes the spreading of misleading information, harming people's lives and governments' actions to contain it. To fight this infodemic, the populations resorted to the health services' phone lines, congesting them with questions, most of them repeated among different individuals and locations. A chatbot for COVID-19- related questions would redirect this workload from the health services, mitigating such congestion. This chatbot should work for both the English and Portuguese languages. This work provides a background overview about web crawlers, information processing and chatbot development, which are the three components of the application. A systematic literature review was done to provide an analysis of the existing literature on the mentioned thematics. The application presented in this work consists of three main modules: a web crawler, using the ACHE crawler application, which downloads the web pages from the trustworthy sources; a text processor, that parses the web pages and indexes them according to their language to the respective ElasticSearch index; and a chatbot component, composed by a fine-tuned BERT model with the SQuAD 2.0 dataset and a web interface that queries the ElasticSearch indexes for the most relevant pages and extracts the answers to the given questions by the users. To comply with the English and Portuguese requirement, two sets of reliable sources were defined (one for each language) and a translated version of SQuAD 1.1 dataset was used to train the Portuguese BERT model. The chatbot queries the correct model using the web browser's defined language. Our system was evaluated using a set of COVID-19 QA pairs extracted from the United Nations website, and the obtained results are described in this work. These were far from the desirable outcomes, so some improvements were applied to the crawler and to the ElasticSearch indexes. However the results were still not satisfactory, requiring a set of future modifications that are presented in this work.Com a proliferação das redes sociais, um número significativo de fake news é disponibilizado às pessoas todos os dias, a cada segundo. Isto foi confirmado durante a pandemia da COVID-19, onde um desconhecimento geral da doença causou a difusão de informação enganosa, colocando em risco a vida das pessoas e as ações governamentais que visavam o controlo da doença. Para combater esta infodemia, as populações recorreram às linhas telefónicas dos serviços de saúde nacionais, congestionando-as com questões muitas vezes repetidas. Com o intuito de mitigar este con-gestionamento, um chatbot para a COVID-19 ajudaria a redirecionar esta carga de trabalho dos serviços de saúde para a aplicação. Este chatbot deve suportar as linguas Portuguesa e Inglesa. Este trabalho apresenta uma visão geral acerca de web crawlers, de processamento de informação e de desenvolvimento de chatbots. Uma revisão sistemática da literatura foi conduzida com o intuito de apresentar uma análise da literatura existente. A aplicação apresentada neste trabalho consiste em três componentes principais: um web crawler, usando a aplicação ACHE, que descarrega as páginas web das fontes confiáveis; um componente de processamento de texto, que processa as páginas e as indexa de acordo com a sua língua no respetivo índice de ElasticSearch; e um chatbot, composto por um modelo BERT treinado e refinado com o dataset SQuAD 2.0 e uma interface web, que pesquisa no ElasticSearch as páginas mais relevantes e extrai dai as respostas para as perguntas dos utilizadores. Para satisfazer o requisito das duas línguas, dois conjuntos de páginas confiáveis foram definidos (um para cada lingua), e uma versão traduzida do SQuAD 1.1 foi utilizada para treinar o modelo BERT em Português. O chatbot questiona o modelo correto consoante a língua configurada no browser utilizado. O sistema foi avaliado usando um conjunto real de perguntas e respostas sobre COVID-19, sendo apresentados neste trabalho os resultados obtidos. Estes ficaram longe do desejado, pelo que algumas melhorias foram aplicadas ao sistema. Porém, os resultados permaneceram ainda assim insatisfatórios, necessitando de um conjunto de Muras alterações que são apresentadas neste trabalhoMacedo, JoaquimCraveiro, OlgaUniversidade do MinhoPereira, Henrique Manuel Palmeira2022-05-182022-05-18T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80111eng203022963info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-09T01:20:28Zoai:repositorium.sdum.uminho.pt:1822/80111Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:16:10.939642Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Avoiding question-answering congestion on health services using chatbots
title Avoiding question-answering congestion on health services using chatbots
spellingShingle Avoiding question-answering congestion on health services using chatbots
Pereira, Henrique Manuel Palmeira
Chatbot
Information processing
Natural language processing
COVID-19
Processamento da informação
Processamento de linguagem natural
web crawling
title_short Avoiding question-answering congestion on health services using chatbots
title_full Avoiding question-answering congestion on health services using chatbots
title_fullStr Avoiding question-answering congestion on health services using chatbots
title_full_unstemmed Avoiding question-answering congestion on health services using chatbots
title_sort Avoiding question-answering congestion on health services using chatbots
author Pereira, Henrique Manuel Palmeira
author_facet Pereira, Henrique Manuel Palmeira
author_role author
dc.contributor.none.fl_str_mv Macedo, Joaquim
Craveiro, Olga
Universidade do Minho
dc.contributor.author.fl_str_mv Pereira, Henrique Manuel Palmeira
dc.subject.por.fl_str_mv Chatbot
Information processing
Natural language processing
COVID-19
Processamento da informação
Processamento de linguagem natural
web crawling
topic Chatbot
Information processing
Natural language processing
COVID-19
Processamento da informação
Processamento de linguagem natural
web crawling
description Dissertação de mestrado integrado em Engenharia Informática
publishDate 2022
dc.date.none.fl_str_mv 2022-05-18
2022-05-18T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/80111
url https://hdl.handle.net/1822/80111
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203022963
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132609915125760