Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa

Detalhes bibliográficos
Autor(a) principal: Dias, Filipe Faria
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/272013
Resumo: Nos últimos anos, houve um aumento significativo de publicações de relatórios de ensaios clínicos com mais de 10.000 relatórios somente para câncer de mama. Consequentemente, tornou-se inviável para os profissionais de saúde ficarem atualizados sobre toda a literatura, com o fim de fornecer o melhor tratamento possível de acordo com os sintomas dos pacientes, dada a elevada quantidade de informações disponíveis a todo momento. Seguindo nesse contexto, o workshop SemEval de 2023 propôs um desafio que envolve desenvolver um sistema que faz a recuperação de um conjunto de evidências que suportam uma consulta em relatórios de ensaios clínicos. Muitos times participaram desse desafio utilizando diversas técnicas diferentes. Observou-se que as técnicas que utilizaram modelos generativos obtiveram os melhores resultados com relação à métrica F1, contudo, os modelos discriminativos que implementaram um modelo com base no DeBERTa-large também obtiveram resultados competitivos. O objetivo do trabalho foi desenvolver um modelo que faz a recuperação de evidências nesses relatórios clínicos utilizando o modelo Biomed RoBERTa. Nossa abordagem envolveu realizar uma serie de treinamentos variando a métrica a de otimização (acurácia, reovcação e F1) e os hiperparâmetros (taxa de aprendizado e tamanho máximo da sequência de entrada). Nossos melhores resultados foram obtidos com o treinamento baseado na métrica de revocação, que foram superiores ao resultado que obtivemos no workshop, com o valor de F1 de 0,733.
id UFRGS-2_be3d661592cbe53d32280b1f83415821
oai_identifier_str oai:www.lume.ufrgs.br:10183/272013
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Dias, Filipe FariaMoreira, Viviane PereiraDias, Abel Corrêa2024-02-16T05:00:46Z2023http://hdl.handle.net/10183/272013001195954Nos últimos anos, houve um aumento significativo de publicações de relatórios de ensaios clínicos com mais de 10.000 relatórios somente para câncer de mama. Consequentemente, tornou-se inviável para os profissionais de saúde ficarem atualizados sobre toda a literatura, com o fim de fornecer o melhor tratamento possível de acordo com os sintomas dos pacientes, dada a elevada quantidade de informações disponíveis a todo momento. Seguindo nesse contexto, o workshop SemEval de 2023 propôs um desafio que envolve desenvolver um sistema que faz a recuperação de um conjunto de evidências que suportam uma consulta em relatórios de ensaios clínicos. Muitos times participaram desse desafio utilizando diversas técnicas diferentes. Observou-se que as técnicas que utilizaram modelos generativos obtiveram os melhores resultados com relação à métrica F1, contudo, os modelos discriminativos que implementaram um modelo com base no DeBERTa-large também obtiveram resultados competitivos. O objetivo do trabalho foi desenvolver um modelo que faz a recuperação de evidências nesses relatórios clínicos utilizando o modelo Biomed RoBERTa. Nossa abordagem envolveu realizar uma serie de treinamentos variando a métrica a de otimização (acurácia, reovcação e F1) e os hiperparâmetros (taxa de aprendizado e tamanho máximo da sequência de entrada). Nossos melhores resultados foram obtidos com o treinamento baseado na métrica de revocação, que foram superiores ao resultado que obtivemos no workshop, com o valor de F1 de 0,733.In recent years, there has been a significant increase in the publication of clinical trial reports, with over 10,000 reports for breast cancer alone. Consequently, it has become unfeasible for healthcare professionals to stay updated on the entire literature in order to provide the best possible treatment based on patients’ symptoms, given the vast amount of constantly available information. In this context, the SemEval 2023 workshop pro posed a challenge involving the development of a system that retrieves a set of evidence supporting a query in clinical trial reports. Many teams participated in this challenge us ing various techniques. It was observed that techniques using generative models achieved the best results in terms of the F1 metric; however, discriminative models implementing a DeBERTa-large-based model also achieved competitive results. The objective of this work was to develop a model for evidence retrieval in these clinical reports using the Biomed RoBERTa model. Our approach involved a series of training iterations, varying the optimization metric (accuracy, recall, and F1) and hyperparameters (learning rate and maximum input sequence length). Our best results were obtained with training based on the recall metric, which outperformed our workshop result with an F1 score of 0.733.application/pdfengAprendizado de máquinaProcessamento de linguagem naturalAprendizado profundoEvidence retrievalHiperparameter settingsRecuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTaEvidence retrieval in clinical trial reports using the biomedical RoBERTa model info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2023Ciência da Computação: Ênfase em Engenharia da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001195954.pdf.txt001195954.pdf.txtExtracted Texttext/plain94131http://www.lume.ufrgs.br/bitstream/10183/272013/2/001195954.pdf.txtc1d5246ef301129b59e83c3b3557557fMD52ORIGINAL001195954.pdfTexto completoapplication/pdf777518http://www.lume.ufrgs.br/bitstream/10183/272013/1/001195954.pdfd46b0ebeef0fd787a0612ebd96e5fd46MD5110183/2720132024-02-17 05:55:59.80544oai:www.lume.ufrgs.br:10183/272013Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-02-17T07:55:59Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
dc.title.alternative.en.fl_str_mv Evidence retrieval in clinical trial reports using the biomedical RoBERTa model
title Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
spellingShingle Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
Dias, Filipe Faria
Aprendizado de máquina
Processamento de linguagem natural
Aprendizado profundo
Evidence retrieval
Hiperparameter settings
title_short Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
title_full Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
title_fullStr Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
title_full_unstemmed Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
title_sort Recuperação de evidências em relatórios de ensaios clínicos utilizando o modelo biomédico RoBERTa
author Dias, Filipe Faria
author_facet Dias, Filipe Faria
author_role author
dc.contributor.author.fl_str_mv Dias, Filipe Faria
dc.contributor.advisor1.fl_str_mv Moreira, Viviane Pereira
dc.contributor.advisor-co1.fl_str_mv Dias, Abel Corrêa
contributor_str_mv Moreira, Viviane Pereira
Dias, Abel Corrêa
dc.subject.por.fl_str_mv Aprendizado de máquina
Processamento de linguagem natural
Aprendizado profundo
topic Aprendizado de máquina
Processamento de linguagem natural
Aprendizado profundo
Evidence retrieval
Hiperparameter settings
dc.subject.eng.fl_str_mv Evidence retrieval
Hiperparameter settings
description Nos últimos anos, houve um aumento significativo de publicações de relatórios de ensaios clínicos com mais de 10.000 relatórios somente para câncer de mama. Consequentemente, tornou-se inviável para os profissionais de saúde ficarem atualizados sobre toda a literatura, com o fim de fornecer o melhor tratamento possível de acordo com os sintomas dos pacientes, dada a elevada quantidade de informações disponíveis a todo momento. Seguindo nesse contexto, o workshop SemEval de 2023 propôs um desafio que envolve desenvolver um sistema que faz a recuperação de um conjunto de evidências que suportam uma consulta em relatórios de ensaios clínicos. Muitos times participaram desse desafio utilizando diversas técnicas diferentes. Observou-se que as técnicas que utilizaram modelos generativos obtiveram os melhores resultados com relação à métrica F1, contudo, os modelos discriminativos que implementaram um modelo com base no DeBERTa-large também obtiveram resultados competitivos. O objetivo do trabalho foi desenvolver um modelo que faz a recuperação de evidências nesses relatórios clínicos utilizando o modelo Biomed RoBERTa. Nossa abordagem envolveu realizar uma serie de treinamentos variando a métrica a de otimização (acurácia, reovcação e F1) e os hiperparâmetros (taxa de aprendizado e tamanho máximo da sequência de entrada). Nossos melhores resultados foram obtidos com o treinamento baseado na métrica de revocação, que foram superiores ao resultado que obtivemos no workshop, com o valor de F1 de 0,733.
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-02-16T05:00:46Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/272013
dc.identifier.nrb.pt_BR.fl_str_mv 001195954
url http://hdl.handle.net/10183/272013
identifier_str_mv 001195954
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/272013/2/001195954.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/272013/1/001195954.pdf
bitstream.checksum.fl_str_mv c1d5246ef301129b59e83c3b3557557f
d46b0ebeef0fd787a0612ebd96e5fd46
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447358367858688