[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE

DAYSON NYWTON C R DO NASCIMENTO

[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE

Detalhes bibliográficos
Autor(a) principal:	DAYSON NYWTON C R DO NASCIMENTO
Data de Publicação:	2023
Tipo de documento:	Outros
Idioma:	por
Título da fonte:	Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@2 http://doi.org/10.17771/PUCRio.acad.64511
Resumo:	[pt] Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM (Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a sumarização abstrativa de textos longos em português. Para isso, construímos um corpus contendo uma coleção de 7.450 artigos científicos na área de Ciências da Saúde em português. Utilizamos esse corpus para o fine-tuning do modelo BERT pré-treinado para o português brasileiro (BERTimbau). Em condições semelhantes, também treinamos um segundo modelo baseado em Memória de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação. Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score. O fine-tuning do modelo pré-treinado também se destaca em uma avaliação qualitativa feita por avaliadores a ponto de gerar a percepção de que os resumos gerados poderiam ter sido criados por humanos em uma coleção de documentos específicos do domínio das Ciências da Saúde.

Metadados do item

id	PUC_RIO-1_34a54eaad1a0fb66334ede279066f7df
oai_identifier_str	oai:MAXWELL.puc-rio.br:64511
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str	534
spelling	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE [pt] SUMARIZAÇÃO DE ARTIGOS CIENTÍFICOS EM PORTUGUÊS NO DOMÍNIO DA SAÚDE [pt] PORTUGUES[pt] ARTIGOS CIENTIFICOS[pt] SUMARIZACAO ABSTRATIVA[pt] FINE-TUNING[pt] GRANDE MODELO DE LINGUAGEM[en] PORTUGUESE[en] SCIENTIFIC PAPERS[en] ABSTRACTIVE SUMMARIZATION[en] FINE-TUNING[en] LARGE LANGUAGE MODEL[pt] Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM (Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a sumarização abstrativa de textos longos em português. Para isso, construímos um corpus contendo uma coleção de 7.450 artigos científicos na área de Ciências da Saúde em português. Utilizamos esse corpus para o fine-tuning do modelo BERT pré-treinado para o português brasileiro (BERTimbau). Em condições semelhantes, também treinamos um segundo modelo baseado em Memória de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação. Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score. O fine-tuning do modelo pré-treinado também se destaca em uma avaliação qualitativa feita por avaliadores a ponto de gerar a percepção de que os resumos gerados poderiam ter sido criados por humanos em uma coleção de documentos específicos do domínio das Ciências da Saúde. [en] In this work, we present a study on the fine-tuning of a pre-trained Large Language Model for abstractive summarization of long texts in Portuguese. To do so, we built a corpus gathering a collection of 7,450 public Health Sciences papers in Portuguese. We fine-tuned a pre-trained BERT model for Brazilian Portuguese (the BERTimbau) with this corpus. In a similar condition, we also trained a second model based on Long Short-Term Memory (LSTM) from scratch for comparison purposes. Our evaluation showed that the fine-tuned model achieved higher ROUGE scores, outperforming the LSTM based by 30 points for F1-score. The fine-tuning of the pre-trained model also stands out in a qualitative evaluation performed by assessors, to the point of generating the perception that the generated summaries could have been created by humans in a specific collection of documents in the Health Sciences domain.MAXWELLHELIO CORTES VIEIRA LOPESDAYSON NYWTON C R DO NASCIMENTO2023-10-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@2http://doi.org/10.17771/PUCRio.acad.64511porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2023-10-30T00:00:00Zoai:MAXWELL.puc-rio.br:64511Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342023-10-30T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE [pt] SUMARIZAÇÃO DE ARTIGOS CIENTÍFICOS EM PORTUGUÊS NO DOMÍNIO DA SAÚDE
title	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE
spellingShingle	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE DAYSON NYWTON C R DO NASCIMENTO [pt] PORTUGUES [pt] ARTIGOS CIENTIFICOS [pt] SUMARIZACAO ABSTRATIVA [pt] FINE-TUNING [pt] GRANDE MODELO DE LINGUAGEM [en] PORTUGUESE [en] SCIENTIFIC PAPERS [en] ABSTRACTIVE SUMMARIZATION [en] FINE-TUNING [en] LARGE LANGUAGE MODEL
title_short	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE
title_full	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE
title_fullStr	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE
title_full_unstemmed	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE
title_sort	[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE
author	DAYSON NYWTON C R DO NASCIMENTO
author_facet	DAYSON NYWTON C R DO NASCIMENTO
author_role	author
dc.contributor.none.fl_str_mv	HELIO CORTES VIEIRA LOPES
dc.contributor.author.fl_str_mv	DAYSON NYWTON C R DO NASCIMENTO
dc.subject.por.fl_str_mv	[pt] PORTUGUES [pt] ARTIGOS CIENTIFICOS [pt] SUMARIZACAO ABSTRATIVA [pt] FINE-TUNING [pt] GRANDE MODELO DE LINGUAGEM [en] PORTUGUESE [en] SCIENTIFIC PAPERS [en] ABSTRACTIVE SUMMARIZATION [en] FINE-TUNING [en] LARGE LANGUAGE MODEL
topic	[pt] PORTUGUES [pt] ARTIGOS CIENTIFICOS [pt] SUMARIZACAO ABSTRATIVA [pt] FINE-TUNING [pt] GRANDE MODELO DE LINGUAGEM [en] PORTUGUESE [en] SCIENTIFIC PAPERS [en] ABSTRACTIVE SUMMARIZATION [en] FINE-TUNING [en] LARGE LANGUAGE MODEL
description	[pt] Neste trabalho, apresentamos um estudo sobre o fine-tuning de um LLM (Modelo de Linguagem Amplo ou Large Language Model) pré-treinado para a sumarização abstrativa de textos longos em português. Para isso, construímos um corpus contendo uma coleção de 7.450 artigos científicos na área de Ciências da Saúde em português. Utilizamos esse corpus para o fine-tuning do modelo BERT pré-treinado para o português brasileiro (BERTimbau). Em condições semelhantes, também treinamos um segundo modelo baseado em Memória de Longo Prazo e Recorrência (LSTM) do zero, para fins de comparação. Nossa avaliação mostrou que o modelo ajustado obteve pontuações ROUGE mais altas, superando o modelo baseado em LSTM em 30 pontos no F1-score. O fine-tuning do modelo pré-treinado também se destaca em uma avaliação qualitativa feita por avaliadores a ponto de gerar a percepção de que os resumos gerados poderiam ter sido criados por humanos em uma coleção de documentos específicos do domínio das Ciências da Saúde.
publishDate	2023
dc.date.none.fl_str_mv	2023-10-30
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/other
format	other
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@2 http://doi.org/10.17771/PUCRio.acad.64511
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=64511@2 http://doi.org/10.17771/PUCRio.acad.64511
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1814822643350634496

[en] SUMARIZATION OF HEALTH SCIENCE PAPERS IN PORTUGUESE

Registros relacionados