Arbitrary Portuguese text style transfer

Detalhes bibliográficos
Autor(a) principal: Botton da Costa, Pablo
Data de Publicação: 2023
Outros Autores: Paraboni, Ivandré
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.15.2.410
Resumo: In Automatic Natural Language Generation, arbitrary style transfer models aim to rewrite a text using any desired new set of stylistic features. In the case of the Portuguese language, however, we notice that the resources required for the development of models of this type are still considerably scarce compared to those dedicated to the English language. Thus, as a first step towards the development of advanced methods of this kind, the present work investigates the issue of arbitrary style transfer with the aid of paraphrases in Portuguese, combined with the use of neural models built from sequence-to-sequence architectures and by refining a number of large language models. In addition to the textual rewriting models themselves, the study also presents novel resources for the task in the form of a corpus of paraphrases and a model of embeddingsvalidated in both sentence similarity and simplification tasks, with results comparable to the state of the art.
id RCAP_7f21298ba0b98fb2a1e52ceb50ee0a94
oai_identifier_str oai:linguamatica.com:article/410
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Arbitrary Portuguese text style transferTransferência de estilo textual arbitrário em portuguêsTransferência de estilo textual arbitrário em portuguêsnatural language generationarbitrary style transferparaphrasessequence-to-sequencelarge language modelsgeração de língua naturaltransferência de estilo arbitrárioparáfrasessequência-para-sequênciagrandes modelos de línguaIn Automatic Natural Language Generation, arbitrary style transfer models aim to rewrite a text using any desired new set of stylistic features. In the case of the Portuguese language, however, we notice that the resources required for the development of models of this type are still considerably scarce compared to those dedicated to the English language. Thus, as a first step towards the development of advanced methods of this kind, the present work investigates the issue of arbitrary style transfer with the aid of paraphrases in Portuguese, combined with the use of neural models built from sequence-to-sequence architectures and by refining a number of large language models. In addition to the textual rewriting models themselves, the study also presents novel resources for the task in the form of a corpus of paraphrases and a model of embeddingsvalidated in both sentence similarity and simplification tasks, with results comparable to the state of the art. Na Geração automática de língua natural, modelos de transferência de estilo textual arbitrário objetivam a reescrita de um texto usando qualquer novo conjunto de características estilísticas desejado. Em se tratando do idioma português, entretanto, observa-se que os recursos linguístico-computacionais necessários para o desenvolvimento de modelos deste tipo ainda são consideravelmente escassos em comparação à língua inglesa. Assim, como um primeiro passo em direção ao desenvolvimento de métodos avançados deste tipo, o presente trabalho investiga a questão da transferência de estilo textual arbitrário com o uso de paráfrases em português, combinadas ao uso de modelos neurais construídos a partir de arquiteturas do tipo sequência-para-sequência e por refinamento de grandes modelos de língua. Além dos modelos de reescrita textuais propriamente ditos, o estudo apresenta também recursos inéditos para a tarefa na forma de um córpus de paráfrases e de um modelo de \textit{embeddings} validado nas tarefas de similaridade e simplificação sentencial, com resultados comparáveis ao estado da arte. Na Geração automática de língua natural, modelos de transferência de estilo textual arbitrário objetivam a reescrita de um texto usando qualquer novo conjunto de características estilísticas desejado. Em se tratando do idioma português, entretanto, observa-se que os recursos linguístico-computacionais necessários para o desenvolvimento de modelos deste tipo ainda são consideravelmente escassos em comparação à língua inglesa. Assim, como um primeiro passo em direção ao desenvolvimento de métodos avançados deste tipo, o presente trabalho investiga a questão da transferência de estilo textual arbitrário com o uso de paráfrases em português, combinadas ao uso de modelos neurais construídos a partir de arquiteturas do tipo sequência-para-sequência e por refinamento de grandes modelos de língua. Além dos modelos de reescrita textuais propriamente ditos, o estudo apresenta também recursos inéditos para a tarefa na forma de um córpus de paráfrases e de um modelo de \textit{embeddings} validado nas tarefas de similaridade e simplificação sentencial, com resultados comparáveis ao estado da arte.Universidade do Minho e Universidade de Vigo2023-12-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.2.410https://doi.org/10.21814/lm.15.2.410Linguamática; Vol. 15 No. 2; 19--36Linguamática; v. 15 n. 2; 19--36Linguamática; Vol. 15 Núm. 2; 19--361647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/410https://linguamatica.com/index.php/linguamatica/article/view/410/500Direitos de Autor (c) 2023 Pablo Botton da Costa, Ivandré Parabonihttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessBotton da Costa, PabloParaboni, Ivandré2024-01-05T13:45:19Zoai:linguamatica.com:article/410Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:30:17.454473Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Arbitrary Portuguese text style transfer
Transferência de estilo textual arbitrário em português
Transferência de estilo textual arbitrário em português
title Arbitrary Portuguese text style transfer
spellingShingle Arbitrary Portuguese text style transfer
Botton da Costa, Pablo
natural language generation
arbitrary style transfer
paraphrases
sequence-to-sequence
large language models
geração de língua natural
transferência de estilo arbitrário
paráfrases
sequência-para-sequência
grandes modelos de língua
title_short Arbitrary Portuguese text style transfer
title_full Arbitrary Portuguese text style transfer
title_fullStr Arbitrary Portuguese text style transfer
title_full_unstemmed Arbitrary Portuguese text style transfer
title_sort Arbitrary Portuguese text style transfer
author Botton da Costa, Pablo
author_facet Botton da Costa, Pablo
Paraboni, Ivandré
author_role author
author2 Paraboni, Ivandré
author2_role author
dc.contributor.author.fl_str_mv Botton da Costa, Pablo
Paraboni, Ivandré
dc.subject.por.fl_str_mv natural language generation
arbitrary style transfer
paraphrases
sequence-to-sequence
large language models
geração de língua natural
transferência de estilo arbitrário
paráfrases
sequência-para-sequência
grandes modelos de língua
topic natural language generation
arbitrary style transfer
paraphrases
sequence-to-sequence
large language models
geração de língua natural
transferência de estilo arbitrário
paráfrases
sequência-para-sequência
grandes modelos de língua
description In Automatic Natural Language Generation, arbitrary style transfer models aim to rewrite a text using any desired new set of stylistic features. In the case of the Portuguese language, however, we notice that the resources required for the development of models of this type are still considerably scarce compared to those dedicated to the English language. Thus, as a first step towards the development of advanced methods of this kind, the present work investigates the issue of arbitrary style transfer with the aid of paraphrases in Portuguese, combined with the use of neural models built from sequence-to-sequence architectures and by refining a number of large language models. In addition to the textual rewriting models themselves, the study also presents novel resources for the task in the form of a corpus of paraphrases and a model of embeddingsvalidated in both sentence similarity and simplification tasks, with results comparable to the state of the art.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.15.2.410
https://doi.org/10.21814/lm.15.2.410
url https://doi.org/10.21814/lm.15.2.410
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/410
https://linguamatica.com/index.php/linguamatica/article/view/410/500
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2023 Pablo Botton da Costa, Ivandré Paraboni
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2023 Pablo Botton da Costa, Ivandré Paraboni
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 15 No. 2; 19--36
Linguamática; v. 15 n. 2; 19--36
Linguamática; Vol. 15 Núm. 2; 19--36
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136784742875136