Arbitrary Portuguese text style transfer
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.15.2.410 |
Resumo: | In Automatic Natural Language Generation, arbitrary style transfer models aim to rewrite a text using any desired new set of stylistic features. In the case of the Portuguese language, however, we notice that the resources required for the development of models of this type are still considerably scarce compared to those dedicated to the English language. Thus, as a first step towards the development of advanced methods of this kind, the present work investigates the issue of arbitrary style transfer with the aid of paraphrases in Portuguese, combined with the use of neural models built from sequence-to-sequence architectures and by refining a number of large language models. In addition to the textual rewriting models themselves, the study also presents novel resources for the task in the form of a corpus of paraphrases and a model of embeddingsvalidated in both sentence similarity and simplification tasks, with results comparable to the state of the art. |
id |
RCAP_7f21298ba0b98fb2a1e52ceb50ee0a94 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/410 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Arbitrary Portuguese text style transferTransferência de estilo textual arbitrário em portuguêsTransferência de estilo textual arbitrário em portuguêsnatural language generationarbitrary style transferparaphrasessequence-to-sequencelarge language modelsgeração de língua naturaltransferência de estilo arbitrárioparáfrasessequência-para-sequênciagrandes modelos de línguaIn Automatic Natural Language Generation, arbitrary style transfer models aim to rewrite a text using any desired new set of stylistic features. In the case of the Portuguese language, however, we notice that the resources required for the development of models of this type are still considerably scarce compared to those dedicated to the English language. Thus, as a first step towards the development of advanced methods of this kind, the present work investigates the issue of arbitrary style transfer with the aid of paraphrases in Portuguese, combined with the use of neural models built from sequence-to-sequence architectures and by refining a number of large language models. In addition to the textual rewriting models themselves, the study also presents novel resources for the task in the form of a corpus of paraphrases and a model of embeddingsvalidated in both sentence similarity and simplification tasks, with results comparable to the state of the art. Na Geração automática de língua natural, modelos de transferência de estilo textual arbitrário objetivam a reescrita de um texto usando qualquer novo conjunto de características estilísticas desejado. Em se tratando do idioma português, entretanto, observa-se que os recursos linguístico-computacionais necessários para o desenvolvimento de modelos deste tipo ainda são consideravelmente escassos em comparação à língua inglesa. Assim, como um primeiro passo em direção ao desenvolvimento de métodos avançados deste tipo, o presente trabalho investiga a questão da transferência de estilo textual arbitrário com o uso de paráfrases em português, combinadas ao uso de modelos neurais construídos a partir de arquiteturas do tipo sequência-para-sequência e por refinamento de grandes modelos de língua. Além dos modelos de reescrita textuais propriamente ditos, o estudo apresenta também recursos inéditos para a tarefa na forma de um córpus de paráfrases e de um modelo de \textit{embeddings} validado nas tarefas de similaridade e simplificação sentencial, com resultados comparáveis ao estado da arte. Na Geração automática de língua natural, modelos de transferência de estilo textual arbitrário objetivam a reescrita de um texto usando qualquer novo conjunto de características estilísticas desejado. Em se tratando do idioma português, entretanto, observa-se que os recursos linguístico-computacionais necessários para o desenvolvimento de modelos deste tipo ainda são consideravelmente escassos em comparação à língua inglesa. Assim, como um primeiro passo em direção ao desenvolvimento de métodos avançados deste tipo, o presente trabalho investiga a questão da transferência de estilo textual arbitrário com o uso de paráfrases em português, combinadas ao uso de modelos neurais construídos a partir de arquiteturas do tipo sequência-para-sequência e por refinamento de grandes modelos de língua. Além dos modelos de reescrita textuais propriamente ditos, o estudo apresenta também recursos inéditos para a tarefa na forma de um córpus de paráfrases e de um modelo de \textit{embeddings} validado nas tarefas de similaridade e simplificação sentencial, com resultados comparáveis ao estado da arte.Universidade do Minho e Universidade de Vigo2023-12-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.2.410https://doi.org/10.21814/lm.15.2.410Linguamática; Vol. 15 No. 2; 19--36Linguamática; v. 15 n. 2; 19--36Linguamática; Vol. 15 Núm. 2; 19--361647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/410https://linguamatica.com/index.php/linguamatica/article/view/410/500Direitos de Autor (c) 2023 Pablo Botton da Costa, Ivandré Parabonihttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessBotton da Costa, PabloParaboni, Ivandré2024-01-05T13:45:19Zoai:linguamatica.com:article/410Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:30:17.454473Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Arbitrary Portuguese text style transfer Transferência de estilo textual arbitrário em português Transferência de estilo textual arbitrário em português |
title |
Arbitrary Portuguese text style transfer |
spellingShingle |
Arbitrary Portuguese text style transfer Botton da Costa, Pablo natural language generation arbitrary style transfer paraphrases sequence-to-sequence large language models geração de língua natural transferência de estilo arbitrário paráfrases sequência-para-sequência grandes modelos de língua |
title_short |
Arbitrary Portuguese text style transfer |
title_full |
Arbitrary Portuguese text style transfer |
title_fullStr |
Arbitrary Portuguese text style transfer |
title_full_unstemmed |
Arbitrary Portuguese text style transfer |
title_sort |
Arbitrary Portuguese text style transfer |
author |
Botton da Costa, Pablo |
author_facet |
Botton da Costa, Pablo Paraboni, Ivandré |
author_role |
author |
author2 |
Paraboni, Ivandré |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Botton da Costa, Pablo Paraboni, Ivandré |
dc.subject.por.fl_str_mv |
natural language generation arbitrary style transfer paraphrases sequence-to-sequence large language models geração de língua natural transferência de estilo arbitrário paráfrases sequência-para-sequência grandes modelos de língua |
topic |
natural language generation arbitrary style transfer paraphrases sequence-to-sequence large language models geração de língua natural transferência de estilo arbitrário paráfrases sequência-para-sequência grandes modelos de língua |
description |
In Automatic Natural Language Generation, arbitrary style transfer models aim to rewrite a text using any desired new set of stylistic features. In the case of the Portuguese language, however, we notice that the resources required for the development of models of this type are still considerably scarce compared to those dedicated to the English language. Thus, as a first step towards the development of advanced methods of this kind, the present work investigates the issue of arbitrary style transfer with the aid of paraphrases in Portuguese, combined with the use of neural models built from sequence-to-sequence architectures and by refining a number of large language models. In addition to the textual rewriting models themselves, the study also presents novel resources for the task in the form of a corpus of paraphrases and a model of embeddingsvalidated in both sentence similarity and simplification tasks, with results comparable to the state of the art. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-12-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.15.2.410 https://doi.org/10.21814/lm.15.2.410 |
url |
https://doi.org/10.21814/lm.15.2.410 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/410 https://linguamatica.com/index.php/linguamatica/article/view/410/500 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2023 Pablo Botton da Costa, Ivandré Paraboni http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2023 Pablo Botton da Costa, Ivandré Paraboni http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 15 No. 2; 19--36 Linguamática; v. 15 n. 2; 19--36 Linguamática; Vol. 15 Núm. 2; 19--36 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136784742875136 |