El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya

Detalhes bibliográficos
Autor(a) principal: Oliver González, Antoni
Data de Publicação: 2023
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.14.2.380
Resumo: En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.
id RCAP_c6c1de50fa7c16044abe0cb2b2411c2b
oai_identifier_str oai:linguamatica.com:article/380
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling El corpus paral·lel del Diari Oficial de la Generalitat de CatalunyaThe parallel corpus of the Official Diary of the Catalan GovernmentEl corpus paral·lel del Diari Oficial de la Generalitat de Catalunyaparallel corpusneural machine translationcorpus paral·leltraducció automàtica neuronalEn aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.In this paper the process of compilation of the new version of the Catalan-Spanish parallel corpus of the Official Diary of the Catalan Government (DOGC) is presented. The processes of downloading, conversion to text, segmentation and automatic alignment are described. All the programs that have been developed to perform these processes are distributed under a free license and the compiled corpus can be freely downloaded. Furthermore, the process of training and evaluation of two neural machine translation systems, Catalan-Spanish and Spanish-Catalan, using this corpus is presented.En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.Universidade do Minho e Universidade de Vigo2023-01-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.14.2.380https://doi.org/10.21814/lm.14.2.380Linguamática; Vol. 14 No. 2; 75--81Linguamática; Vol. 14 Núm. 2; 75--81Linguamática; v. 14 n. 2; 75--811647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/380https://linguamatica.com/index.php/linguamatica/article/view/380/489Direitos de Autor (c) 2023 Antoni Oliver Gonzálezhttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessOliver González, Antoni2023-09-08T13:46:46Zoai:linguamatica.com:article/380Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:41.113743Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
The parallel corpus of the Official Diary of the Catalan Government
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
title El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
spellingShingle El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
Oliver González, Antoni
parallel corpus
neural machine translation
corpus paral·lel
traducció automàtica neuronal
title_short El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
title_full El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
title_fullStr El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
title_full_unstemmed El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
title_sort El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
author Oliver González, Antoni
author_facet Oliver González, Antoni
author_role author
dc.contributor.author.fl_str_mv Oliver González, Antoni
dc.subject.por.fl_str_mv parallel corpus
neural machine translation
corpus paral·lel
traducció automàtica neuronal
topic parallel corpus
neural machine translation
corpus paral·lel
traducció automàtica neuronal
description En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.
publishDate 2023
dc.date.none.fl_str_mv 2023-01-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.14.2.380
https://doi.org/10.21814/lm.14.2.380
url https://doi.org/10.21814/lm.14.2.380
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/380
https://linguamatica.com/index.php/linguamatica/article/view/380/489
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2023 Antoni Oliver González
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2023 Antoni Oliver González
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 14 No. 2; 75--81
Linguamática; Vol. 14 Núm. 2; 75--81
Linguamática; v. 14 n. 2; 75--81
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554104336384