El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.14.2.380 |
Resumo: | En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el. |
id |
RCAP_c6c1de50fa7c16044abe0cb2b2411c2b |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/380 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
El corpus paral·lel del Diari Oficial de la Generalitat de CatalunyaThe parallel corpus of the Official Diary of the Catalan GovernmentEl corpus paral·lel del Diari Oficial de la Generalitat de Catalunyaparallel corpusneural machine translationcorpus paral·leltraducció automàtica neuronalEn aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.In this paper the process of compilation of the new version of the Catalan-Spanish parallel corpus of the Official Diary of the Catalan Government (DOGC) is presented. The processes of downloading, conversion to text, segmentation and automatic alignment are described. All the programs that have been developed to perform these processes are distributed under a free license and the compiled corpus can be freely downloaded. Furthermore, the process of training and evaluation of two neural machine translation systems, Catalan-Spanish and Spanish-Catalan, using this corpus is presented.En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.Universidade do Minho e Universidade de Vigo2023-01-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.14.2.380https://doi.org/10.21814/lm.14.2.380Linguamática; Vol. 14 No. 2; 75--81Linguamática; Vol. 14 Núm. 2; 75--81Linguamática; v. 14 n. 2; 75--811647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/380https://linguamatica.com/index.php/linguamatica/article/view/380/489Direitos de Autor (c) 2023 Antoni Oliver Gonzálezhttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessOliver González, Antoni2023-09-08T13:46:46Zoai:linguamatica.com:article/380Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:41.113743Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya The parallel corpus of the Official Diary of the Catalan Government El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya |
title |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya |
spellingShingle |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya Oliver González, Antoni parallel corpus neural machine translation corpus paral·lel traducció automàtica neuronal |
title_short |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya |
title_full |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya |
title_fullStr |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya |
title_full_unstemmed |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya |
title_sort |
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya |
author |
Oliver González, Antoni |
author_facet |
Oliver González, Antoni |
author_role |
author |
dc.contributor.author.fl_str_mv |
Oliver González, Antoni |
dc.subject.por.fl_str_mv |
parallel corpus neural machine translation corpus paral·lel traducció automàtica neuronal |
topic |
parallel corpus neural machine translation corpus paral·lel traducció automàtica neuronal |
description |
En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-01-07 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.14.2.380 https://doi.org/10.21814/lm.14.2.380 |
url |
https://doi.org/10.21814/lm.14.2.380 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/380 https://linguamatica.com/index.php/linguamatica/article/view/380/489 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2023 Antoni Oliver González http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2023 Antoni Oliver González http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 14 No. 2; 75--81 Linguamática; Vol. 14 Núm. 2; 75--81 Linguamática; v. 14 n. 2; 75--81 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133554104336384 |