O Corpus de Português Escrito em Periódicos - CoPEP
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
DOI: | 10.1590/1678-460x2020360209 |
Texto Completo: | http://hdl.handle.net/10316/101563 https://doi.org/10.1590/1678-460x2020360209 |
Resumo: | O presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio. |
id |
RCAP_6602c4f20dbc7604dceef814a5d22ba2 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/101563 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
O Corpus de Português Escrito em Periódicos - CoPEPThe Corpus of Portuguese from Academic Journalscorpus multivariedadecompilação de corpusdiscurso acadêmicolíngua portuguesamultivariate corpuscorpus compilationacademic discoursePortuguese languageO presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.The present study aims to describe the challenges faced and solutions found in the compilation of the Corpus de Português Escrito em Periódicos - CoPEP, which contains approximately 40 million words, is balanced between the Brazilian Portuguese and European Portuguese varieties in number of words and covers six large areas of knowledge. Firstly, we will present the context of the creation of CoPEP, namely, the make of an on-line dictionary of Portuguese for university students, to which CoPEP served as the primary source for linguistic evidence extraction. Thus, it was the characteristics of this lexicographic project that informed the design criteria for CoPEP and the consequent decision-making process. Next, we will describe the methodology of data acquisition, with a special focus on the challenges that were faced, and the solutions found. We will conclude with the description of the fi nal compilation phase, which involved procedures for obtaining balance.2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articlehttp://hdl.handle.net/10316/101563http://hdl.handle.net/10316/101563https://doi.org/10.1590/1678-460x2020360209por1678-460X0102-4450Kuhn, Tanara ZinganoFerreira, José Pedroinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-08-31T20:40:11Zoai:estudogeral.uc.pt:10316/101563Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:18:43.767712Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
O Corpus de Português Escrito em Periódicos - CoPEP The Corpus of Portuguese from Academic Journals |
title |
O Corpus de Português Escrito em Periódicos - CoPEP |
spellingShingle |
O Corpus de Português Escrito em Periódicos - CoPEP O Corpus de Português Escrito em Periódicos - CoPEP Kuhn, Tanara Zingano corpus multivariedade compilação de corpus discurso acadêmico língua portuguesa multivariate corpus corpus compilation academic discourse Portuguese language Kuhn, Tanara Zingano corpus multivariedade compilação de corpus discurso acadêmico língua portuguesa multivariate corpus corpus compilation academic discourse Portuguese language |
title_short |
O Corpus de Português Escrito em Periódicos - CoPEP |
title_full |
O Corpus de Português Escrito em Periódicos - CoPEP |
title_fullStr |
O Corpus de Português Escrito em Periódicos - CoPEP O Corpus de Português Escrito em Periódicos - CoPEP |
title_full_unstemmed |
O Corpus de Português Escrito em Periódicos - CoPEP O Corpus de Português Escrito em Periódicos - CoPEP |
title_sort |
O Corpus de Português Escrito em Periódicos - CoPEP |
author |
Kuhn, Tanara Zingano |
author_facet |
Kuhn, Tanara Zingano Kuhn, Tanara Zingano Ferreira, José Pedro Ferreira, José Pedro |
author_role |
author |
author2 |
Ferreira, José Pedro |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Kuhn, Tanara Zingano Ferreira, José Pedro |
dc.subject.por.fl_str_mv |
corpus multivariedade compilação de corpus discurso acadêmico língua portuguesa multivariate corpus corpus compilation academic discourse Portuguese language |
topic |
corpus multivariedade compilação de corpus discurso acadêmico língua portuguesa multivariate corpus corpus compilation academic discourse Portuguese language |
description |
O presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/101563 http://hdl.handle.net/10316/101563 https://doi.org/10.1590/1678-460x2020360209 |
url |
http://hdl.handle.net/10316/101563 https://doi.org/10.1590/1678-460x2020360209 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
1678-460X 0102-4450 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1822183388477390848 |
dc.identifier.doi.none.fl_str_mv |
10.1590/1678-460x2020360209 |