O Corpus de Português Escrito em Periódicos - CoPEP

Detalhes bibliográficos
Autor(a) principal: Kuhn, Tanara Zingano
Data de Publicação: 2020
Outros Autores: Ferreira, José Pedro
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
DOI: 10.1590/1678-460x2020360209
Texto Completo: http://hdl.handle.net/10316/101563
https://doi.org/10.1590/1678-460x2020360209
Resumo: O presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.
id RCAP_6602c4f20dbc7604dceef814a5d22ba2
oai_identifier_str oai:estudogeral.uc.pt:10316/101563
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling O Corpus de Português Escrito em Periódicos - CoPEPThe Corpus of Portuguese from Academic Journalscorpus multivariedadecompilação de corpusdiscurso acadêmicolíngua portuguesamultivariate corpuscorpus compilationacademic discoursePortuguese languageO presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.The present study aims to describe the challenges faced and solutions found in the compilation of the Corpus de Português Escrito em Periódicos - CoPEP, which contains approximately 40 million words, is balanced between the Brazilian Portuguese and European Portuguese varieties in number of words and covers six large areas of knowledge. Firstly, we will present the context of the creation of CoPEP, namely, the make of an on-line dictionary of Portuguese for university students, to which CoPEP served as the primary source for linguistic evidence extraction. Thus, it was the characteristics of this lexicographic project that informed the design criteria for CoPEP and the consequent decision-making process. Next, we will describe the methodology of data acquisition, with a special focus on the challenges that were faced, and the solutions found. We will conclude with the description of the fi nal compilation phase, which involved procedures for obtaining balance.2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articlehttp://hdl.handle.net/10316/101563http://hdl.handle.net/10316/101563https://doi.org/10.1590/1678-460x2020360209por1678-460X0102-4450Kuhn, Tanara ZinganoFerreira, José Pedroinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-08-31T20:40:11Zoai:estudogeral.uc.pt:10316/101563Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:18:43.767712Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv O Corpus de Português Escrito em Periódicos - CoPEP
The Corpus of Portuguese from Academic Journals
title O Corpus de Português Escrito em Periódicos - CoPEP
spellingShingle O Corpus de Português Escrito em Periódicos - CoPEP
O Corpus de Português Escrito em Periódicos - CoPEP
Kuhn, Tanara Zingano
corpus multivariedade
compilação de corpus
discurso acadêmico
língua portuguesa
multivariate corpus
corpus compilation
academic discourse
Portuguese language
Kuhn, Tanara Zingano
corpus multivariedade
compilação de corpus
discurso acadêmico
língua portuguesa
multivariate corpus
corpus compilation
academic discourse
Portuguese language
title_short O Corpus de Português Escrito em Periódicos - CoPEP
title_full O Corpus de Português Escrito em Periódicos - CoPEP
title_fullStr O Corpus de Português Escrito em Periódicos - CoPEP
O Corpus de Português Escrito em Periódicos - CoPEP
title_full_unstemmed O Corpus de Português Escrito em Periódicos - CoPEP
O Corpus de Português Escrito em Periódicos - CoPEP
title_sort O Corpus de Português Escrito em Periódicos - CoPEP
author Kuhn, Tanara Zingano
author_facet Kuhn, Tanara Zingano
Kuhn, Tanara Zingano
Ferreira, José Pedro
Ferreira, José Pedro
author_role author
author2 Ferreira, José Pedro
author2_role author
dc.contributor.author.fl_str_mv Kuhn, Tanara Zingano
Ferreira, José Pedro
dc.subject.por.fl_str_mv corpus multivariedade
compilação de corpus
discurso acadêmico
língua portuguesa
multivariate corpus
corpus compilation
academic discourse
Portuguese language
topic corpus multivariedade
compilação de corpus
discurso acadêmico
língua portuguesa
multivariate corpus
corpus compilation
academic discourse
Portuguese language
description O presente estudo tem como objetivo descrever os desafi os e soluções encontrados na compilação do Corpus de Português Escrito em Periódicos - CoPEP, que contém aproximadamente 40 milhões de palavras, é equilibrado entre as variedades português brasileiro e português europeu em número de palavras e cobre seis grandes áreas de conhecimento. Primeiramente, apresentaremos o contexto de criação do CoPEP, qual seja, a elaboração de um dicionário on-line de português para universitários, para o qual serviu como fonte primária de obtenção de evidências linguísticas. Assim, foram as características desse projeto lexicográfi co que informaram os critérios de criação do desenho do CoPEP e as consequentes tomadas de decisão. A seguir, descreveremos a metodologia de aquisição de dados, com foco especial nos desafi os enfrentados e nas soluções encontradas. Terminaremos com a descrição da fase final de compilação, na qual aplicamos uma série de procedimentos para obtenção de equilíbrio.
publishDate 2020
dc.date.none.fl_str_mv 2020
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/101563
http://hdl.handle.net/10316/101563
https://doi.org/10.1590/1678-460x2020360209
url http://hdl.handle.net/10316/101563
https://doi.org/10.1590/1678-460x2020360209
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 1678-460X
0102-4450
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1822183388477390848
dc.identifier.doi.none.fl_str_mv 10.1590/1678-460x2020360209