Criação de um ambiente para o processamento de córpus de Português Histórico

Detalhes bibliográficos
Autor(a) principal: Candido Junior, Arnaldo
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-21052008-103237/
Resumo: A utilização de córpus tem crescido progressivamente em áreas como Lingüística e Processamento de Língua Natural. Como resultado, temos a compilação de novos e grandes córpus e a criação de sistemas processadores de córpus e de padrões para codificação e intercâmbio de textos eletrônicos. Entretanto, a metodologia para compilação de córpus históricos difere das metodologias usadas em córpus contemporâneos. Outro problema é o fato de a maior parte dos processadores de córpus proverem poucos recursos para o tratamento de córpus históricos, apesar de tais córpus serem numerosos. Da mesma forma, os sistemas para criação de dicionários não atendem satisfatoriamente necessidades de dicionários históricos. A motivação desta pesquisa é o projeto do Dicionário Histórico do Português do Brasil (DHPB) que tem como base a construção de um córpus de Português do Brasil dos séculos XVI a XVIII (incluindo alguns textos do começo do século XIX). Neste trabalho são apresentados os desafios encontrados para o processamento do córpus do projeto do projeto DHPB e os requisitos para redação de verbetes do dicionário histórico. Um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes foi desenvolvido para o projeto DHPB sendo possível adaptá-lo para ser aplicado a outros projetos de criação de dicionários históricos
id USP_a322025bad194d69da922e5bdff06987
oai_identifier_str oai:teses.usp.br:tde-21052008-103237
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Criação de um ambiente para o processamento de córpus de Português HistóricoCreation of an environment for processing of Historical Porrtuguese CorporaCompilação de córpusCorpora creationCórpus históricosFerramentas de processamento de córpusHistorical corporaTools for corpora processingA utilização de córpus tem crescido progressivamente em áreas como Lingüística e Processamento de Língua Natural. Como resultado, temos a compilação de novos e grandes córpus e a criação de sistemas processadores de córpus e de padrões para codificação e intercâmbio de textos eletrônicos. Entretanto, a metodologia para compilação de córpus históricos difere das metodologias usadas em córpus contemporâneos. Outro problema é o fato de a maior parte dos processadores de córpus proverem poucos recursos para o tratamento de córpus históricos, apesar de tais córpus serem numerosos. Da mesma forma, os sistemas para criação de dicionários não atendem satisfatoriamente necessidades de dicionários históricos. A motivação desta pesquisa é o projeto do Dicionário Histórico do Português do Brasil (DHPB) que tem como base a construção de um córpus de Português do Brasil dos séculos XVI a XVIII (incluindo alguns textos do começo do século XIX). Neste trabalho são apresentados os desafios encontrados para o processamento do córpus do projeto do projeto DHPB e os requisitos para redação de verbetes do dicionário histórico. Um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes foi desenvolvido para o projeto DHPB sendo possível adaptá-lo para ser aplicado a outros projetos de criação de dicionários históricosCorpora has been increasingly used within the areas of Linguistics and Natural Language Processing. As a result, new and larger corpora have been compiled and processing systems and standards for encoding and interchange of electronic texts have been developed. However, when it comes to compilation of historical corpora, the methodology is different from the ones used to compile corpora of contemporary language. Another drawback is the fact that most corpus processing systems provide few resources for the treatment of historical corpus, although there are numerous corpora of this type. Similarly, the systems for dictionary creation do not satisfactorily meet the needs of historical dictionaries. The present study is part of a larger project - the Historical Dictionary of Brazilian Portuguese (HDBP) - which aims to compile a dictionary on the basis of a corpus of Brazilian Portuguese texts from the sixteenth through the eighteenth centuries (including some texts from early nineteenth century). Here, we present the challenges for processing the corpus of the HDPB project and established the criteria for creating the entries of a historical dictionary. This study has developed a computational environment for processing the corpus, building glossaries as well as for creating the entries of the HDPB. This system can be easily adapted to the needs and scope of other historical dictionary projectsBiblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaCandido Junior, Arnaldo2008-04-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-21052008-103237/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:09:55Zoai:teses.usp.br:tde-21052008-103237Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:09:55Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Criação de um ambiente para o processamento de córpus de Português Histórico
Creation of an environment for processing of Historical Porrtuguese Corpora
title Criação de um ambiente para o processamento de córpus de Português Histórico
spellingShingle Criação de um ambiente para o processamento de córpus de Português Histórico
Candido Junior, Arnaldo
Compilação de córpus
Corpora creation
Córpus históricos
Ferramentas de processamento de córpus
Historical corpora
Tools for corpora processing
title_short Criação de um ambiente para o processamento de córpus de Português Histórico
title_full Criação de um ambiente para o processamento de córpus de Português Histórico
title_fullStr Criação de um ambiente para o processamento de córpus de Português Histórico
title_full_unstemmed Criação de um ambiente para o processamento de córpus de Português Histórico
title_sort Criação de um ambiente para o processamento de córpus de Português Histórico
author Candido Junior, Arnaldo
author_facet Candido Junior, Arnaldo
author_role author
dc.contributor.none.fl_str_mv Aluisio, Sandra Maria
dc.contributor.author.fl_str_mv Candido Junior, Arnaldo
dc.subject.por.fl_str_mv Compilação de córpus
Corpora creation
Córpus históricos
Ferramentas de processamento de córpus
Historical corpora
Tools for corpora processing
topic Compilação de córpus
Corpora creation
Córpus históricos
Ferramentas de processamento de córpus
Historical corpora
Tools for corpora processing
description A utilização de córpus tem crescido progressivamente em áreas como Lingüística e Processamento de Língua Natural. Como resultado, temos a compilação de novos e grandes córpus e a criação de sistemas processadores de córpus e de padrões para codificação e intercâmbio de textos eletrônicos. Entretanto, a metodologia para compilação de córpus históricos difere das metodologias usadas em córpus contemporâneos. Outro problema é o fato de a maior parte dos processadores de córpus proverem poucos recursos para o tratamento de córpus históricos, apesar de tais córpus serem numerosos. Da mesma forma, os sistemas para criação de dicionários não atendem satisfatoriamente necessidades de dicionários históricos. A motivação desta pesquisa é o projeto do Dicionário Histórico do Português do Brasil (DHPB) que tem como base a construção de um córpus de Português do Brasil dos séculos XVI a XVIII (incluindo alguns textos do começo do século XIX). Neste trabalho são apresentados os desafios encontrados para o processamento do córpus do projeto do projeto DHPB e os requisitos para redação de verbetes do dicionário histórico. Um ambiente computacional para processamento de córpus, criação de glossários e redação de verbetes foi desenvolvido para o projeto DHPB sendo possível adaptá-lo para ser aplicado a outros projetos de criação de dicionários históricos
publishDate 2008
dc.date.none.fl_str_mv 2008-04-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55134/tde-21052008-103237/
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-21052008-103237/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090956341805056