Geração de dicionários para correcção ortográfica do português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2009 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/11437 |
Resumo: | Dissertação de mestrado em Informática (área de especialização em Sistemas Distribuídos, Comunicações por Computador e Arquitectura de Computadores). |
id |
RCAP_79ebf3c6d21eced125a70a85b321aa1d |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/11437 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Geração de dicionários para correcção ortográfica do português681.3:806.90806.90:681.3Dissertação de mestrado em Informática (área de especialização em Sistemas Distribuídos, Comunicações por Computador e Arquitectura de Computadores).Civilizations rised with the emergence of new technologies, like agriculture and bronze, but one of the greastest inventions was writing. It represented a new way to comunicate, for all to read or to listen the words that were written or transcribed. Writing crosses ages, generations and borders. It is the way to transmit law, history, religion, thoughts and tecnological knowledge. Writing has syntax and lexical rules, converged along time, according to peoples pro le and nations. The dictionary takes an important role for language uniformization, stipulating how to spell words, their morphology and meanings. Tecnological development allowed the emergence of spell checking and morphological analysis tools, fundamental for natural language processing. This tools are important to write clear and error free documents. They help users to diagnose their spelling mistakes and chalenge their linguistic knowledge. This work focuses on the creation and maintaining of lexical resources, such as dictionaries, used by spell checker applications. The Projecto Natura developed a morphological analyzer tool and its Portuguese dictionary, named Jspell. In order to reuse this work and apply created resources on other tools, namely spell checker applications, they decided to export the Jspell dictionary in other formats. Given the diversity of spell checker engines and the relevance to have Portuguese dictionaries in all these applications lead to a confusing and complex dictionary release system. The usage of the Jspell dictionary to prepare other tool dictionaries, resulted in the necessity to handle the particularities of each format, handle periodic changes in these dictionary data formats, raised concerns about maintaining versioning, validating formats and maintenance of the lexicon. The problem became unbearable for generation and maintenance of each dictionary and so we advanced to automatize this process. This leaded to the need of introducing new information in a new source dictionary at a higher level than Jspell. We implented a system designated by Dictionary shower, that generates portuguese dictionaries for di erent spell checking and morphological analysis applications.As civilizações ergueram-se com o surgimento de novas tecnologias, como a agricultura e o bronze, mas uma das maiores invenções foi a escrita. Esta representava um novo meio de comunicar, para que todos lessem ou ouvissem as palavras que tinham sido escritas ou transcritas por outra pessoa. A escrita atravessa épocas, gerações e fronteiras. _E o meio de transmitir a lei, a história, a religião, os pensamentos e o conhecimento tecnológico. A escrita tem regras de sintaxe e lexicais, que ao longo do tempo foi convergindo, consoante o perfil dos povos e as nações. O dicionário desempenha um papel importante para a uniformização da língua, com ele estipulam-se grafias, gramáticas e significados. O desenvolvimento tecnológico possibilitou o surgimento de ferramentas de correcção ortográfica e análise morfológica. Estas ferramentas são fundamentais para o processamento da linguagem natural. Tais ferramentas e os respectivos dicionários são meios importantes para produzir documentos claros e sem erros ortográficos. Suão ferramentas úteis e ajudam o utilizador a diagnosticar os seus erros ortográficos e a desafiar o seu conhecimento linguístico. Esta dissertação foca-se na geração de recursos lexicais, como os dicionários, para estas aplicações. O desenvolvimento do analisador morfológico e do dicionário de português do Jspell, no seio do grupo de investigação, levou a que se decidisse exportar o formato do dicionário para outras ferramentas idênticas. Contudo há uma crescente proliferação destas ferramentas e dos respectivos dicionários, usadas em larga medida por aplicações de processamento de texto. A expansão do dicionário Jspell a outros dicionários externos, trouxe novos desafios, com o amontoamento das particularidades de cada especificação, mudanças periódicas dos formatos dos dicionários, preocupações relativas à manutenção de versões, validação da sintaxe, e a própria manutenção do léxico. O problema tornou-se incomportável para a geração e a manutenção individual de cada dicionário, avançamos para a automatização de todo o processo. Isto levou à necessidade de introduzir nova informação num novo dicionário fonte a um nível superior ao do Jspell. Desenvolveu-se um sistema designado por Chuveiro de dicionários. Este sistema gera dicionários de português, destinados a várias aplicações de correcção ortográfica e análise morfológica.Almeida, J. J.Universidade do MinhoVilela, Rui Miguel Rodrigues dos Santos2009-10-212009-10-21T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/11437porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:54:02Zoai:repositorium.sdum.uminho.pt:1822/11437Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:53:32.867008Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Geração de dicionários para correcção ortográfica do português |
title |
Geração de dicionários para correcção ortográfica do português |
spellingShingle |
Geração de dicionários para correcção ortográfica do português Vilela, Rui Miguel Rodrigues dos Santos 681.3:806.90 806.90:681.3 |
title_short |
Geração de dicionários para correcção ortográfica do português |
title_full |
Geração de dicionários para correcção ortográfica do português |
title_fullStr |
Geração de dicionários para correcção ortográfica do português |
title_full_unstemmed |
Geração de dicionários para correcção ortográfica do português |
title_sort |
Geração de dicionários para correcção ortográfica do português |
author |
Vilela, Rui Miguel Rodrigues dos Santos |
author_facet |
Vilela, Rui Miguel Rodrigues dos Santos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Almeida, J. J. Universidade do Minho |
dc.contributor.author.fl_str_mv |
Vilela, Rui Miguel Rodrigues dos Santos |
dc.subject.por.fl_str_mv |
681.3:806.90 806.90:681.3 |
topic |
681.3:806.90 806.90:681.3 |
description |
Dissertação de mestrado em Informática (área de especialização em Sistemas Distribuídos, Comunicações por Computador e Arquitectura de Computadores). |
publishDate |
2009 |
dc.date.none.fl_str_mv |
2009-10-21 2009-10-21T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/11437 |
url |
http://hdl.handle.net/1822/11437 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133131732680704 |