Etiquetagem do português clássico baseada em Corpus
Autor(a) principal: | |
---|---|
Data de Publicação: | 1999 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/ |
Resumo: | A construção do Corpus Tycho Brahe do português histórico motivou a criação de ferramentas automáticas para a etiquetagem morfo-sintática de palavras de um texto. Para esse fim, selecionamos o método de etiquetagem de Brill por ser um dos que apresenta os melhores resultados na anotação do inglês e por ser um método de aprendizagem automática que representa o conhecimento explicitamente, sob a forma de regras claras e, portanto, de fácil compreensão. No entanto, mostramos teórica e experimentalmente que tal método não é apropriado para línguas com a riqueza morfológica do português, que requerem um grande número de etiquetas para codificação de tais informações. Para aumentar a eficiência do aprendizado das regras, propomos uma extensão ao método de Brill que impõe uma estrutura ao conjunto de etiquetas utilizado e adiciona uma fase de refinamento ao método original. Este refinamento pode ser feita de forma eficiente por não utilizar aprendizado. Apresentamos medidas e resultados obtidos com a versão atual do Corpus Tycho Brahe e discutimos os diversos problemas encontrados no desenvolvimento de nossa abordagem. Além disso, mostramos, através de uma série de experimentos, como um etiquetador morfo-sintático pode ser uma importante ferramenta para o estudo de uma língua |
id |
USP_89f67f2cfd2f810c81b8bdddf349e646 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-20210729-023423 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Etiquetagem do português clássico baseada em Corpusnot availableLinguística ComputacionalA construção do Corpus Tycho Brahe do português histórico motivou a criação de ferramentas automáticas para a etiquetagem morfo-sintática de palavras de um texto. Para esse fim, selecionamos o método de etiquetagem de Brill por ser um dos que apresenta os melhores resultados na anotação do inglês e por ser um método de aprendizagem automática que representa o conhecimento explicitamente, sob a forma de regras claras e, portanto, de fácil compreensão. No entanto, mostramos teórica e experimentalmente que tal método não é apropriado para línguas com a riqueza morfológica do português, que requerem um grande número de etiquetas para codificação de tais informações. Para aumentar a eficiência do aprendizado das regras, propomos uma extensão ao método de Brill que impõe uma estrutura ao conjunto de etiquetas utilizado e adiciona uma fase de refinamento ao método original. Este refinamento pode ser feita de forma eficiente por não utilizar aprendizado. Apresentamos medidas e resultados obtidos com a versão atual do Corpus Tycho Brahe e discutimos os diversos problemas encontrados no desenvolvimento de nossa abordagem. Além disso, mostramos, através de uma série de experimentos, como um etiquetador morfo-sintático pode ser uma importante ferramenta para o estudo de uma línguaThe construction of the Tycho Brahe Corpus of historical portuguese motivated the development of automatic tools for part-of-speech tagging. For this purpose, the transformation-based error-driven learning method proposed by Eric Brill waschosen. This method was chosed due to its good results in tagging English texts and its use of an explicit representation of linguistic knowledge by means rules that are easy to understand. However, we have shown theoretically and experimentallythat this method is not appropriate for languages that are morphologically rich, like Portuguese, and therefore need a large number of tags to capture this richness. To avoid such a problem, we proposed an extension to Brill's method that addsan inner structure to the tags used for annotating the texts and introduces a new phase in the tagging process called refinement. We show that this refinement can be done efficiently without using any kind of automated learning technique. Wepresent the results obtained so far using the latest version of the corpus and discuss some problems that have arisen during the development of the new method. We also discuss how a part-of-speech tagger can be used as a power tool for studying a languageBiblioteca Digitais de Teses e Dissertações da USPFinger, MarceloAlves, Carlos Daniel Chacur1999-07-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-07-31T19:02:23Zoai:teses.usp.br:tde-20210729-023423Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-07-31T19:02:23Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Etiquetagem do português clássico baseada em Corpus not available |
title |
Etiquetagem do português clássico baseada em Corpus |
spellingShingle |
Etiquetagem do português clássico baseada em Corpus Alves, Carlos Daniel Chacur Linguística Computacional |
title_short |
Etiquetagem do português clássico baseada em Corpus |
title_full |
Etiquetagem do português clássico baseada em Corpus |
title_fullStr |
Etiquetagem do português clássico baseada em Corpus |
title_full_unstemmed |
Etiquetagem do português clássico baseada em Corpus |
title_sort |
Etiquetagem do português clássico baseada em Corpus |
author |
Alves, Carlos Daniel Chacur |
author_facet |
Alves, Carlos Daniel Chacur |
author_role |
author |
dc.contributor.none.fl_str_mv |
Finger, Marcelo |
dc.contributor.author.fl_str_mv |
Alves, Carlos Daniel Chacur |
dc.subject.por.fl_str_mv |
Linguística Computacional |
topic |
Linguística Computacional |
description |
A construção do Corpus Tycho Brahe do português histórico motivou a criação de ferramentas automáticas para a etiquetagem morfo-sintática de palavras de um texto. Para esse fim, selecionamos o método de etiquetagem de Brill por ser um dos que apresenta os melhores resultados na anotação do inglês e por ser um método de aprendizagem automática que representa o conhecimento explicitamente, sob a forma de regras claras e, portanto, de fácil compreensão. No entanto, mostramos teórica e experimentalmente que tal método não é apropriado para línguas com a riqueza morfológica do português, que requerem um grande número de etiquetas para codificação de tais informações. Para aumentar a eficiência do aprendizado das regras, propomos uma extensão ao método de Brill que impõe uma estrutura ao conjunto de etiquetas utilizado e adiciona uma fase de refinamento ao método original. Este refinamento pode ser feita de forma eficiente por não utilizar aprendizado. Apresentamos medidas e resultados obtidos com a versão atual do Corpus Tycho Brahe e discutimos os diversos problemas encontrados no desenvolvimento de nossa abordagem. Além disso, mostramos, através de uma série de experimentos, como um etiquetador morfo-sintático pode ser uma importante ferramenta para o estudo de uma língua |
publishDate |
1999 |
dc.date.none.fl_str_mv |
1999-07-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/ |
url |
https://teses.usp.br/teses/disponiveis/45/45132/tde-20210729-023423/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090926536032256 |