Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
Autor(a) principal: | |
---|---|
Data de Publicação: | 2000 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/ |
Resumo: | A etiquetagem morfossintática é uma tarefa básica, bem conhecida e bastante explorada em diversas aplicações de Processamento de Línguas Naturais (PLN), como análise sintática e extração e recuperação de informações. Os etiquetadores para a língua inglesa atingiram um estado da arte entre 96-99% de precisão geral. Diferentemente do inglês, para o português do Brasil não foram ainda exploradas todas as técnicas para a etiquetagem, nem se atingiu a precisão dos melhores etiquetadores para a língua inglesa. Com estas motivações, quatro etiquetadores disponíveis na WWW foram treinados Unigrama (TreeTagger), Trigrama (TreeTagger), baseado em transformações (TBL) e baseado em máxima entropia (MXPOST) , e um etiquetador simbólico foi desenvolvido (PoSiTagger). Todos os etiquetadores adaptados foram treinados com um corpus com cerca de 100.000 palavras formado por textos didáticos, jornalísticos e literários, e etiquetado com o Nilc tagset. A maior precisão geral obtida foi a do MXPOST 89,66%. Foram também implementados quatorze métodos para a combinação dos etiquetadores, dos quais sete superaram a precisão do MXPOST. A maior precisão obtida com os métodos de combinação foi 90,91%. A precisão geral sofreu a influência do tamanho do corpus manualmente etiquetado disponível para treinamento, do conjunto de etiquetas e dos tipos de texto utilizados. |
id |
USP_5597681fa252c940edfa05c885bf2676 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-28042016-090039 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do BrasilImplementation, adaptation, combination and evaluation of Brazilian portuguese taggersNão disponívelNot availableA etiquetagem morfossintática é uma tarefa básica, bem conhecida e bastante explorada em diversas aplicações de Processamento de Línguas Naturais (PLN), como análise sintática e extração e recuperação de informações. Os etiquetadores para a língua inglesa atingiram um estado da arte entre 96-99% de precisão geral. Diferentemente do inglês, para o português do Brasil não foram ainda exploradas todas as técnicas para a etiquetagem, nem se atingiu a precisão dos melhores etiquetadores para a língua inglesa. Com estas motivações, quatro etiquetadores disponíveis na WWW foram treinados Unigrama (TreeTagger), Trigrama (TreeTagger), baseado em transformações (TBL) e baseado em máxima entropia (MXPOST) , e um etiquetador simbólico foi desenvolvido (PoSiTagger). Todos os etiquetadores adaptados foram treinados com um corpus com cerca de 100.000 palavras formado por textos didáticos, jornalísticos e literários, e etiquetado com o Nilc tagset. A maior precisão geral obtida foi a do MXPOST 89,66%. Foram também implementados quatorze métodos para a combinação dos etiquetadores, dos quais sete superaram a precisão do MXPOST. A maior precisão obtida com os métodos de combinação foi 90,91%. A precisão geral sofreu a influência do tamanho do corpus manualmente etiquetado disponível para treinamento, do conjunto de etiquetas e dos tipos de texto utilizados.POS tagging is a very basic and well known natural language processing task used in several applications such as parsing and information retrieval. lhe taggers for English achieved a state of the art accuracy of 96-99%. Unlike the case of English, only some approaches to tagging were explored for Brazilian Portuguese and the tagging systems available are still unsatisfactory from the point of view of results based on the state-of-the-art accuracy for English. Four taggers have been trained with the NILC tagset on a mixed 100,000-word corpus of Brazilian Portuguese, namely Unigram (Treetagger), N-gram (Treetagger), transformation-based (TBL) and Maximum-Entropy tagging (MXPOST), and a symbolic tagger, named PoSiTagger, was designed. MXPOST displayed the best accuracy (89.66%). Fourteen methods of combination were used, seven of which IS to an improvement over the MXPOST accuracy. lhe best result from the combination strategy was 90,91%. lhe low accuracy is attributed to the reduced sue of the training corpus, the tagset used and the mixed corpus employed.Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaAires, Rachel Virgínia Xavier2000-10-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2017-09-04T21:06:18Zoai:teses.usp.br:tde-28042016-090039Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212017-09-04T21:06:18Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil Implementation, adaptation, combination and evaluation of Brazilian portuguese taggers |
title |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil |
spellingShingle |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil Aires, Rachel Virgínia Xavier Não disponível Not available |
title_short |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil |
title_full |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil |
title_fullStr |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil |
title_full_unstemmed |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil |
title_sort |
Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil |
author |
Aires, Rachel Virgínia Xavier |
author_facet |
Aires, Rachel Virgínia Xavier |
author_role |
author |
dc.contributor.none.fl_str_mv |
Aluisio, Sandra Maria |
dc.contributor.author.fl_str_mv |
Aires, Rachel Virgínia Xavier |
dc.subject.por.fl_str_mv |
Não disponível Not available |
topic |
Não disponível Not available |
description |
A etiquetagem morfossintática é uma tarefa básica, bem conhecida e bastante explorada em diversas aplicações de Processamento de Línguas Naturais (PLN), como análise sintática e extração e recuperação de informações. Os etiquetadores para a língua inglesa atingiram um estado da arte entre 96-99% de precisão geral. Diferentemente do inglês, para o português do Brasil não foram ainda exploradas todas as técnicas para a etiquetagem, nem se atingiu a precisão dos melhores etiquetadores para a língua inglesa. Com estas motivações, quatro etiquetadores disponíveis na WWW foram treinados Unigrama (TreeTagger), Trigrama (TreeTagger), baseado em transformações (TBL) e baseado em máxima entropia (MXPOST) , e um etiquetador simbólico foi desenvolvido (PoSiTagger). Todos os etiquetadores adaptados foram treinados com um corpus com cerca de 100.000 palavras formado por textos didáticos, jornalísticos e literários, e etiquetado com o Nilc tagset. A maior precisão geral obtida foi a do MXPOST 89,66%. Foram também implementados quatorze métodos para a combinação dos etiquetadores, dos quais sete superaram a precisão do MXPOST. A maior precisão obtida com os métodos de combinação foi 90,91%. A precisão geral sofreu a influência do tamanho do corpus manualmente etiquetado disponível para treinamento, do conjunto de etiquetas e dos tipos de texto utilizados. |
publishDate |
2000 |
dc.date.none.fl_str_mv |
2000-10-25 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/ |
url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809091147225628672 |