Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil

Detalhes bibliográficos
Autor(a) principal: Aires, Rachel Virgínia Xavier
Data de Publicação: 2000
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/
Resumo: A etiquetagem morfossintática é uma tarefa básica, bem conhecida e bastante explorada em diversas aplicações de Processamento de Línguas Naturais (PLN), como análise sintática e extração e recuperação de informações. Os etiquetadores para a língua inglesa atingiram um estado da arte entre 96-99% de precisão geral. Diferentemente do inglês, para o português do Brasil não foram ainda exploradas todas as técnicas para a etiquetagem, nem se atingiu a precisão dos melhores etiquetadores para a língua inglesa. Com estas motivações, quatro etiquetadores disponíveis na WWW foram treinados Unigrama (TreeTagger), Trigrama (TreeTagger), baseado em transformações (TBL) e baseado em máxima entropia (MXPOST) , e um etiquetador simbólico foi desenvolvido (PoSiTagger). Todos os etiquetadores adaptados foram treinados com um corpus com cerca de 100.000 palavras formado por textos didáticos, jornalísticos e literários, e etiquetado com o Nilc tagset. A maior precisão geral obtida foi a do MXPOST 89,66%. Foram também implementados quatorze métodos para a combinação dos etiquetadores, dos quais sete superaram a precisão do MXPOST. A maior precisão obtida com os métodos de combinação foi 90,91%. A precisão geral sofreu a influência do tamanho do corpus manualmente etiquetado disponível para treinamento, do conjunto de etiquetas e dos tipos de texto utilizados.
id USP_5597681fa252c940edfa05c885bf2676
oai_identifier_str oai:teses.usp.br:tde-28042016-090039
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do BrasilImplementation, adaptation, combination and evaluation of Brazilian portuguese taggersNão disponívelNot availableA etiquetagem morfossintática é uma tarefa básica, bem conhecida e bastante explorada em diversas aplicações de Processamento de Línguas Naturais (PLN), como análise sintática e extração e recuperação de informações. Os etiquetadores para a língua inglesa atingiram um estado da arte entre 96-99% de precisão geral. Diferentemente do inglês, para o português do Brasil não foram ainda exploradas todas as técnicas para a etiquetagem, nem se atingiu a precisão dos melhores etiquetadores para a língua inglesa. Com estas motivações, quatro etiquetadores disponíveis na WWW foram treinados Unigrama (TreeTagger), Trigrama (TreeTagger), baseado em transformações (TBL) e baseado em máxima entropia (MXPOST) , e um etiquetador simbólico foi desenvolvido (PoSiTagger). Todos os etiquetadores adaptados foram treinados com um corpus com cerca de 100.000 palavras formado por textos didáticos, jornalísticos e literários, e etiquetado com o Nilc tagset. A maior precisão geral obtida foi a do MXPOST 89,66%. Foram também implementados quatorze métodos para a combinação dos etiquetadores, dos quais sete superaram a precisão do MXPOST. A maior precisão obtida com os métodos de combinação foi 90,91%. A precisão geral sofreu a influência do tamanho do corpus manualmente etiquetado disponível para treinamento, do conjunto de etiquetas e dos tipos de texto utilizados.POS tagging is a very basic and well known natural language processing task used in several applications such as parsing and information retrieval. lhe taggers for English achieved a state of the art accuracy of 96-99%. Unlike the case of English, only some approaches to tagging were explored for Brazilian Portuguese and the tagging systems available are still unsatisfactory from the point of view of results based on the state-of-the-art accuracy for English. Four taggers have been trained with the NILC tagset on a mixed 100,000-word corpus of Brazilian Portuguese, namely Unigram (Treetagger), N-gram (Treetagger), transformation-based (TBL) and Maximum-Entropy tagging (MXPOST), and a symbolic tagger, named PoSiTagger, was designed. MXPOST displayed the best accuracy (89.66%). Fourteen methods of combination were used, seven of which IS to an improvement over the MXPOST accuracy. lhe best result from the combination strategy was 90,91%. lhe low accuracy is attributed to the reduced sue of the training corpus, the tagset used and the mixed corpus employed.Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaAires, Rachel Virgínia Xavier2000-10-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2017-09-04T21:06:18Zoai:teses.usp.br:tde-28042016-090039Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212017-09-04T21:06:18Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
Implementation, adaptation, combination and evaluation of Brazilian portuguese taggers
title Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
spellingShingle Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
Aires, Rachel Virgínia Xavier
Não disponível
Not available
title_short Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
title_full Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
title_fullStr Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
title_full_unstemmed Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
title_sort Implementação, Adaptação, Combinação e Avaliação de Etiquetadores para o Português do Brasil
author Aires, Rachel Virgínia Xavier
author_facet Aires, Rachel Virgínia Xavier
author_role author
dc.contributor.none.fl_str_mv Aluisio, Sandra Maria
dc.contributor.author.fl_str_mv Aires, Rachel Virgínia Xavier
dc.subject.por.fl_str_mv Não disponível
Not available
topic Não disponível
Not available
description A etiquetagem morfossintática é uma tarefa básica, bem conhecida e bastante explorada em diversas aplicações de Processamento de Línguas Naturais (PLN), como análise sintática e extração e recuperação de informações. Os etiquetadores para a língua inglesa atingiram um estado da arte entre 96-99% de precisão geral. Diferentemente do inglês, para o português do Brasil não foram ainda exploradas todas as técnicas para a etiquetagem, nem se atingiu a precisão dos melhores etiquetadores para a língua inglesa. Com estas motivações, quatro etiquetadores disponíveis na WWW foram treinados Unigrama (TreeTagger), Trigrama (TreeTagger), baseado em transformações (TBL) e baseado em máxima entropia (MXPOST) , e um etiquetador simbólico foi desenvolvido (PoSiTagger). Todos os etiquetadores adaptados foram treinados com um corpus com cerca de 100.000 palavras formado por textos didáticos, jornalísticos e literários, e etiquetado com o Nilc tagset. A maior precisão geral obtida foi a do MXPOST 89,66%. Foram também implementados quatorze métodos para a combinação dos etiquetadores, dos quais sete superaram a precisão do MXPOST. A maior precisão obtida com os métodos de combinação foi 90,91%. A precisão geral sofreu a influência do tamanho do corpus manualmente etiquetado disponível para treinamento, do conjunto de etiquetas e dos tipos de texto utilizados.
publishDate 2000
dc.date.none.fl_str_mv 2000-10-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28042016-090039/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809091147225628672