[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE

Detalhes bibliográficos
Autor(a) principal: ROMULO CESAR COSTA DE SOUSA
Data de Publicação: 2020
Tipo de documento: Outros
Idioma: por
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@2
http://doi.org/10.17771/PUCRio.acad.47361
Resumo: [pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior.
id PUC_RIO-1_669b3a0370a1a02d8023339a07bf8efc
oai_identifier_str oai:MAXWELL.puc-rio.br:47361
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊS [pt] APRENDIZADO DE MAQUINA[pt] INCORPORACAO DE PALAVRAS[pt] ANOTACAO MORFOSSINTATICA[pt] APRENDIZADO PROFUNDO[pt] PROCESSAMENTO DE LINGUAGEM NATURAL[en] MACHINE LEARNING[en] WORD EMBEDDING[en] PART-OF-SPEECH TAGGING[en] DEEP LEARNING[en] NATURAL LANGUAGE PROCESSING[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior.[en] Part-of-speech (POS) tagging is a process of labeling each word in a sentence with a morphosyntactic class (verb, noun, adjective and etc). POS tagging is a fundamental part of the linguistic pipeline, most natural language processing (NLP) applications demand, at some step, part-of-speech information. In this work, we constructed a POS tagger for Contemporary Portuguese and Historical Portuguese, using a recurrent neural network architecture. Traditionally the development of these tools requires many handcraft features and external data, our POS tagger does not use these elements. We trained a Bidirectional Long short-term memory (BLSTM) network that benefits from the word embeddings and character embeddings representations of the words, for morphosyntactic classification. We tested our POS tagger on three different corpora: the original version of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus, and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus, 97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the Tycho Brahe corpus. We also achieved an improvement in the three corpora in out-of-vocabulary accuracy, that is the accuracy on words not seen in training sentences. We also performed a comparative study to test which different types of word embeddings (Word2Vec, FastText, Wang2Vec, and Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model showed higher performance. MAXWELLHELIO CORTES VIEIRA LOPESROMULO CESAR COSTA DE SOUSA2020-04-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@2http://doi.org/10.17771/PUCRio.acad.47361porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2024-09-04T00:00:00Zoai:MAXWELL.puc-rio.br:47361Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342024-09-04T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
[pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊS
title [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
spellingShingle [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
ROMULO CESAR COSTA DE SOUSA
[pt] APRENDIZADO DE MAQUINA
[pt] INCORPORACAO DE PALAVRAS
[pt] ANOTACAO MORFOSSINTATICA
[pt] APRENDIZADO PROFUNDO
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[en] MACHINE LEARNING
[en] WORD EMBEDDING
[en] PART-OF-SPEECH TAGGING
[en] DEEP LEARNING
[en] NATURAL LANGUAGE PROCESSING
title_short [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
title_full [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
title_fullStr [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
title_full_unstemmed [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
title_sort [en] PART-OF-SPEECH TAGGING FOR PORTUGUESE
author ROMULO CESAR COSTA DE SOUSA
author_facet ROMULO CESAR COSTA DE SOUSA
author_role author
dc.contributor.none.fl_str_mv HELIO CORTES VIEIRA LOPES
dc.contributor.author.fl_str_mv ROMULO CESAR COSTA DE SOUSA
dc.subject.por.fl_str_mv [pt] APRENDIZADO DE MAQUINA
[pt] INCORPORACAO DE PALAVRAS
[pt] ANOTACAO MORFOSSINTATICA
[pt] APRENDIZADO PROFUNDO
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[en] MACHINE LEARNING
[en] WORD EMBEDDING
[en] PART-OF-SPEECH TAGGING
[en] DEEP LEARNING
[en] NATURAL LANGUAGE PROCESSING
topic [pt] APRENDIZADO DE MAQUINA
[pt] INCORPORACAO DE PALAVRAS
[pt] ANOTACAO MORFOSSINTATICA
[pt] APRENDIZADO PROFUNDO
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[en] MACHINE LEARNING
[en] WORD EMBEDDING
[en] PART-OF-SPEECH TAGGING
[en] DEEP LEARNING
[en] NATURAL LANGUAGE PROCESSING
description [pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior.
publishDate 2020
dc.date.none.fl_str_mv 2020-04-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/other
format other
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@2
http://doi.org/10.17771/PUCRio.acad.47361
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=47361@2
http://doi.org/10.17771/PUCRio.acad.47361
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1814822620125724672