Anotação morfológica automática de corpus de língua falada : desafios ao Aelius

Detalhes bibliográficos
Autor(a) principal: Othero, Gabriel de Ávila
Data de Publicação: 2014
Outros Autores: Ayres, Mônica Rigo
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/117105
Resumo: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.
id UFRGS-2_03764e2bcc8331273214a6a9a540d9ef
oai_identifier_str oai:www.lume.ufrgs.br:10183/117105
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Othero, Gabriel de ÁvilaAyres, Mônica Rigo2015-05-26T02:00:59Z20141983-3652http://hdl.handle.net/10183/117105000966630Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.In this paper, we present the results of our work on automatic morphological annotation using the free morphosyntatic Aelius tagger. The excerpts analyzed were taken from a corpus of spoken language – part of the VARSUL project. We present 20 texts containing 154,530 words, which were automatically annotated and manually corrected. This paper also describes the Aelius tagger and our effort of manual reviewing the texts, as well as our suggestions for improving the tool, concerning aspects of oral texts tagging. We assessed the performance of the tagger at the morphosyntactic tagging of a spoken language corpus, an unprecedented challenge for the tool. Based on its errors, we try to infer certain patterns of annotation to overcome the limitations presented by the program. We also make suggestions in order to allow Aelius to tag spoken language corpora in a more effective way, specially when dealing with interjections, apheresis, onomatopoeia and conversational markers.application/pdfporTexto livre. Belo Horizonte, MG. Vol. 7, n. 2 (primavera 2014), f. 44-60AeliusLingüística de corpusMorfossintaxeTaggerMorphosyntactic taggingCorpus LinguisticsAnotação morfológica automática de corpus de língua falada : desafios ao AeliusMorphological pos tagging in oral language corpus : challenges for Aeliusinfo:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000966630.pdf000966630.pdfTexto completoapplication/pdf320768http://www.lume.ufrgs.br/bitstream/10183/117105/1/000966630.pdfb4297756ae3b8f3c0dde44d496588979MD51TEXT000966630.pdf.txt000966630.pdf.txtExtracted Texttext/plain45864http://www.lume.ufrgs.br/bitstream/10183/117105/2/000966630.pdf.txtf38fec912760dc2bb5d7af7107491bd3MD52THUMBNAIL000966630.pdf.jpg000966630.pdf.jpgGenerated Thumbnailimage/jpeg2058http://www.lume.ufrgs.br/bitstream/10183/117105/3/000966630.pdf.jpg99a90122d30dbdcbe67f2241cbe44accMD5310183/1171052018-10-22 08:56:15.313oai:www.lume.ufrgs.br:10183/117105Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-22T11:56:15Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
dc.title.alternative.en.fl_str_mv Morphological pos tagging in oral language corpus : challenges for Aelius
title Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
spellingShingle Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
Othero, Gabriel de Ávila
Aelius
Lingüística de corpus
Morfossintaxe
Tagger
Morphosyntactic tagging
Corpus Linguistics
title_short Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
title_full Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
title_fullStr Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
title_full_unstemmed Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
title_sort Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
author Othero, Gabriel de Ávila
author_facet Othero, Gabriel de Ávila
Ayres, Mônica Rigo
author_role author
author2 Ayres, Mônica Rigo
author2_role author
dc.contributor.author.fl_str_mv Othero, Gabriel de Ávila
Ayres, Mônica Rigo
dc.subject.por.fl_str_mv Aelius
Lingüística de corpus
Morfossintaxe
topic Aelius
Lingüística de corpus
Morfossintaxe
Tagger
Morphosyntactic tagging
Corpus Linguistics
dc.subject.eng.fl_str_mv Tagger
Morphosyntactic tagging
Corpus Linguistics
description Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.
publishDate 2014
dc.date.issued.fl_str_mv 2014
dc.date.accessioned.fl_str_mv 2015-05-26T02:00:59Z
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/other
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/117105
dc.identifier.issn.pt_BR.fl_str_mv 1983-3652
dc.identifier.nrb.pt_BR.fl_str_mv 000966630
identifier_str_mv 1983-3652
000966630
url http://hdl.handle.net/10183/117105
dc.language.iso.fl_str_mv por
language por
dc.relation.ispartof.pt_BR.fl_str_mv Texto livre. Belo Horizonte, MG. Vol. 7, n. 2 (primavera 2014), f. 44-60
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/117105/1/000966630.pdf
http://www.lume.ufrgs.br/bitstream/10183/117105/2/000966630.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/117105/3/000966630.pdf.jpg
bitstream.checksum.fl_str_mv b4297756ae3b8f3c0dde44d496588979
f38fec912760dc2bb5d7af7107491bd3
99a90122d30dbdcbe67f2241cbe44acc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224872889679872