Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/117105 |
Resumo: | Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais. |
id |
UFRGS-2_03764e2bcc8331273214a6a9a540d9ef |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/117105 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Othero, Gabriel de ÁvilaAyres, Mônica Rigo2015-05-26T02:00:59Z20141983-3652http://hdl.handle.net/10183/117105000966630Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.In this paper, we present the results of our work on automatic morphological annotation using the free morphosyntatic Aelius tagger. The excerpts analyzed were taken from a corpus of spoken language – part of the VARSUL project. We present 20 texts containing 154,530 words, which were automatically annotated and manually corrected. This paper also describes the Aelius tagger and our effort of manual reviewing the texts, as well as our suggestions for improving the tool, concerning aspects of oral texts tagging. We assessed the performance of the tagger at the morphosyntactic tagging of a spoken language corpus, an unprecedented challenge for the tool. Based on its errors, we try to infer certain patterns of annotation to overcome the limitations presented by the program. We also make suggestions in order to allow Aelius to tag spoken language corpora in a more effective way, specially when dealing with interjections, apheresis, onomatopoeia and conversational markers.application/pdfporTexto livre. Belo Horizonte, MG. Vol. 7, n. 2 (primavera 2014), f. 44-60AeliusLingüística de corpusMorfossintaxeTaggerMorphosyntactic taggingCorpus LinguisticsAnotação morfológica automática de corpus de língua falada : desafios ao AeliusMorphological pos tagging in oral language corpus : challenges for Aeliusinfo:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000966630.pdf000966630.pdfTexto completoapplication/pdf320768http://www.lume.ufrgs.br/bitstream/10183/117105/1/000966630.pdfb4297756ae3b8f3c0dde44d496588979MD51TEXT000966630.pdf.txt000966630.pdf.txtExtracted Texttext/plain45864http://www.lume.ufrgs.br/bitstream/10183/117105/2/000966630.pdf.txtf38fec912760dc2bb5d7af7107491bd3MD52THUMBNAIL000966630.pdf.jpg000966630.pdf.jpgGenerated Thumbnailimage/jpeg2058http://www.lume.ufrgs.br/bitstream/10183/117105/3/000966630.pdf.jpg99a90122d30dbdcbe67f2241cbe44accMD5310183/1171052018-10-22 08:56:15.313oai:www.lume.ufrgs.br:10183/117105Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-22T11:56:15Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius |
dc.title.alternative.en.fl_str_mv |
Morphological pos tagging in oral language corpus : challenges for Aelius |
title |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius |
spellingShingle |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius Othero, Gabriel de Ávila Aelius Lingüística de corpus Morfossintaxe Tagger Morphosyntactic tagging Corpus Linguistics |
title_short |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius |
title_full |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius |
title_fullStr |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius |
title_full_unstemmed |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius |
title_sort |
Anotação morfológica automática de corpus de língua falada : desafios ao Aelius |
author |
Othero, Gabriel de Ávila |
author_facet |
Othero, Gabriel de Ávila Ayres, Mônica Rigo |
author_role |
author |
author2 |
Ayres, Mônica Rigo |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Othero, Gabriel de Ávila Ayres, Mônica Rigo |
dc.subject.por.fl_str_mv |
Aelius Lingüística de corpus Morfossintaxe |
topic |
Aelius Lingüística de corpus Morfossintaxe Tagger Morphosyntactic tagging Corpus Linguistics |
dc.subject.eng.fl_str_mv |
Tagger Morphosyntactic tagging Corpus Linguistics |
description |
Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014 |
dc.date.accessioned.fl_str_mv |
2015-05-26T02:00:59Z |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/other |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/117105 |
dc.identifier.issn.pt_BR.fl_str_mv |
1983-3652 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000966630 |
identifier_str_mv |
1983-3652 000966630 |
url |
http://hdl.handle.net/10183/117105 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.ispartof.pt_BR.fl_str_mv |
Texto livre. Belo Horizonte, MG. Vol. 7, n. 2 (primavera 2014), f. 44-60 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/117105/1/000966630.pdf http://www.lume.ufrgs.br/bitstream/10183/117105/2/000966630.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/117105/3/000966630.pdf.jpg |
bitstream.checksum.fl_str_mv |
b4297756ae3b8f3c0dde44d496588979 f38fec912760dc2bb5d7af7107491bd3 99a90122d30dbdcbe67f2241cbe44acc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224872889679872 |