Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Texto livre |
Texto Completo: | https://periodicos.ufmg.br/index.php/textolivre/article/view/16673 |
Resumo: | RESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics. |
id |
UFMG-9_b62085530b1a1fc63899bab839783f01 |
---|---|
oai_identifier_str |
oai:periodicos.ufmg.br:article/16673 |
network_acronym_str |
UFMG-9 |
network_name_str |
Texto livre |
repository_id_str |
|
spelling |
Anotação morfológica automática de corpus de língua falada: desafios ao AeliusEtiquetagem automáticaEtiquetagem morfossintáticaLinguística de CorpusRESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics.Universidade Federal de Minas Gerais2014-09-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/textolivre/article/view/1667310.17851/1983-3652.7.2.44-60Texto Livre; Vol. 7 No. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60Texto Livre; Vol. 7 Núm. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60Texto Livre; Vol. 7 No 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60Texto Livre; v. 7 n. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-601983-3652reponame:Texto livreinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/textolivre/article/view/16673/13430Copyright (c) 2019 Texto Livre: Linguagem e Tecnologiainfo:eu-repo/semantics/openAccessOthero, Gabriel de ÁvilaAyres, Mônica Rigo2020-07-18T18:24:46Zoai:periodicos.ufmg.br:article/16673Revistahttp://www.periodicos.letras.ufmg.br/index.php/textolivrePUBhttps://periodicos.ufmg.br/index.php/textolivre/oairevistatextolivre@letras.ufmg.br1983-36521983-3652opendoar:2020-07-18T18:24:46Texto livre - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.none.fl_str_mv |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius |
title |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius |
spellingShingle |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius Othero, Gabriel de Ávila Etiquetagem automática Etiquetagem morfossintática Linguística de Corpus |
title_short |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius |
title_full |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius |
title_fullStr |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius |
title_full_unstemmed |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius |
title_sort |
Anotação morfológica automática de corpus de língua falada: desafios ao Aelius |
author |
Othero, Gabriel de Ávila |
author_facet |
Othero, Gabriel de Ávila Ayres, Mônica Rigo |
author_role |
author |
author2 |
Ayres, Mônica Rigo |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Othero, Gabriel de Ávila Ayres, Mônica Rigo |
dc.subject.por.fl_str_mv |
Etiquetagem automática Etiquetagem morfossintática Linguística de Corpus |
topic |
Etiquetagem automática Etiquetagem morfossintática Linguística de Corpus |
description |
RESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics. |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-09-24 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16673 10.17851/1983-3652.7.2.44-60 |
url |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16673 |
identifier_str_mv |
10.17851/1983-3652.7.2.44-60 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16673/13430 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2019 Texto Livre: Linguagem e Tecnologia info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2019 Texto Livre: Linguagem e Tecnologia |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
Texto Livre; Vol. 7 No. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60 Texto Livre; Vol. 7 Núm. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60 Texto Livre; Vol. 7 No 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60 Texto Livre; v. 7 n. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60 1983-3652 reponame:Texto livre instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Texto livre |
collection |
Texto livre |
repository.name.fl_str_mv |
Texto livre - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
revistatextolivre@letras.ufmg.br |
_version_ |
1799711141710004224 |