Anotação morfológica automática de corpus de língua falada: desafios ao Aelius

Detalhes bibliográficos
Autor(a) principal: Othero, Gabriel de Ávila
Data de Publicação: 2014
Outros Autores: Ayres, Mônica Rigo
Tipo de documento: Artigo
Idioma: por
Título da fonte: Texto livre
Texto Completo: https://periodicos.ufmg.br/index.php/textolivre/article/view/16673
Resumo: RESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics.
id UFMG-9_b62085530b1a1fc63899bab839783f01
oai_identifier_str oai:periodicos.ufmg.br:article/16673
network_acronym_str UFMG-9
network_name_str Texto livre
repository_id_str
spelling Anotação morfológica automática de corpus de língua falada: desafios ao AeliusEtiquetagem automáticaEtiquetagem morfossintáticaLinguística de CorpusRESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics.Universidade Federal de Minas Gerais2014-09-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/textolivre/article/view/1667310.17851/1983-3652.7.2.44-60Texto Livre; Vol. 7 No. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60Texto Livre; Vol. 7 Núm. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60Texto Livre; Vol. 7 No 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60Texto Livre; v. 7 n. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-601983-3652reponame:Texto livreinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/textolivre/article/view/16673/13430Copyright (c) 2019 Texto Livre: Linguagem e Tecnologiainfo:eu-repo/semantics/openAccessOthero, Gabriel de ÁvilaAyres, Mônica Rigo2020-07-18T18:24:46Zoai:periodicos.ufmg.br:article/16673Revistahttp://www.periodicos.letras.ufmg.br/index.php/textolivrePUBhttps://periodicos.ufmg.br/index.php/textolivre/oairevistatextolivre@letras.ufmg.br1983-36521983-3652opendoar:2020-07-18T18:24:46Texto livre - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
title Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
spellingShingle Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
Othero, Gabriel de Ávila
Etiquetagem automática
Etiquetagem morfossintática
Linguística de Corpus
title_short Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
title_full Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
title_fullStr Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
title_full_unstemmed Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
title_sort Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
author Othero, Gabriel de Ávila
author_facet Othero, Gabriel de Ávila
Ayres, Mônica Rigo
author_role author
author2 Ayres, Mônica Rigo
author2_role author
dc.contributor.author.fl_str_mv Othero, Gabriel de Ávila
Ayres, Mônica Rigo
dc.subject.por.fl_str_mv Etiquetagem automática
Etiquetagem morfossintática
Linguística de Corpus
topic Etiquetagem automática
Etiquetagem morfossintática
Linguística de Corpus
description RESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics.
publishDate 2014
dc.date.none.fl_str_mv 2014-09-24
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.ufmg.br/index.php/textolivre/article/view/16673
10.17851/1983-3652.7.2.44-60
url https://periodicos.ufmg.br/index.php/textolivre/article/view/16673
identifier_str_mv 10.17851/1983-3652.7.2.44-60
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.ufmg.br/index.php/textolivre/article/view/16673/13430
dc.rights.driver.fl_str_mv Copyright (c) 2019 Texto Livre: Linguagem e Tecnologia
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2019 Texto Livre: Linguagem e Tecnologia
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv Texto Livre; Vol. 7 No. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60
Texto Livre; Vol. 7 Núm. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60
Texto Livre; Vol. 7 No 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60
Texto Livre; v. 7 n. 2 (2014): Texto Livre: Linguagem e Tecnologia; 44-60
1983-3652
reponame:Texto livre
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Texto livre
collection Texto livre
repository.name.fl_str_mv Texto livre - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv revistatextolivre@letras.ufmg.br
_version_ 1799711141710004224