Aelius falado 1.0
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/105249 |
Resumo: | Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais. |
id |
UFRGS-2_074f0d1c5ecdf08e07cc2588c69d1001 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/105249 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Ayres, Mônica RigoOthero, Gabriel de Ávila2014-11-01T02:18:31Z2014http://hdl.handle.net/10183/105249000941631Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.This project is included in the area of Corpus Linguistics and morphological analysis of Brazilian Portuguese, which is about automatic morphological annotation corpus of spoken language. The work aims to contribute to the improvement of the automatic morphosyntactic tagger Aelius, originally developed by prof. Dr. Leonel Alencar, from Universidade Federal do Ceará, coordinator of the project CompLin - Natural Language and Computation. The tags used in Aelius are the same tags of Tycho-Brahe historical Portuguese corpus (electronic corpus already tagged, composed of texts in Portuguese written by authors born between 1380 and 1845). The texts that were used for tagging come from the bank of Varsul project, which studies the linguistic variation in southern Brazil. We worked with automatic tag of 20 texts, containing 154.530 words. This project presents the tool for automatic tagging, the automatic morphosyntactic analysis process executed by the tagger and our auto-tagging manual review work, besides some suggestions of improvement to deal specifically with aspects of orality. We will verify the Aelius’ performance in automatic morphosyntactic tagging of a corpus of spoken language, an unprecedented challenge to this tool. From the errors of the tagger, we seek to infer certain patterns of annotation to overcome limitations presented by the program, proposing some suggestions of implementations so that Aelius can tag even more satisfactorily corpus of spoken language. We will deal especially with cases of interjections, apheresis, onomatopoeia and conversational markers.application/pdfporLingüística de corpusMorfologiaOralidadeMorfossintáticaAuto-taggingMorphosyntactic taggingCorpus linguisticsAelius falado 1.0info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de LetrasPorto Alegre, BR-RS2014Letras: Licenciaturagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000941631.pdf000941631.pdfTexto completoapplication/pdf2248813http://www.lume.ufrgs.br/bitstream/10183/105249/1/000941631.pdf13955ca3ee4b94179dcd976623434747MD51TEXT000941631.pdf.txt000941631.pdf.txtExtracted Texttext/plain171842http://www.lume.ufrgs.br/bitstream/10183/105249/2/000941631.pdf.txt3ba376c8373fc75711df2f8c2232d444MD52THUMBNAIL000941631.pdf.jpg000941631.pdf.jpgGenerated Thumbnailimage/jpeg891http://www.lume.ufrgs.br/bitstream/10183/105249/3/000941631.pdf.jpgdaacb9a7ba9640f42cb33fc896a115eaMD5310183/1052492022-08-06 04:53:32.278855oai:www.lume.ufrgs.br:10183/105249Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-08-06T07:53:32Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Aelius falado 1.0 |
title |
Aelius falado 1.0 |
spellingShingle |
Aelius falado 1.0 Ayres, Mônica Rigo Lingüística de corpus Morfologia Oralidade Morfossintática Auto-tagging Morphosyntactic tagging Corpus linguistics |
title_short |
Aelius falado 1.0 |
title_full |
Aelius falado 1.0 |
title_fullStr |
Aelius falado 1.0 |
title_full_unstemmed |
Aelius falado 1.0 |
title_sort |
Aelius falado 1.0 |
author |
Ayres, Mônica Rigo |
author_facet |
Ayres, Mônica Rigo |
author_role |
author |
dc.contributor.author.fl_str_mv |
Ayres, Mônica Rigo |
dc.contributor.advisor1.fl_str_mv |
Othero, Gabriel de Ávila |
contributor_str_mv |
Othero, Gabriel de Ávila |
dc.subject.por.fl_str_mv |
Lingüística de corpus Morfologia Oralidade Morfossintática |
topic |
Lingüística de corpus Morfologia Oralidade Morfossintática Auto-tagging Morphosyntactic tagging Corpus linguistics |
dc.subject.eng.fl_str_mv |
Auto-tagging Morphosyntactic tagging Corpus linguistics |
description |
Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais. |
publishDate |
2014 |
dc.date.accessioned.fl_str_mv |
2014-11-01T02:18:31Z |
dc.date.issued.fl_str_mv |
2014 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/105249 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000941631 |
url |
http://hdl.handle.net/10183/105249 |
identifier_str_mv |
000941631 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/105249/1/000941631.pdf http://www.lume.ufrgs.br/bitstream/10183/105249/2/000941631.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/105249/3/000941631.pdf.jpg |
bitstream.checksum.fl_str_mv |
13955ca3ee4b94179dcd976623434747 3ba376c8373fc75711df2f8c2232d444 daacb9a7ba9640f42cb33fc896a115ea |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447135955451904 |