Aelius falado 1.0

Detalhes bibliográficos
Autor(a) principal: Ayres, Mônica Rigo
Data de Publicação: 2014
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/105249
Resumo: Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.
id UFRGS-2_074f0d1c5ecdf08e07cc2588c69d1001
oai_identifier_str oai:www.lume.ufrgs.br:10183/105249
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Ayres, Mônica RigoOthero, Gabriel de Ávila2014-11-01T02:18:31Z2014http://hdl.handle.net/10183/105249000941631Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.This project is included in the area of Corpus Linguistics and morphological analysis of Brazilian Portuguese, which is about automatic morphological annotation corpus of spoken language. The work aims to contribute to the improvement of the automatic morphosyntactic tagger Aelius, originally developed by prof. Dr. Leonel Alencar, from Universidade Federal do Ceará, coordinator of the project CompLin - Natural Language and Computation. The tags used in Aelius are the same tags of Tycho-Brahe historical Portuguese corpus (electronic corpus already tagged, composed of texts in Portuguese written by authors born between 1380 and 1845). The texts that were used for tagging come from the bank of Varsul project, which studies the linguistic variation in southern Brazil. We worked with automatic tag of 20 texts, containing 154.530 words. This project presents the tool for automatic tagging, the automatic morphosyntactic analysis process executed by the tagger and our auto-tagging manual review work, besides some suggestions of improvement to deal specifically with aspects of orality. We will verify the Aelius’ performance in automatic morphosyntactic tagging of a corpus of spoken language, an unprecedented challenge to this tool. From the errors of the tagger, we seek to infer certain patterns of annotation to overcome limitations presented by the program, proposing some suggestions of implementations so that Aelius can tag even more satisfactorily corpus of spoken language. We will deal especially with cases of interjections, apheresis, onomatopoeia and conversational markers.application/pdfporLingüística de corpusMorfologiaOralidadeMorfossintáticaAuto-taggingMorphosyntactic taggingCorpus linguisticsAelius falado 1.0info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de LetrasPorto Alegre, BR-RS2014Letras: Licenciaturagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000941631.pdf000941631.pdfTexto completoapplication/pdf2248813http://www.lume.ufrgs.br/bitstream/10183/105249/1/000941631.pdf13955ca3ee4b94179dcd976623434747MD51TEXT000941631.pdf.txt000941631.pdf.txtExtracted Texttext/plain171842http://www.lume.ufrgs.br/bitstream/10183/105249/2/000941631.pdf.txt3ba376c8373fc75711df2f8c2232d444MD52THUMBNAIL000941631.pdf.jpg000941631.pdf.jpgGenerated Thumbnailimage/jpeg891http://www.lume.ufrgs.br/bitstream/10183/105249/3/000941631.pdf.jpgdaacb9a7ba9640f42cb33fc896a115eaMD5310183/1052492022-08-06 04:53:32.278855oai:www.lume.ufrgs.br:10183/105249Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-08-06T07:53:32Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Aelius falado 1.0
title Aelius falado 1.0
spellingShingle Aelius falado 1.0
Ayres, Mônica Rigo
Lingüística de corpus
Morfologia
Oralidade
Morfossintática
Auto-tagging
Morphosyntactic tagging
Corpus linguistics
title_short Aelius falado 1.0
title_full Aelius falado 1.0
title_fullStr Aelius falado 1.0
title_full_unstemmed Aelius falado 1.0
title_sort Aelius falado 1.0
author Ayres, Mônica Rigo
author_facet Ayres, Mônica Rigo
author_role author
dc.contributor.author.fl_str_mv Ayres, Mônica Rigo
dc.contributor.advisor1.fl_str_mv Othero, Gabriel de Ávila
contributor_str_mv Othero, Gabriel de Ávila
dc.subject.por.fl_str_mv Lingüística de corpus
Morfologia
Oralidade
Morfossintática
topic Lingüística de corpus
Morfologia
Oralidade
Morfossintática
Auto-tagging
Morphosyntactic tagging
Corpus linguistics
dc.subject.eng.fl_str_mv Auto-tagging
Morphosyntactic tagging
Corpus linguistics
description Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.
publishDate 2014
dc.date.accessioned.fl_str_mv 2014-11-01T02:18:31Z
dc.date.issued.fl_str_mv 2014
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/105249
dc.identifier.nrb.pt_BR.fl_str_mv 000941631
url http://hdl.handle.net/10183/105249
identifier_str_mv 000941631
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/105249/1/000941631.pdf
http://www.lume.ufrgs.br/bitstream/10183/105249/2/000941631.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/105249/3/000941631.pdf.jpg
bitstream.checksum.fl_str_mv 13955ca3ee4b94179dcd976623434747
3ba376c8373fc75711df2f8c2232d444
daacb9a7ba9640f42cb33fc896a115ea
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224473991446528