Automatic phonological transcription system for Portuguese
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Texto livre |
Texto Completo: | https://periodicos.ufmg.br/index.php/textolivre/article/view/16792 |
Resumo: | RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior. PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica. ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels. KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form. BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005. BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002. BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012. BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981. CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016. CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: <http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915>. Acesso em: 10 ago. 2017. CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968. HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96. HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: <http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf>. Acesso em: 15 ago. 2013. JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006. SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015. SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014. TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215. VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008. VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011. |
id |
UFMG-9_f8cd2c4323c562dc8f60ccab44432832 |
---|---|
oai_identifier_str |
oai:periodicos.ufmg.br:article/16792 |
network_acronym_str |
UFMG-9 |
network_name_str |
Texto livre |
repository_id_str |
|
spelling |
Automatic phonological transcription system for PortugueseSistema automático de transcrição fonológica para o português portuguêstranscrição fonológica automáticaforma gráficaforma fonológica.RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior. PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica. ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels. KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form. BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005. BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002. BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012. BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981. CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016. CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: <http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915>. Acesso em: 10 ago. 2017. CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968. HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96. HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: <http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf>. Acesso em: 15 ago. 2013. JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006. SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015. SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014. TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215. VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008. VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.Universidade Federal de Minas Gerais2018-07-16info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/textolivre/article/view/1679210.17851/1983-3652.11.2.50-67Texto Livre; Vol. 11 No. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67Texto Livre; Vol. 11 Núm. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67Texto Livre; Vol. 11 No 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67Texto Livre; v. 11 n. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-671983-3652reponame:Texto livreinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/textolivre/article/view/16792/13553Copyright (c) 2018 Texto Livre: Linguagem e Tecnologiainfo:eu-repo/semantics/openAccessSantos, Daniel da SilvaNogueira, Iara Cristina AraújoCarvalho, Cid Ivan da Costa2020-07-24T12:59:33Zoai:periodicos.ufmg.br:article/16792Revistahttp://www.periodicos.letras.ufmg.br/index.php/textolivrePUBhttps://periodicos.ufmg.br/index.php/textolivre/oairevistatextolivre@letras.ufmg.br1983-36521983-3652opendoar:2020-07-24T12:59:33Texto livre - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.none.fl_str_mv |
Automatic phonological transcription system for Portuguese Sistema automático de transcrição fonológica para o português |
title |
Automatic phonological transcription system for Portuguese |
spellingShingle |
Automatic phonological transcription system for Portuguese Santos, Daniel da Silva português transcrição fonológica automática forma gráfica forma fonológica. |
title_short |
Automatic phonological transcription system for Portuguese |
title_full |
Automatic phonological transcription system for Portuguese |
title_fullStr |
Automatic phonological transcription system for Portuguese |
title_full_unstemmed |
Automatic phonological transcription system for Portuguese |
title_sort |
Automatic phonological transcription system for Portuguese |
author |
Santos, Daniel da Silva |
author_facet |
Santos, Daniel da Silva Nogueira, Iara Cristina Araújo Carvalho, Cid Ivan da Costa |
author_role |
author |
author2 |
Nogueira, Iara Cristina Araújo Carvalho, Cid Ivan da Costa |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Santos, Daniel da Silva Nogueira, Iara Cristina Araújo Carvalho, Cid Ivan da Costa |
dc.subject.por.fl_str_mv |
português transcrição fonológica automática forma gráfica forma fonológica. |
topic |
português transcrição fonológica automática forma gráfica forma fonológica. |
description |
RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior. PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica. ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels. KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form. BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005. BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002. BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012. BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981. CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016. CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: <http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915>. Acesso em: 10 ago. 2017. CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968. HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96. HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: <http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf>. Acesso em: 15 ago. 2013. JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006. SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015. SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014. TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215. VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008. VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-07-16 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16792 10.17851/1983-3652.11.2.50-67 |
url |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16792 |
identifier_str_mv |
10.17851/1983-3652.11.2.50-67 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.ufmg.br/index.php/textolivre/article/view/16792/13553 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
Texto Livre; Vol. 11 No. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67 Texto Livre; Vol. 11 Núm. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67 Texto Livre; Vol. 11 No 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67 Texto Livre; v. 11 n. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67 1983-3652 reponame:Texto livre instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Texto livre |
collection |
Texto livre |
repository.name.fl_str_mv |
Texto livre - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
revistatextolivre@letras.ufmg.br |
_version_ |
1799711142402064384 |