Automatic phonological transcription system for Portuguese

Detalhes bibliográficos
Autor(a) principal: Santos, Daniel da Silva
Data de Publicação: 2018
Outros Autores: Nogueira, Iara Cristina Araújo, Carvalho, Cid Ivan da Costa
Tipo de documento: Artigo
Idioma: por
Título da fonte: Texto livre
Texto Completo: https://periodicos.ufmg.br/index.php/textolivre/article/view/16792
Resumo: RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior. PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica.   ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels. KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form. BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005.   BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002.   BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012.   BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981.   CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016.   CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: <http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915>. Acesso em: 10 ago. 2017.   CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968.   HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96.   HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: <http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf>. Acesso em: 15 ago. 2013.   JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006.   SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015.   SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014. TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215.   VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008.   VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.
id UFMG-9_f8cd2c4323c562dc8f60ccab44432832
oai_identifier_str oai:periodicos.ufmg.br:article/16792
network_acronym_str UFMG-9
network_name_str Texto livre
repository_id_str
spelling Automatic phonological transcription system for PortugueseSistema automático de transcrição fonológica para o português portuguêstranscrição fonológica automáticaforma gráficaforma fonológica.RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior. PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica.   ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels. KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form. BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005.   BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002.   BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012.   BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981.   CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016.   CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: <http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915>. Acesso em: 10 ago. 2017.   CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968.   HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96.   HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: <http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf>. Acesso em: 15 ago. 2013.   JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006.   SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015.   SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014. TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215.   VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008.   VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.Universidade Federal de Minas Gerais2018-07-16info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.ufmg.br/index.php/textolivre/article/view/1679210.17851/1983-3652.11.2.50-67Texto Livre; Vol. 11 No. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67Texto Livre; Vol. 11 Núm. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67Texto Livre; Vol. 11 No 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67Texto Livre; v. 11 n. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-671983-3652reponame:Texto livreinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGporhttps://periodicos.ufmg.br/index.php/textolivre/article/view/16792/13553Copyright (c) 2018 Texto Livre: Linguagem e Tecnologiainfo:eu-repo/semantics/openAccessSantos, Daniel da SilvaNogueira, Iara Cristina AraújoCarvalho, Cid Ivan da Costa2020-07-24T12:59:33Zoai:periodicos.ufmg.br:article/16792Revistahttp://www.periodicos.letras.ufmg.br/index.php/textolivrePUBhttps://periodicos.ufmg.br/index.php/textolivre/oairevistatextolivre@letras.ufmg.br1983-36521983-3652opendoar:2020-07-24T12:59:33Texto livre - Universidade Federal de Minas Gerais (UFMG)false
dc.title.none.fl_str_mv Automatic phonological transcription system for Portuguese
Sistema automático de transcrição fonológica para o português
title Automatic phonological transcription system for Portuguese
spellingShingle Automatic phonological transcription system for Portuguese
Santos, Daniel da Silva
português
transcrição fonológica automática
forma gráfica
forma fonológica.
title_short Automatic phonological transcription system for Portuguese
title_full Automatic phonological transcription system for Portuguese
title_fullStr Automatic phonological transcription system for Portuguese
title_full_unstemmed Automatic phonological transcription system for Portuguese
title_sort Automatic phonological transcription system for Portuguese
author Santos, Daniel da Silva
author_facet Santos, Daniel da Silva
Nogueira, Iara Cristina Araújo
Carvalho, Cid Ivan da Costa
author_role author
author2 Nogueira, Iara Cristina Araújo
Carvalho, Cid Ivan da Costa
author2_role author
author
dc.contributor.author.fl_str_mv Santos, Daniel da Silva
Nogueira, Iara Cristina Araújo
Carvalho, Cid Ivan da Costa
dc.subject.por.fl_str_mv português
transcrição fonológica automática
forma gráfica
forma fonológica.
topic português
transcrição fonológica automática
forma gráfica
forma fonológica.
description RESUMO: Os sistemas de transcrição automática de grafema para fonema são conhecidos como Graphem to phoneme (G2P). Neste trabalho, apresentamos um sistema automático de transcrição fonológica para o português, utilizando a tecnologia de estados finitos. Para o desenvolvimento desse sistema, seguimos os seguintes passos: a compreensão da relação entre as formas gráficas e as formas fonológicas da língua, a construção de um algoritmo, a implementação desse algoritmo numa linguagem de programação, o teste e a avaliação do sistema num corpus da língua portuguesa. Após o desenvolvimento, os resultados mostraram que o sistema apresenta nível satisfatório para a maior quantidade de palavras dessa língua; todavia, ainda precisa melhorar em outros aspectos, como a distinção entre o som aberto e o som fechado nas vogais anterior e posterior. PALAVRAS-CHAVE: Português; transcrição fonológica automática; forma gráfica; forma fonológica.   ABSTRACT: The automatic grapheme transcription systems for phoneme are known as Graphem to phoneme (G2P). In this work, we present an Automatic phonological transcription system for Portuguese, using finite-state technology. For the development of this system, we follow these steps: the understanding of relationship between the graphical form and the phonological form of the language, the building of an algorithm, the implementation of this algorithm in a programming language, the testing and the evaluation of the system in a Portuguese language writing corpus. After the development, the results showed that the system presents a satisfactory level for the greatest amount of words of that language; however, it needs to be improved in other aspects, such as the distinction between open and closed sound in the anterior and posterior vowels. KEYWORDS: Portuguese; automatic phonological transcription; graphical form; phonological form. BECHARA, E. Moderna gramática portuguesa. 38. ed. Rio de Janeiro: Lucerna, 2005.   BEESLEY, K. R.; KARTTUNEN, L. Finite-State Morphology:Xerox Tools and Techniques, 2002.   BIRD, S.; KLEIN, E.; LOPER, E. Learning to classify text. In: _____. Natural language processing with python. United States of America: O'Reilly, 2009, p. 221-257. Disponível em: <http://www.nltk.org/book/>. Acesso em: mai. 2012.   BRAGA, D.; COELHO, L.; RESENDE Jr., F. G. V. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese, VI Int. Telecommunications Symposium, Fortaleza-CE, Brazil, 2006. p. 976-981.   CARVALHO, C. I. C. Transdutor de estados finitos para conversão de grafema para a pronúncia da variedade linguística potiguar. 2016. 160 f. Tese (doutorado em Linguística) – Universidade Federal do Ceará, Centro de Humanidades, Departamento de Letras Vernáculas, Fortaleza, 2016.   CARVALHO, C. I. C. Conversor de transcrição fonética automática para as formas linguísticas da variedade linguística potiguar. Domínios de Lingu@gem,[s.l.], v. 11, n. 3, p. 733-752, 30 jun. 2017. EDUFU. http://dx.doi.org/10.14393/dl30-v11n3a2017-13. Disponível em: <http://www.seer.ufu.br/index.php/dominiosdelinguagem/article/view/37277/20915>. Acesso em: 10 ago. 2017.   CHOMSKY, N.; HALLE, M. The sound pattern of english. New York: Harper e Row, 1968.   HULDEN, M. Finite-State Syllabification. In: HULDEN, M. YLI-JYRÄ, A.; KARTTUNEN, L.; KARHUMÄKI, J. FSMNLP 2005, LNAI 4002, 2006, p. 86-96.   HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12., 2008, Atenas. Proceedings...Atenas: Eacl, p. 29-32, 2008. Disponível em: <http://dingo.sbs.arizona.edu/~mhulden/hulden_foma_2009.pdf>. Acesso em: 15 ago. 2013.   JARGAS, A. M. Expressões Regulares: uma abordagem divertida. Novatec Editora, 2006.   SEARA, I. C.; NUNES, V. G.; LAZZAROTTO-VOLCÃO, C. Fonética e fonologia do português brasileiro. Editora Contexta, 2015.   SILVA, T. C. Fonética e fonologia do português. 10. ed. São Paulo: Contexto, 2014. TEIXEIRA, A.; OLIVEIRA, C.; MOUTINHO, L. On the Use of Machine Learning and Syllable Information in European Portuguese GraphemePhone Conversion, Proc. PROPOR 2006, 2006. p. 212-215.   VASILÉVSKI, V. Construção de um sistema computacional para suporte à pesquisa em fonologia do português do Brasil. 2008. 166f. Tese de doutorado - Pós-graduação em Linguística da Universidade Federal de Santa Catarina, 2008.   VEIGA, A.; CANDEIAS, S.; PERDIGÃO, F. Conversão de Grafemas para Fonemas em Português Europeu – Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas. Linguamática, v. 3, nº 1, 2, p. 39–51, dez. 2011.
publishDate 2018
dc.date.none.fl_str_mv 2018-07-16
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.ufmg.br/index.php/textolivre/article/view/16792
10.17851/1983-3652.11.2.50-67
url https://periodicos.ufmg.br/index.php/textolivre/article/view/16792
identifier_str_mv 10.17851/1983-3652.11.2.50-67
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.ufmg.br/index.php/textolivre/article/view/16792/13553
dc.rights.driver.fl_str_mv Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2018 Texto Livre: Linguagem e Tecnologia
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv Texto Livre; Vol. 11 No. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67
Texto Livre; Vol. 11 Núm. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67
Texto Livre; Vol. 11 No 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67
Texto Livre; v. 11 n. 2 (2018): Texto Livre: Linguagem e Tecnologia; 50-67
1983-3652
reponame:Texto livre
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Texto livre
collection Texto livre
repository.name.fl_str_mv Texto livre - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv revistatextolivre@letras.ufmg.br
_version_ 1799711142402064384