Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
Autor(a) principal: | |
---|---|
Data de Publicação: | 1998 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do ITA |
Texto Completo: | http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633 |
Resumo: | Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. |
id |
ITA_8bb22e1d17e0634f2ff4ce2ff685c56d |
---|---|
oai_identifier_str |
oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2633 |
network_acronym_str |
ITA |
network_name_str |
Biblioteca Digital de Teses e Dissertações do ITA |
spelling |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.FalaProcessamento de sinaisLíngua portuguesaReconhecimento de vozSistemas digitaisAlgoritmosFonéticaEngenharia eletrônicaComputaçãoDesenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. Instituto Tecnológico de AeronáuticaOsamu SaotomeFrancisco José Fraga Silva1998-00-00info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:04:53Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2633http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:39:35.453Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue |
dc.title.none.fl_str_mv |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
title |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
spellingShingle |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. Francisco José Fraga Silva Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
title_short |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
title_full |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
title_fullStr |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
title_full_unstemmed |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
title_sort |
Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. |
author |
Francisco José Fraga Silva |
author_facet |
Francisco José Fraga Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Osamu Saotome |
dc.contributor.author.fl_str_mv |
Francisco José Fraga Silva |
dc.subject.por.fl_str_mv |
Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
topic |
Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
dc.description.none.fl_txt_mv |
Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. |
description |
Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. |
publishDate |
1998 |
dc.date.none.fl_str_mv |
1998-00-00 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis |
status_str |
publishedVersion |
format |
doctoralThesis |
dc.identifier.uri.fl_str_mv |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633 |
url |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do ITA instname:Instituto Tecnológico de Aeronáutica instacron:ITA |
reponame_str |
Biblioteca Digital de Teses e Dissertações do ITA |
collection |
Biblioteca Digital de Teses e Dissertações do ITA |
instname_str |
Instituto Tecnológico de Aeronáutica |
instacron_str |
ITA |
institution |
ITA |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica |
repository.mail.fl_str_mv |
|
subject_por_txtF_mv |
Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação |
_version_ |
1706809288278671360 |