Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.

Francisco José Fraga Silva

Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.

Detalhes bibliográficos
Autor(a) principal:	Francisco José Fraga Silva
Data de Publicação:	1998
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações do ITA
Texto Completo:	http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633
Resumo:	Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%.

Metadados do item

id	ITA_8bb22e1d17e0634f2ff4ce2ff685c56d
oai_identifier_str	oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2633
network_acronym_str	ITA
network_name_str	Biblioteca Digital de Teses e Dissertações do ITA
spelling	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.FalaProcessamento de sinaisLíngua portuguesaReconhecimento de vozSistemas digitaisAlgoritmosFonéticaEngenharia eletrônicaComputaçãoDesenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%. Instituto Tecnológico de AeronáuticaOsamu SaotomeFrancisco José Fraga Silva1998-00-00info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:04:53Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2633http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:39:35.453Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue
dc.title.none.fl_str_mv	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
title	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
spellingShingle	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado. Francisco José Fraga Silva Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação
title_short	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
title_full	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
title_fullStr	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
title_full_unstemmed	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
title_sort	Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.
author	Francisco José Fraga Silva
author_facet	Francisco José Fraga Silva
author_role	author
dc.contributor.none.fl_str_mv	Osamu Saotome
dc.contributor.author.fl_str_mv	Francisco José Fraga Silva
dc.subject.por.fl_str_mv	Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação
topic	Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação
dc.description.none.fl_txt_mv	Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%.
description	Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%.
publishDate	1998
dc.date.none.fl_str_mv	1998-00-00
dc.type.driver.fl_str_mv	info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis
status_str	publishedVersion
format	doctoralThesis
dc.identifier.uri.fl_str_mv	http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633
url	http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Instituto Tecnológico de Aeronáutica
publisher.none.fl_str_mv	Instituto Tecnológico de Aeronáutica
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações do ITA instname:Instituto Tecnológico de Aeronáutica instacron:ITA
reponame_str	Biblioteca Digital de Teses e Dissertações do ITA
collection	Biblioteca Digital de Teses e Dissertações do ITA
instname_str	Instituto Tecnológico de Aeronáutica
instacron_str	ITA
institution	ITA
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica
repository.mail.fl_str_mv
subject_por_txtF_mv	Fala Processamento de sinais Língua portuguesa Reconhecimento de voz Sistemas digitais Algoritmos Fonética Engenharia eletrônica Computação
_version_	1706809288278671360

Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.

Registros relacionados