[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S

RODRIGO CAIADO DE LAMARE

[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S

Detalhes bibliográficos
Autor(a) principal:	RODRIGO CAIADO DE LAMARE
Data de Publicação:	2001
Tipo de documento:	Outros
Idioma:	por
Título da fonte:	Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@2 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@4 http://doi.org/10.17771/PUCRio.acad.1873
Resumo:	[pt] Esta dissertação propõe algoritmos para codificações de voz a taxas médias em torno de 1,2 Kb/s. Um esquema de quantização vetorial preditiva chaveada com desempenho superior aos esquemas previamente descritos na literatura é proposto e avaliado em canal com ou sem ruído. Detectores eficientes de período fundamental e de sons oclusivos e fricativos são examinados e adaptados ao codificador proposto. Técnicas de exitação a baixas taxas de bits são investigadas a fim de reproduzir uma boa qualidade de voz decodificada. O modelo de exitação mista em multi-bandas com três sub-bandas é adotado para codificar os quadros sonoros. Para os quadros surdos são empregadas técnicas de modelagem e síntese de sinais fricativos e oclusivos, capazes de oferecer qualidade de voz satisfatória, reduzindo a taxa de bits destes quadros para apenas 0,4 Kb/s. Técnicas de pós-filtragem para reduzir o ruído de codificação e melhorar a qualidade de voz reconstruída são também examinadas e comparadas em uma mesma plataforma. Para reduzir o nível de ruído ambiente são ainda analisados métodos de supressão de ruído. Finalmente, o codificador proposto é comparado ao padrão norte-americano Mixed Excitation Linear Prediction (MELP), por meios de teste de comparação do tipo A/B. Os testes realizados indicam que o sistema proposto, operando a 1,2 Kb/s, apresenta qualidade de voz ligeiramente superior ao MELP, operando a 2,4 Kb/s. Para situações de transcodificação, o codificador proposto também apresenta desempenho superior ao MELP.

Metadados do item

id	PUC_RIO-1_799c458f67cf9288b31197159159a0bc
oai_identifier_str	oai:MAXWELL.puc-rio.br:1873
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str	534
spelling	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S [pt] CODIFICAÇÃO DE VOZ A TAXAS MÉDIAS ABAIXO DE 2 KB/S [en] SPEECH CODING AT AVERAGE RATES BELOW 2KB/S [pt] CODIFICACAO DE VOZ[pt] AVALIACAO DE QUALIDADE SUBJETIVA[pt] POS-FILTROS[pt] OCLUSIVOS[pt] FRICATIVOS[pt] TECNICA DE EXCITACAO[pt] QUANTIZACAO VETORIAL[pt] PARAMETROS LSF[pt] BAIXA TAXA DE BIT[en] SPEECH CODING[en] SUBJECTIVE QUALITY EVALUATION[en] POST-FILTERS[en] STOPS[en] FRICATIVES[en] EXCITATION TECHNIQUE[en] VECTOR QUANTISATION[en] LSF PARAMETERS[en] LOW BIT RATE[pt] Esta dissertação propõe algoritmos para codificações de voz a taxas médias em torno de 1,2 Kb/s. Um esquema de quantização vetorial preditiva chaveada com desempenho superior aos esquemas previamente descritos na literatura é proposto e avaliado em canal com ou sem ruído. Detectores eficientes de período fundamental e de sons oclusivos e fricativos são examinados e adaptados ao codificador proposto. Técnicas de exitação a baixas taxas de bits são investigadas a fim de reproduzir uma boa qualidade de voz decodificada. O modelo de exitação mista em multi-bandas com três sub-bandas é adotado para codificar os quadros sonoros. Para os quadros surdos são empregadas técnicas de modelagem e síntese de sinais fricativos e oclusivos, capazes de oferecer qualidade de voz satisfatória, reduzindo a taxa de bits destes quadros para apenas 0,4 Kb/s. Técnicas de pós-filtragem para reduzir o ruído de codificação e melhorar a qualidade de voz reconstruída são também examinadas e comparadas em uma mesma plataforma. Para reduzir o nível de ruído ambiente são ainda analisados métodos de supressão de ruído. Finalmente, o codificador proposto é comparado ao padrão norte-americano Mixed Excitation Linear Prediction (MELP), por meios de teste de comparação do tipo A/B. Os testes realizados indicam que o sistema proposto, operando a 1,2 Kb/s, apresenta qualidade de voz ligeiramente superior ao MELP, operando a 2,4 Kb/s. Para situações de transcodificação, o codificador proposto também apresenta desempenho superior ao MELP.[en] This dissertation presents algorithms to encode at an avarage bit rate of 1.2 Kb/s. A novel switched-predictive vector quantiser technique that outperforms previously reported schemes is proposed and assessed under noise-free and noisy channels. Efficient detectors for the pitch period and fricative and stop sounds are examined and adapted to the proposed coder. Low bit rate excitation methods are investigated in order to reproduce rather high quality speech. A mixed multiband excitation approach with three sub-bands is employed to encode voiced frames. For unvoiced frames, fricatives and stops modelling and synthesis techniques are used. This approach has shown to provide high quality synthesised speech, whilts it reduces the bit rate to only 0.4 Kb/s for unvoiced frames. To reduce coding noise and improve decoded speech, post- filtering techniques are analysed and compared on the same plataform. To reduce background noise, noise suppression methods are also examined. Finally, the propose coder is evaluated against the North American Mixed Prediction (MELP) coder, through A/B comparison tests. Assessment results have shown that the proposed system, operating at 1.2 Kb/s, slightly outperformed the MELP coder, operating at 2.4 Kb/s. For tandem connection situations, the proposed algorithm has presented a superior performance than the MELP coder.[es] Esta disertación propone algoritmos para codificaciones de voz a tasas medias en torno de 1,2 Kb/s. Se propone un esquema de cuantización vectorial predictiva, con desempeño superior a los esquemas previamente descritos en la literatura. Este esquema se evalúa en canal con o sin ruido. Se examinan detectores eficientes de período fundamental y de sueños oclusivos y fricativos se adaptan al codificador propuesto. Técnicas de exitación a bajas tasas de bits son investigadas a fin de reproducir una boa calidad de voz decodificada. Se adopta el modelo de exitación mixta en multi-bandas con tres sub-bandas para codificar los cuadros sonoros. Para los cuadros surdos se emplean técnicas de modelación y síntesis de señales fricativos y oclusivos, capaces de ofrecer calidad de voz satisfactoria, reduciendo la tasa de bits de estos cuadros para apenas 0,4 Kb/s. También se examinan y se comparan las técnicas de pós-filtragen para reducir el ruido de codificación y mejorar la calidad de voz reconstruída. Para reducir el nível de ruído ambiente se analizan métodos de supresión de ruido. Finalmente, el codificador propuesto se compara al padrón norteamericano Mixed Excitation Lineal Prediction (MELP), por medio de pruebas de comparación del tipo LA/B. Las pruebas realizadas indican que el sistema propuesto, operando a 1,2 Kb/s, presenta calidad de voz ligeramente superior al MELP, operando a 2,4 Kb/s. Para situaciones de transcodificación, el codificador propuesto también presenta desempeño superior al MELP. MAXWELLABRAHAM ALCAIMRODRIGO CAIADO DE LAMARE2001-08-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@2https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@4http://doi.org/10.17771/PUCRio.acad.1873porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2017-09-14T00:00:00Zoai:MAXWELL.puc-rio.br:1873Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342017-09-14T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S [pt] CODIFICAÇÃO DE VOZ A TAXAS MÉDIAS ABAIXO DE 2 KB/S [en] SPEECH CODING AT AVERAGE RATES BELOW 2KB/S
title	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S
spellingShingle	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S RODRIGO CAIADO DE LAMARE [pt] CODIFICACAO DE VOZ [pt] AVALIACAO DE QUALIDADE SUBJETIVA [pt] POS-FILTROS [pt] OCLUSIVOS [pt] FRICATIVOS [pt] TECNICA DE EXCITACAO [pt] QUANTIZACAO VETORIAL [pt] PARAMETROS LSF [pt] BAIXA TAXA DE BIT [en] SPEECH CODING [en] SUBJECTIVE QUALITY EVALUATION [en] POST-FILTERS [en] STOPS [en] FRICATIVES [en] EXCITATION TECHNIQUE [en] VECTOR QUANTISATION [en] LSF PARAMETERS [en] LOW BIT RATE
title_short	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S
title_full	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S
title_fullStr	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S
title_full_unstemmed	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S
title_sort	[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S
author	RODRIGO CAIADO DE LAMARE
author_facet	RODRIGO CAIADO DE LAMARE
author_role	author
dc.contributor.none.fl_str_mv	ABRAHAM ALCAIM
dc.contributor.author.fl_str_mv	RODRIGO CAIADO DE LAMARE
dc.subject.por.fl_str_mv	[pt] CODIFICACAO DE VOZ [pt] AVALIACAO DE QUALIDADE SUBJETIVA [pt] POS-FILTROS [pt] OCLUSIVOS [pt] FRICATIVOS [pt] TECNICA DE EXCITACAO [pt] QUANTIZACAO VETORIAL [pt] PARAMETROS LSF [pt] BAIXA TAXA DE BIT [en] SPEECH CODING [en] SUBJECTIVE QUALITY EVALUATION [en] POST-FILTERS [en] STOPS [en] FRICATIVES [en] EXCITATION TECHNIQUE [en] VECTOR QUANTISATION [en] LSF PARAMETERS [en] LOW BIT RATE
topic	[pt] CODIFICACAO DE VOZ [pt] AVALIACAO DE QUALIDADE SUBJETIVA [pt] POS-FILTROS [pt] OCLUSIVOS [pt] FRICATIVOS [pt] TECNICA DE EXCITACAO [pt] QUANTIZACAO VETORIAL [pt] PARAMETROS LSF [pt] BAIXA TAXA DE BIT [en] SPEECH CODING [en] SUBJECTIVE QUALITY EVALUATION [en] POST-FILTERS [en] STOPS [en] FRICATIVES [en] EXCITATION TECHNIQUE [en] VECTOR QUANTISATION [en] LSF PARAMETERS [en] LOW BIT RATE
description	[pt] Esta dissertação propõe algoritmos para codificações de voz a taxas médias em torno de 1,2 Kb/s. Um esquema de quantização vetorial preditiva chaveada com desempenho superior aos esquemas previamente descritos na literatura é proposto e avaliado em canal com ou sem ruído. Detectores eficientes de período fundamental e de sons oclusivos e fricativos são examinados e adaptados ao codificador proposto. Técnicas de exitação a baixas taxas de bits são investigadas a fim de reproduzir uma boa qualidade de voz decodificada. O modelo de exitação mista em multi-bandas com três sub-bandas é adotado para codificar os quadros sonoros. Para os quadros surdos são empregadas técnicas de modelagem e síntese de sinais fricativos e oclusivos, capazes de oferecer qualidade de voz satisfatória, reduzindo a taxa de bits destes quadros para apenas 0,4 Kb/s. Técnicas de pós-filtragem para reduzir o ruído de codificação e melhorar a qualidade de voz reconstruída são também examinadas e comparadas em uma mesma plataforma. Para reduzir o nível de ruído ambiente são ainda analisados métodos de supressão de ruído. Finalmente, o codificador proposto é comparado ao padrão norte-americano Mixed Excitation Linear Prediction (MELP), por meios de teste de comparação do tipo A/B. Os testes realizados indicam que o sistema proposto, operando a 1,2 Kb/s, apresenta qualidade de voz ligeiramente superior ao MELP, operando a 2,4 Kb/s. Para situações de transcodificação, o codificador proposto também apresenta desempenho superior ao MELP.
publishDate	2001
dc.date.none.fl_str_mv	2001-08-21
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/other
format	other
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@2 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@4 http://doi.org/10.17771/PUCRio.acad.1873
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@2 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1873@4 http://doi.org/10.17771/PUCRio.acad.1873
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1814822542596112384

[es] CODIFICACIÓN DE VOZ A TASAS MEDIAS ABAJO DE 2 KB/S

Registros relacionados