Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2005 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da INATEL |
Texto Completo: | http://tede.inatel.br:8080/tede/handle/tede/59 |
Resumo: | Abstract: The goal of this work is to evaluate the distortion of the noisy speech signal being after enhanced by noise-reduction algorithms. This is performed by comparison of word accuracy (%) of a standardized automatic speech recognition (ASR) system and objective measures of perceptual speech quality (PESQ-MOS score), obtained after applying noise-reduction methods. The test scenario, composed of ETSI STQ-aurora DRS working group data base and a standardized ASR system, evaluated the following algoritms: WI008 (ETSI STQ-aurora standard), EMSR (ephraim and malah noise suppressor rule algorithm), NMT-PSS (noise masking threshold - power spectral subtraction) and EMSR + NMT-PSS (EMSR algorithm with the concept of noise masking threshold). Moreover a curve that models the relationship between PESQ-MOS score and recognition rate (%) is proposed. The purpose is to predict, under certain conditions, The system perfomance by means of the PESQ evalution. This approximations is based inthe logistic curve, which configuration parameters have physical meanings, validated by experimental results. Finally, some analysis are presented to indicate the advantages and disadvantages of several noise types present at aurora1 database over recognition system performance. |
id |
INAT_e2a1abef118f4b6f2d5c622be468d817 |
---|---|
oai_identifier_str |
oai:localhost:tede/59 |
network_acronym_str |
INAT |
network_name_str |
Biblioteca Digital de Teses e Dissertações da INATEL |
repository_id_str |
|
spelling |
Ynoguti, Carlos Alberto156.167.778-70http://lattes.cnpq.br/5678667205895840Silva, Francisco Jos? Fraga dahttp://lattes.cnpq.br/6574409043436708Ynoguti, Carlos Alberto156.167.778-70http://lattes.cnpq.br/5678667205895840Silva, Francisco Jos? Fraga dahttp://lattes.cnpq.br/6574409043436708Ramirez, Miguel Arjonahttp://lattes.cnpq.br/0057571113012412http://lattes.cnpq.br/7913225565733314Chiovato, Andr? Godoi2016-09-26T19:41:36Z2005-12-16Chiovato, Andr? Godoi. Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos. 2005. [137]. disserta??o( Mestrado em Engenharia de Telecomunica??es) - Instituto Nacional de Telecomunica??es, [Santa Rita do Sapuca?] .http://tede.inatel.br:8080/tede/handle/tede/59Abstract: The goal of this work is to evaluate the distortion of the noisy speech signal being after enhanced by noise-reduction algorithms. This is performed by comparison of word accuracy (%) of a standardized automatic speech recognition (ASR) system and objective measures of perceptual speech quality (PESQ-MOS score), obtained after applying noise-reduction methods. The test scenario, composed of ETSI STQ-aurora DRS working group data base and a standardized ASR system, evaluated the following algoritms: WI008 (ETSI STQ-aurora standard), EMSR (ephraim and malah noise suppressor rule algorithm), NMT-PSS (noise masking threshold - power spectral subtraction) and EMSR + NMT-PSS (EMSR algorithm with the concept of noise masking threshold). Moreover a curve that models the relationship between PESQ-MOS score and recognition rate (%) is proposed. The purpose is to predict, under certain conditions, The system perfomance by means of the PESQ evalution. This approximations is based inthe logistic curve, which configuration parameters have physical meanings, validated by experimental results. Finally, some analysis are presented to indicate the advantages and disadvantages of several noise types present at aurora1 database over recognition system performance.Resumo: Este trabalho tem como objetivo avaliar distor??o produzida no sinal de fala ruidoso ao ser real?ado pelos algoritmos de redu??o de ru?do. Esta avalia??o ? feita atrav?s da compara??o entre taxa de acerto (%) de um sistema padronizado de reconhecimento autom?tico de fala (RAF) e medidas objetivas do ?ndice (PESQ-MOS) da qualidade perceptual do sinal de fala, obtidas ap?s aplica??o de m?todos de redu??o de ru?do. O cen?rio de testes, realizado sobre a base de dados de fala ETSI STQ-Aurora DSR Working Group e um sistema de reconhecimento padronizado, avaliou os seguintes algoritmos: WI008 (padr?o ETSI STQ-Aurora), EMSR (algoritmo de supress?o de ru?do tradicional de Ephraim e Malah), NMT-PSS (algoritmo do tio subtra??o espectral com caracter?sticas psico-ac?sticas) e EMSR + NMT-PSS (algoritmo baseado na regra de supress?o de Ephraim e Malah, mas com o conceito de limiar de mascaramento do ru?do). Uma curva que modela a rela??o matem?tica entre o ?ndice PESQ-MOS e a Taxa de Reconhecimento (%) ? proposta. A inten??o ? predizer, em determinadas situa??es, o desempenho do sistema de RAF atrav?s da ferramenta PESQ. A aproxima??o ? baseada na Curva Log?stica, cujos par?metros de configura??o possuem significados f?sicos validados pelos resultados experimentais. S?o apresentadas algumas an?lises que apontam vantagens e desvantagens dos tipos de ru?do da base Aurora com rela??o ao desempenho do sistema de RAF padronizado.Submitted by Tede Dspace (tede@inatel.br) on 2016-09-26T19:41:36Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese final Godoi.pdf: 2682187 bytes, checksum: 852ad148bb0437e8315fc03429a0c551 (MD5)Made available in DSpace on 2016-09-26T19:41:36Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese final Godoi.pdf: 2682187 bytes, checksum: 852ad148bb0437e8315fc03429a0c551 (MD5) Previous issue date: 2005-12-16application/pdfhttp://tede.inatel.br:8080/jspui/retrieve/563/Tese%20final%20Godoi.pdf.jpgporInstituto Nacional de Telecomunica??esMestrado em Engenharia de Telecomunica??esINATELBrasilInstituto Nacional de Telecomunica??eshttp://creativecommons.org/licenses/by-nd/4.0/info:eu-repo/semantics/openAccessReconhecimento de voz; avalia??o perceptual da fala; algoritmo de realce da falaEngenharia - Telecomunica??esAvalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidososinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações da INATELinstname:Instituto Nacional de Telecomunicações (INATEL)instacron:INATELLICENSElicense.txtlicense.txttext/plain; charset=utf-8112http://localhost:8080/tede/bitstream/tede/59/1/license.txtc6279291b293f0db82678eaa73a27769MD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-846http://localhost:8080/tede/bitstream/tede/59/2/license_url587cd8ffae15c8598ed3c46d248a3f38MD52license_textlicense_texttext/html; charset=utf-80http://localhost:8080/tede/bitstream/tede/59/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://localhost:8080/tede/bitstream/tede/59/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54ORIGINALTese final Godoi.pdfTese final Godoi.pdfapplication/pdf2682187http://localhost:8080/tede/bitstream/tede/59/5/Tese+final+Godoi.pdf852ad148bb0437e8315fc03429a0c551MD55THUMBNAILTese final Godoi.pdf.jpgTese final Godoi.pdf.jpgimage/jpeg5964http://localhost:8080/tede/bitstream/tede/59/6/Tese+final+Godoi.pdf.jpg03d1405ac511aa93d47b76f2f464814cMD56tede/592018-04-16 17:16:43.451oai:localhost:tede/59QXV0b3Jpem8gYSBwdWJsaWNhPz9vIGRhIG1pbmhhIERpc3NlcnRhPz9vIGRlIE1lc3RyYWRvLCBlbSBmb3JtYXRvIFBERiwgY29tIGJsb3F1ZWlvIGRlIGVkaT8/bywgY29sYWdlbSBlIGM/cGlhLg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede.inatel.br:8080/jspui/PUBhttp://tede.inatel.br:8080/oai/requestbiblioteca@inatel.br || biblioteca.atendimento@inatel.bropendoar:2018-04-16T20:16:43Biblioteca Digital de Teses e Dissertações da INATEL - Instituto Nacional de Telecomunicações (INATEL)false |
dc.title.por.fl_str_mv |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos |
title |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos |
spellingShingle |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos Chiovato, Andr? Godoi Reconhecimento de voz; avalia??o perceptual da fala; algoritmo de realce da fala Engenharia - Telecomunica??es |
title_short |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos |
title_full |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos |
title_fullStr |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos |
title_full_unstemmed |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos |
title_sort |
Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos |
author |
Chiovato, Andr? Godoi |
author_facet |
Chiovato, Andr? Godoi |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Ynoguti, Carlos Alberto |
dc.contributor.advisor1ID.fl_str_mv |
156.167.778-70 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/5678667205895840 |
dc.contributor.advisor-co1.fl_str_mv |
Silva, Francisco Jos? Fraga da |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/6574409043436708 |
dc.contributor.referee1.fl_str_mv |
Ynoguti, Carlos Alberto |
dc.contributor.referee1ID.fl_str_mv |
156.167.778-70 |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/5678667205895840 |
dc.contributor.referee2.fl_str_mv |
Silva, Francisco Jos? Fraga da |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/6574409043436708 |
dc.contributor.referee3.fl_str_mv |
Ramirez, Miguel Arjona |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/0057571113012412 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/7913225565733314 |
dc.contributor.author.fl_str_mv |
Chiovato, Andr? Godoi |
contributor_str_mv |
Ynoguti, Carlos Alberto Silva, Francisco Jos? Fraga da Ynoguti, Carlos Alberto Silva, Francisco Jos? Fraga da Ramirez, Miguel Arjona |
dc.subject.por.fl_str_mv |
Reconhecimento de voz; avalia??o perceptual da fala; algoritmo de realce da fala |
topic |
Reconhecimento de voz; avalia??o perceptual da fala; algoritmo de realce da fala Engenharia - Telecomunica??es |
dc.subject.cnpq.fl_str_mv |
Engenharia - Telecomunica??es |
description |
Abstract: The goal of this work is to evaluate the distortion of the noisy speech signal being after enhanced by noise-reduction algorithms. This is performed by comparison of word accuracy (%) of a standardized automatic speech recognition (ASR) system and objective measures of perceptual speech quality (PESQ-MOS score), obtained after applying noise-reduction methods. The test scenario, composed of ETSI STQ-aurora DRS working group data base and a standardized ASR system, evaluated the following algoritms: WI008 (ETSI STQ-aurora standard), EMSR (ephraim and malah noise suppressor rule algorithm), NMT-PSS (noise masking threshold - power spectral subtraction) and EMSR + NMT-PSS (EMSR algorithm with the concept of noise masking threshold). Moreover a curve that models the relationship between PESQ-MOS score and recognition rate (%) is proposed. The purpose is to predict, under certain conditions, The system perfomance by means of the PESQ evalution. This approximations is based inthe logistic curve, which configuration parameters have physical meanings, validated by experimental results. Finally, some analysis are presented to indicate the advantages and disadvantages of several noise types present at aurora1 database over recognition system performance. |
publishDate |
2005 |
dc.date.issued.fl_str_mv |
2005-12-16 |
dc.date.accessioned.fl_str_mv |
2016-09-26T19:41:36Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
Chiovato, Andr? Godoi. Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos. 2005. [137]. disserta??o( Mestrado em Engenharia de Telecomunica??es) - Instituto Nacional de Telecomunica??es, [Santa Rita do Sapuca?] . |
dc.identifier.uri.fl_str_mv |
http://tede.inatel.br:8080/tede/handle/tede/59 |
identifier_str_mv |
Chiovato, Andr? Godoi. Avalia??o da rela??o entre qualidade perceptual da fala e taxa de acerto de sistemas de reconhecimento de fala em ambientes ruidosos. 2005. [137]. disserta??o( Mestrado em Engenharia de Telecomunica??es) - Instituto Nacional de Telecomunica??es, [Santa Rita do Sapuca?] . |
url |
http://tede.inatel.br:8080/tede/handle/tede/59 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Nacional de Telecomunica??es |
dc.publisher.program.fl_str_mv |
Mestrado em Engenharia de Telecomunica??es |
dc.publisher.initials.fl_str_mv |
INATEL |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto Nacional de Telecomunica??es |
publisher.none.fl_str_mv |
Instituto Nacional de Telecomunica??es |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da INATEL instname:Instituto Nacional de Telecomunicações (INATEL) instacron:INATEL |
instname_str |
Instituto Nacional de Telecomunicações (INATEL) |
instacron_str |
INATEL |
institution |
INATEL |
reponame_str |
Biblioteca Digital de Teses e Dissertações da INATEL |
collection |
Biblioteca Digital de Teses e Dissertações da INATEL |
bitstream.url.fl_str_mv |
http://localhost:8080/tede/bitstream/tede/59/1/license.txt http://localhost:8080/tede/bitstream/tede/59/2/license_url http://localhost:8080/tede/bitstream/tede/59/3/license_text http://localhost:8080/tede/bitstream/tede/59/4/license_rdf http://localhost:8080/tede/bitstream/tede/59/5/Tese+final+Godoi.pdf http://localhost:8080/tede/bitstream/tede/59/6/Tese+final+Godoi.pdf.jpg |
bitstream.checksum.fl_str_mv |
c6279291b293f0db82678eaa73a27769 587cd8ffae15c8598ed3c46d248a3f38 d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e 852ad148bb0437e8315fc03429a0c551 03d1405ac511aa93d47b76f2f464814c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da INATEL - Instituto Nacional de Telecomunicações (INATEL) |
repository.mail.fl_str_mv |
biblioteca@inatel.br || biblioteca.atendimento@inatel.br |
_version_ |
1800214190440316928 |