Melhoramento de voz baseado em representações esparsas usando dicionários treinados

Detalhes bibliográficos
Autor(a) principal: Andrade, Thiago Garcia de
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/202193
Resumo: Melhorar sinais de voz degradados por ruídos não-estacionários é uma tarefa importante e de interesse em diversas áreas de pesquisa. Os espectros variantes no tempo de ruídos não-estacionários comprometem o desempenho de métodos clássicos de melhoramento de voz. Este trabalho explora a utilização de representações esparsas utilizando dicionários treinados no melhoramento de voz. O sinal ruidoso no domínio tempo-frequência é codificado de maneira esparsa utilizando um dicionário formado pela concatenação de um dicionário de voz e um dicionário de ruído. A voz pura é estimada pela representação gerada pelo dicionário de voz enquanto a estimação do ruído é dada pela representação fornecida pelo dicionário de ruído. Uma codificação muito esparsa aumenta o erro de aproximação, denotado por distorção de fonte. Uma codificação muito densa causa confusão de fonte, onde a voz é parcialmente representada pelo dicionário de ruído, e o ruído é parcialmente codificado pelo dicionário de voz. A esparsidade da representação é regulada para melhorar o desempenho. Os resultados experimentais mostram que esta abordagem alcança resultados superiores à subtração espectral, filtro de Wiener e MMSE-STSA usando diferentes medidas objetivas de avaliação.
id UNSP_2eabe45c6e94309691bd7989a1941f41
oai_identifier_str oai:repositorio.unesp.br:11449/202193
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Melhoramento de voz baseado em representações esparsas usando dicionários treinadosSpeech enhancement based on sparse representations using trained dictionariesMelhoramento de vozRepresentações esparsasTreinamento de dicionáriosSpeech enhancementSparse representationsDictionary learningMelhorar sinais de voz degradados por ruídos não-estacionários é uma tarefa importante e de interesse em diversas áreas de pesquisa. Os espectros variantes no tempo de ruídos não-estacionários comprometem o desempenho de métodos clássicos de melhoramento de voz. Este trabalho explora a utilização de representações esparsas utilizando dicionários treinados no melhoramento de voz. O sinal ruidoso no domínio tempo-frequência é codificado de maneira esparsa utilizando um dicionário formado pela concatenação de um dicionário de voz e um dicionário de ruído. A voz pura é estimada pela representação gerada pelo dicionário de voz enquanto a estimação do ruído é dada pela representação fornecida pelo dicionário de ruído. Uma codificação muito esparsa aumenta o erro de aproximação, denotado por distorção de fonte. Uma codificação muito densa causa confusão de fonte, onde a voz é parcialmente representada pelo dicionário de ruído, e o ruído é parcialmente codificado pelo dicionário de voz. A esparsidade da representação é regulada para melhorar o desempenho. Os resultados experimentais mostram que esta abordagem alcança resultados superiores à subtração espectral, filtro de Wiener e MMSE-STSA usando diferentes medidas objetivas de avaliação.Enhancing speech degraded by non-stationary noises is an important task and of great interest in several research areas. The time-varying spectra of non-stationary noises compromise the performance of classical speech enhancement methods. This work explores the use of sparse representations using trained dictionaries in speech enhancement. The mixture in time-frequency domain is sparsely encoded in a dictionary formed by the concatenation of a speech dictionary and a noise dictionary. The cleaned speech is estimated by the representation generated by the speech dictionary while the noise estimation is given by the representation provided by the noise dictionary. Very sparse coding increases the approximation error, denoted by source distortion. Very dense encoding causes source confusion, where the voice is partially represented by the noise dictionary, and the noise is partially encoded by the voice dictionary. The sparsity of the representation is regulated to improve performance. Experimental results shows that this approach achieves results superior to spectral subtraction, Wiener filter and MMSE-STSA using different objective evaluation measures.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 001Universidade Estadual Paulista (Unesp)Alvarado, Francisco Villarreal [UNESP]Universidade Estadual Paulista (Unesp)Andrade, Thiago Garcia de2020-12-21T23:21:23Z2020-12-21T23:21:23Z2020-08-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/20219333004099080P0porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-05T17:40:38Zoai:repositorio.unesp.br:11449/202193Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T17:40:38Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Melhoramento de voz baseado em representações esparsas usando dicionários treinados
Speech enhancement based on sparse representations using trained dictionaries
title Melhoramento de voz baseado em representações esparsas usando dicionários treinados
spellingShingle Melhoramento de voz baseado em representações esparsas usando dicionários treinados
Andrade, Thiago Garcia de
Melhoramento de voz
Representações esparsas
Treinamento de dicionários
Speech enhancement
Sparse representations
Dictionary learning
title_short Melhoramento de voz baseado em representações esparsas usando dicionários treinados
title_full Melhoramento de voz baseado em representações esparsas usando dicionários treinados
title_fullStr Melhoramento de voz baseado em representações esparsas usando dicionários treinados
title_full_unstemmed Melhoramento de voz baseado em representações esparsas usando dicionários treinados
title_sort Melhoramento de voz baseado em representações esparsas usando dicionários treinados
author Andrade, Thiago Garcia de
author_facet Andrade, Thiago Garcia de
author_role author
dc.contributor.none.fl_str_mv Alvarado, Francisco Villarreal [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Andrade, Thiago Garcia de
dc.subject.por.fl_str_mv Melhoramento de voz
Representações esparsas
Treinamento de dicionários
Speech enhancement
Sparse representations
Dictionary learning
topic Melhoramento de voz
Representações esparsas
Treinamento de dicionários
Speech enhancement
Sparse representations
Dictionary learning
description Melhorar sinais de voz degradados por ruídos não-estacionários é uma tarefa importante e de interesse em diversas áreas de pesquisa. Os espectros variantes no tempo de ruídos não-estacionários comprometem o desempenho de métodos clássicos de melhoramento de voz. Este trabalho explora a utilização de representações esparsas utilizando dicionários treinados no melhoramento de voz. O sinal ruidoso no domínio tempo-frequência é codificado de maneira esparsa utilizando um dicionário formado pela concatenação de um dicionário de voz e um dicionário de ruído. A voz pura é estimada pela representação gerada pelo dicionário de voz enquanto a estimação do ruído é dada pela representação fornecida pelo dicionário de ruído. Uma codificação muito esparsa aumenta o erro de aproximação, denotado por distorção de fonte. Uma codificação muito densa causa confusão de fonte, onde a voz é parcialmente representada pelo dicionário de ruído, e o ruído é parcialmente codificado pelo dicionário de voz. A esparsidade da representação é regulada para melhorar o desempenho. Os resultados experimentais mostram que esta abordagem alcança resultados superiores à subtração espectral, filtro de Wiener e MMSE-STSA usando diferentes medidas objetivas de avaliação.
publishDate 2020
dc.date.none.fl_str_mv 2020-12-21T23:21:23Z
2020-12-21T23:21:23Z
2020-08-18
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/202193
33004099080P0
url http://hdl.handle.net/11449/202193
identifier_str_mv 33004099080P0
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808128108351455232