Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens

Neves, Eder Pereira

Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens

Detalhes bibliográficos
Autor(a) principal:	Neves, Eder Pereira
Data de Publicação:	2022
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	http://hdl.handle.net/11449/239139
Resumo:	Neste trabalho apresenta-se um método para fazer a predição da pontuação MOS - Mean Opinion Score para a medida objetiva intrusiva, ITU-T P.862 - PESQ utilizando uma técnica de processamento de imagem do espectro do sinal de voz. O método foi construído por meio de um processo sistemático simulado por sinais limpos e contaminados com diferentes tipos de ruídos encontrados em situações cotidianas. Cada sinal ´e convertido para o domínio da frequência, transformado em uma matriz e as bandas críticas são separadas utilizando um modelo perceptual. Em seguida, a imagem gerada é quantificada e o espectro de potência de cada pixel é convertido em um nível de cinza e analisado por meio de uma técnica baseada na matriz de coocorrência de níveis de cinza nas suas quatro principais direções, gerando os 19 fatores de Haralick. Dentre o conjunto de fatores três foram selecionados para constituir as entradas do modelo, proporcionando 969 composições para cada direção da matriz de coocorrência. A proposta utiliza uma abordagem de inferência do tipo Sugeno de primeira ordem, implementada no Sistema de Inferência Neuro Fuzzy Adaptativa - ANFIS. Comprovou-se que o desempenho preditivo está ligado à escolha de um algoritmo de fuzzificação do espaço de entrada. Desta forma, foi analisado o comportamento do particionamento Grid e os agrupamentos Subtractive e Fuzzy C-Means - FCM. Constatou-se que o algoritmo FCM proporcionou os melhores resultados para três variáveis linguísticas, sendo avaliado pelas métricas MAPE, RMSE e R2. Nas simulações ficou evidente que o modelo atua efetivamente em qualquer ambiente ruidoso, proporcionando resultados satisfatórios independente da quantidade de sinais a serem analisados.

Metadados do item

id	UNSP_a00bd8fb833dbfd3bda81c0c672371f0
oai_identifier_str	oai:repositorio.unesp.br:11449/239139
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagensPesq-ANFIS/fuzzy c-means predictive model for image-based speech signal evaluationImagem perceptual do sinal de vozTécnica de extração de fatoresAlgoritmo de fuzzificaçãoEstimação da PESQ pela ANFISPerceptual imaging of the speech signalEstimação da PESQ pela ANFISFactor extraction techniqueEstimating PESQ by ANFISNeste trabalho apresenta-se um método para fazer a predição da pontuação MOS - Mean Opinion Score para a medida objetiva intrusiva, ITU-T P.862 - PESQ utilizando uma técnica de processamento de imagem do espectro do sinal de voz. O método foi construído por meio de um processo sistemático simulado por sinais limpos e contaminados com diferentes tipos de ruídos encontrados em situações cotidianas. Cada sinal ´e convertido para o domínio da frequência, transformado em uma matriz e as bandas críticas são separadas utilizando um modelo perceptual. Em seguida, a imagem gerada é quantificada e o espectro de potência de cada pixel é convertido em um nível de cinza e analisado por meio de uma técnica baseada na matriz de coocorrência de níveis de cinza nas suas quatro principais direções, gerando os 19 fatores de Haralick. Dentre o conjunto de fatores três foram selecionados para constituir as entradas do modelo, proporcionando 969 composições para cada direção da matriz de coocorrência. A proposta utiliza uma abordagem de inferência do tipo Sugeno de primeira ordem, implementada no Sistema de Inferência Neuro Fuzzy Adaptativa - ANFIS. Comprovou-se que o desempenho preditivo está ligado à escolha de um algoritmo de fuzzificação do espaço de entrada. Desta forma, foi analisado o comportamento do particionamento Grid e os agrupamentos Subtractive e Fuzzy C-Means - FCM. Constatou-se que o algoritmo FCM proporcionou os melhores resultados para três variáveis linguísticas, sendo avaliado pelas métricas MAPE, RMSE e R2. Nas simulações ficou evidente que o modelo atua efetivamente em qualquer ambiente ruidoso, proporcionando resultados satisfatórios independente da quantidade de sinais a serem analisados.In this work, it is proposed a method to predict of the MOS score - Mean Opinion Score from the intrusive objective measure PESQ - ITU P.862, by analysing the spectrum image of the voice signal. The colorblackmethod was constructed by means of a systematic process simulated by clean signals contaminated with different types of noise found in everyday situations. Each signal is converted to the frequency domain, transformed into a matrix, and the critical bands are separated using a perceptual model. Then the generated image is quantized and the power spectrum of each pixel is converted to a gray level and analyzed using a technique based on the co-occurrence matrix of gray levels in its four main directions, generating the 19 Haralick factors. Among the set of factors, three were selected to constitute the model inputs, which provided 969 compositions for each direction of the co-occurrence matrix. The proposal uses a first-order Sugeno fuzzy inference approach, implemented in the Adaptive Neuro Fuzzy Inference System - ANFIS. Predictive performance has been shown to be linked to the choice of a fuzzification algorithm for the input space. Thus, the behavior of the Grid partitioning and the Subtractive and Fuzzy C-Means - FCM clustering was analyzed. The FCM algorithm was found to provide the best results for three linguistic variables, as evaluated by the MAPE, RMSE and R2 metrics. In the simulations it became evident that the model works effectively in any noisy environment, providing satisfactory results regardless of the amount of signals to be analyzed.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Vieira Filho, JozueUniversidade Estadual Paulista (Unesp)Neves, Eder Pereira2023-01-30T18:51:16Z2023-01-30T18:51:16Z2022-12-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://hdl.handle.net/11449/23913933004099080P0porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-08-05T17:58:10Zoai:repositorio.unesp.br:11449/239139Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T17:58:10Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens Pesq-ANFIS/fuzzy c-means predictive model for image-based speech signal evaluation
title	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens
spellingShingle	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens Neves, Eder Pereira Imagem perceptual do sinal de voz Técnica de extração de fatores Algoritmo de fuzzificação Estimação da PESQ pela ANFIS Perceptual imaging of the speech signal Estimação da PESQ pela ANFIS Factor extraction technique Estimating PESQ by ANFIS
title_short	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens
title_full	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens
title_fullStr	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens
title_full_unstemmed	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens
title_sort	Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens
author	Neves, Eder Pereira
author_facet	Neves, Eder Pereira
author_role	author
dc.contributor.none.fl_str_mv	Vieira Filho, Jozue Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Neves, Eder Pereira
dc.subject.por.fl_str_mv	Imagem perceptual do sinal de voz Técnica de extração de fatores Algoritmo de fuzzificação Estimação da PESQ pela ANFIS Perceptual imaging of the speech signal Estimação da PESQ pela ANFIS Factor extraction technique Estimating PESQ by ANFIS
topic	Imagem perceptual do sinal de voz Técnica de extração de fatores Algoritmo de fuzzificação Estimação da PESQ pela ANFIS Perceptual imaging of the speech signal Estimação da PESQ pela ANFIS Factor extraction technique Estimating PESQ by ANFIS
description	Neste trabalho apresenta-se um método para fazer a predição da pontuação MOS - Mean Opinion Score para a medida objetiva intrusiva, ITU-T P.862 - PESQ utilizando uma técnica de processamento de imagem do espectro do sinal de voz. O método foi construído por meio de um processo sistemático simulado por sinais limpos e contaminados com diferentes tipos de ruídos encontrados em situações cotidianas. Cada sinal ´e convertido para o domínio da frequência, transformado em uma matriz e as bandas críticas são separadas utilizando um modelo perceptual. Em seguida, a imagem gerada é quantificada e o espectro de potência de cada pixel é convertido em um nível de cinza e analisado por meio de uma técnica baseada na matriz de coocorrência de níveis de cinza nas suas quatro principais direções, gerando os 19 fatores de Haralick. Dentre o conjunto de fatores três foram selecionados para constituir as entradas do modelo, proporcionando 969 composições para cada direção da matriz de coocorrência. A proposta utiliza uma abordagem de inferência do tipo Sugeno de primeira ordem, implementada no Sistema de Inferência Neuro Fuzzy Adaptativa - ANFIS. Comprovou-se que o desempenho preditivo está ligado à escolha de um algoritmo de fuzzificação do espaço de entrada. Desta forma, foi analisado o comportamento do particionamento Grid e os agrupamentos Subtractive e Fuzzy C-Means - FCM. Constatou-se que o algoritmo FCM proporcionou os melhores resultados para três variáveis linguísticas, sendo avaliado pelas métricas MAPE, RMSE e R2. Nas simulações ficou evidente que o modelo atua efetivamente em qualquer ambiente ruidoso, proporcionando resultados satisfatórios independente da quantidade de sinais a serem analisados.
publishDate	2022
dc.date.none.fl_str_mv	2022-12-01 2023-01-30T18:51:16Z 2023-01-30T18:51:16Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/239139 33004099080P0
url	http://hdl.handle.net/11449/239139
identifier_str_mv	33004099080P0
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1808128144264134656

Modelo preditivo PESQ-ANFIS/fuzzy c-means para avaliação de sinais de voz baseado em imagens

Registros relacionados