Super-resolucao de audio utilizando redes neurais artificiais

Smaniotto, Germano Caberlon

Super-resolucao de audio utilizando redes neurais artificiais

Detalhes bibliográficos
Autor(a) principal:	Smaniotto, Germano Caberlon
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/266356
Resumo:	A super-resolução de áudio é um problema da teoria de processamento de sinais cujo objetivo é aumentar o número de pontos no conjunto de amostras de um sinal de forma inteligente, resultando em uma aproximação de uma frequência de amostragem superior e uma melhor qualidade percebida. Recentemente, técnicas de redes neurais artificiais têm recebido muita atenção para a resolução de inúmeras diferentes categorias de problemas. O presente trabalho busca, portanto, estudar as metodologias de super-resolução de sinais de voz com foco no uso de redes neurais artificiais, que demonstram um grande potencial nesta área. Para isso, são investigadas duas diferentes arquiteturas de redes neurais (um autoencoder e uma rede convolucional baseada em autoencoders) para 3 diferentes taxas de ampliação de frequência de amostragem (2, 4 e 6), bem como diferentes técnicas de treinamento para avaliar o seu desempenho no problema proposto. Além disso, são realizadas comparações com abordagens tradicionais de processamento de sinais, utilizando as métricas de desempenho SNR (relação sinal-ruído), LSD (distância logarítmica do espectro) e o tempo de inferência. Por fim, é avaliada a possibilidade de se empregar uma rede neural de super-resolução para a conversão de sinais de áudio em tempo real. Foi concluído que, para todas as taxas r = 2 e r = 4 de ampliação de frequência de amostragem, a rede convolucional possui o melhor desempenho: SNR de 27,2 e 22,6, enquanto que para r = 6 a rede mais performática foi um autoencoder de pequeno porte e rápido tempo de inferência. A baseline considerada foi a interpolação spline, cuja maior vantagem é o tempo de inferência extremamente rápido, apesar de não resultar em boas métricas de desempenho quando comparada às redes neurais.

Metadados do item

id	UFRGS-2_dfe8276905d6f8b534c5e55b8d6278cd
oai_identifier_str	oai:www.lume.ufrgs.br:10183/266356
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Smaniotto, Germano CaberlonWeber, Tiago Oliveira2023-10-28T03:32:49Z2023http://hdl.handle.net/10183/266356001186621A super-resolução de áudio é um problema da teoria de processamento de sinais cujo objetivo é aumentar o número de pontos no conjunto de amostras de um sinal de forma inteligente, resultando em uma aproximação de uma frequência de amostragem superior e uma melhor qualidade percebida. Recentemente, técnicas de redes neurais artificiais têm recebido muita atenção para a resolução de inúmeras diferentes categorias de problemas. O presente trabalho busca, portanto, estudar as metodologias de super-resolução de sinais de voz com foco no uso de redes neurais artificiais, que demonstram um grande potencial nesta área. Para isso, são investigadas duas diferentes arquiteturas de redes neurais (um autoencoder e uma rede convolucional baseada em autoencoders) para 3 diferentes taxas de ampliação de frequência de amostragem (2, 4 e 6), bem como diferentes técnicas de treinamento para avaliar o seu desempenho no problema proposto. Além disso, são realizadas comparações com abordagens tradicionais de processamento de sinais, utilizando as métricas de desempenho SNR (relação sinal-ruído), LSD (distância logarítmica do espectro) e o tempo de inferência. Por fim, é avaliada a possibilidade de se empregar uma rede neural de super-resolução para a conversão de sinais de áudio em tempo real. Foi concluído que, para todas as taxas r = 2 e r = 4 de ampliação de frequência de amostragem, a rede convolucional possui o melhor desempenho: SNR de 27,2 e 22,6, enquanto que para r = 6 a rede mais performática foi um autoencoder de pequeno porte e rápido tempo de inferência. A baseline considerada foi a interpolação spline, cuja maior vantagem é o tempo de inferência extremamente rápido, apesar de não resultar em boas métricas de desempenho quando comparada às redes neurais.Audio super-resolution is a problem of signal processing theory whose goal is to intelligently increase the number of points of a signal sample set, resulting in an approximation of a higher sampling frequency and improved perceived quality. Recently, artificial neural network techniques have been used to solve different kinds of problems. The present work aims to study existing techniques of voice signal super-resolution focusing on artificial neural networks, which demonstrate great potential in this area. To this end, two different neural network architectures (an autoencoder and a convolutional network based on autoencoders) are investigated for 3 different upsampling rates (2,4 and 6), as well as different training techniques to evaluate their performance on said problem. In addition, comparisons with traditional signal processing techniques are made, using SNR (signalto- noise ratio), LSD (log-spectral distance), and inference time as performance metrics. Finally, the possibility of using a super-resolution neural network for real-time audio signal conversion is assessed. It was concluded that, for all the amplification rates of r = 2 and r = 4, the convolutional network has the best performance: SNR of 27.2 and 22.6, while for r = 6 the most performant network was a small and fast-inference autoencoder. The considered baseline was the spline interpolation, whose greatest advantage is the extremely fast inference time, despite not resulting in good performance metrics when compared to neural networks.application/pdfporProcessamento de sinais de vozRedes neurais artificiaisAprendizado de máquinaAudio super-resolutionAartificial neural networksMachine learningSignal processingBandwidth expansionSuper-resolucao de audio utilizando redes neurais artificiaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPorto Alegre, BR-RS2023Engenharia Mecânicagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001186621.pdf.txt001186621.pdf.txtExtracted Texttext/plain170781http://www.lume.ufrgs.br/bitstream/10183/266356/2/001186621.pdf.txt2d8e5f458c189404dddfdb2e62aa1d78MD52ORIGINAL001186621.pdfTexto completoapplication/pdf3245164http://www.lume.ufrgs.br/bitstream/10183/266356/1/001186621.pdfa6bf0b5f6380589f8e4ec5b743826f9eMD5110183/2663562023-10-29 03:27:39.799961oai:www.lume.ufrgs.br:10183/266356Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-10-29T06:27:39Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Super-resolucao de audio utilizando redes neurais artificiais
title	Super-resolucao de audio utilizando redes neurais artificiais
spellingShingle	Super-resolucao de audio utilizando redes neurais artificiais Smaniotto, Germano Caberlon Processamento de sinais de voz Redes neurais artificiais Aprendizado de máquina Audio super-resolution Aartificial neural networks Machine learning Signal processing Bandwidth expansion
title_short	Super-resolucao de audio utilizando redes neurais artificiais
title_full	Super-resolucao de audio utilizando redes neurais artificiais
title_fullStr	Super-resolucao de audio utilizando redes neurais artificiais
title_full_unstemmed	Super-resolucao de audio utilizando redes neurais artificiais
title_sort	Super-resolucao de audio utilizando redes neurais artificiais
author	Smaniotto, Germano Caberlon
author_facet	Smaniotto, Germano Caberlon
author_role	author
dc.contributor.author.fl_str_mv	Smaniotto, Germano Caberlon
dc.contributor.advisor1.fl_str_mv	Weber, Tiago Oliveira
contributor_str_mv	Weber, Tiago Oliveira
dc.subject.por.fl_str_mv	Processamento de sinais de voz Redes neurais artificiais Aprendizado de máquina
topic	Processamento de sinais de voz Redes neurais artificiais Aprendizado de máquina Audio super-resolution Aartificial neural networks Machine learning Signal processing Bandwidth expansion
dc.subject.eng.fl_str_mv	Audio super-resolution Aartificial neural networks Machine learning Signal processing Bandwidth expansion
description	A super-resolução de áudio é um problema da teoria de processamento de sinais cujo objetivo é aumentar o número de pontos no conjunto de amostras de um sinal de forma inteligente, resultando em uma aproximação de uma frequência de amostragem superior e uma melhor qualidade percebida. Recentemente, técnicas de redes neurais artificiais têm recebido muita atenção para a resolução de inúmeras diferentes categorias de problemas. O presente trabalho busca, portanto, estudar as metodologias de super-resolução de sinais de voz com foco no uso de redes neurais artificiais, que demonstram um grande potencial nesta área. Para isso, são investigadas duas diferentes arquiteturas de redes neurais (um autoencoder e uma rede convolucional baseada em autoencoders) para 3 diferentes taxas de ampliação de frequência de amostragem (2, 4 e 6), bem como diferentes técnicas de treinamento para avaliar o seu desempenho no problema proposto. Além disso, são realizadas comparações com abordagens tradicionais de processamento de sinais, utilizando as métricas de desempenho SNR (relação sinal-ruído), LSD (distância logarítmica do espectro) e o tempo de inferência. Por fim, é avaliada a possibilidade de se empregar uma rede neural de super-resolução para a conversão de sinais de áudio em tempo real. Foi concluído que, para todas as taxas r = 2 e r = 4 de ampliação de frequência de amostragem, a rede convolucional possui o melhor desempenho: SNR de 27,2 e 22,6, enquanto que para r = 6 a rede mais performática foi um autoencoder de pequeno porte e rápido tempo de inferência. A baseline considerada foi a interpolação spline, cuja maior vantagem é o tempo de inferência extremamente rápido, apesar de não resultar em boas métricas de desempenho quando comparada às redes neurais.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-10-28T03:32:49Z
dc.date.issued.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/266356
dc.identifier.nrb.pt_BR.fl_str_mv	001186621
url	http://hdl.handle.net/10183/266356
identifier_str_mv	001186621
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/266356/2/001186621.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/266356/1/001186621.pdf
bitstream.checksum.fl_str_mv	2d8e5f458c189404dddfdb2e62aa1d78 a6bf0b5f6380589f8e4ec5b743826f9e
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224669067476992

Super-resolucao de audio utilizando redes neurais artificiais

Registros relacionados