Generative Adversarial Networks para aprimoramento de áudio e voz

Spadini, Tito Caco Curimbaba

Generative Adversarial Networks para aprimoramento de áudio e voz

Detalhes bibliográficos
Autor(a) principal:	Spadini, Tito Caco Curimbaba
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFABC
Texto Completo:	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043
Resumo:	Orientador: Prof. Dr. Ricardo Suyama

Metadados do item

id	UFBC_f9cebacc7ef8165174372be60ed05f29
oai_identifier_str	oai:BDTD:122043
network_acronym_str	UFBC
network_name_str	Repositório Institucional da UFABC
repository_id_str
spelling	Generative Adversarial Networks para aprimoramento de áudio e vozGENERATIVE ADVERSARIAL NETWORKSMELHORAMENTO DE VOZPROCESSAMENTO DIGITAL DE SINAISPROCESSAMENTO DE SINAIS DE ÁUDIOTRATAMENTO DE RUÍDOSSPEECH ENHANCEMENTDIGITAL SIGNAL PROCESSINGAUDIO SIGNAL PROCESSINGDENOISINGPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientador: Prof. Dr. Ricardo SuyamaDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2020.Neste trabalho serão abordados aspectos inerentes a sinais de áudio, bem como critérios de avaliação de desempenho acompanhados de algumas métricas, e também algumas técnicas de melhoramento. Também serão abordadas as redes neurais artificiais, que são a base do que hoje se conhece por Deep Learning, e que deu início à Generative Adversarial Network, que é a abordagem de destaque deste trabalho. Ao final, são explorados dois problemas. O primeiro almeja melhorar a qualidade e a inteligibilidade de vozes em diversos cenários de ruído. Aqui foram utilizados o filtro de Wiener, que apresentou o melhor desempenho geral, exceto em casos muito ruidosos; o estimador Log-MMSE, que se saiu quase tão bem quanto Wiener, mas com variância levemente menor, e a SEGAN, que se saiu bem apenas nos cenários de baixa SNR, mas apresentou baixíssima variância no geral. O segundo problema busca conferir ganhos de desempenho a um algoritmo de localização de fontes sonoras para encontrar a direção de chegada de gritos de socorro captados por um arranjo de microfones em um Drone em cenários de ruído extremo, de ?21 dB a 24 dB. Foram explorados a SEGAN e o Log-MMSE, e o melhor desempenho foi o da combinação serial de ambos, nessa ordem, o que permitiu 100 % de acerto.This work will address aspects inherent to audio signals, as well as performance evaluation criteria accompanied by some metrics, as well as some enhancement techniques. It will also discuss the artificial neural networks, the basis of what is now known as Deep Learning, and which originated the Generative Adversarial Network, the focus of this work. In the end, two problems are investigated. The first aims to enhance voice quality and intelligibility in various noise scenarios. Here we used the Wiener filter, which showed the best overall performance except in very noisy cases; the Log-MMSE estimator, which performed almost as well as Wiener, but with slightly smaller variance; and SEGAN, which did well only in low SNR scenarios, but had very low overall variance. The second problem seeks to give performance gains to a sound source localization algorithm to find the direction of arrival of distress cries detected from a microphone array on a drone in extreme noise scenarios, from ?21 dB to 24 dB. SEGAN and Log-MMSE were explored, and the best performance was the serial combination of both in this order, which allowed 100 % accuracy.Suyama, RicardoPanazio, Aline de Oliveira NevesMasiero, Bruno SanchesAttux, Romis Ribeiro de FaissolSpadini, Tito Caco Curimbaba2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf224 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79041http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79040Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=122043porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2022-03-21T13:40:19Zoai:BDTD:122043Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2022-03-21T13:40:19Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv	Generative Adversarial Networks para aprimoramento de áudio e voz
title	Generative Adversarial Networks para aprimoramento de áudio e voz
spellingShingle	Generative Adversarial Networks para aprimoramento de áudio e voz Spadini, Tito Caco Curimbaba GENERATIVE ADVERSARIAL NETWORKS MELHORAMENTO DE VOZ PROCESSAMENTO DIGITAL DE SINAIS PROCESSAMENTO DE SINAIS DE ÁUDIO TRATAMENTO DE RUÍDOS SPEECH ENHANCEMENT DIGITAL SIGNAL PROCESSING AUDIO SIGNAL PROCESSING DENOISING PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
title_short	Generative Adversarial Networks para aprimoramento de áudio e voz
title_full	Generative Adversarial Networks para aprimoramento de áudio e voz
title_fullStr	Generative Adversarial Networks para aprimoramento de áudio e voz
title_full_unstemmed	Generative Adversarial Networks para aprimoramento de áudio e voz
title_sort	Generative Adversarial Networks para aprimoramento de áudio e voz
author	Spadini, Tito Caco Curimbaba
author_facet	Spadini, Tito Caco Curimbaba
author_role	author
dc.contributor.none.fl_str_mv	Suyama, Ricardo Panazio, Aline de Oliveira Neves Masiero, Bruno Sanches Attux, Romis Ribeiro de Faissol
dc.contributor.author.fl_str_mv	Spadini, Tito Caco Curimbaba
dc.subject.por.fl_str_mv	GENERATIVE ADVERSARIAL NETWORKS MELHORAMENTO DE VOZ PROCESSAMENTO DIGITAL DE SINAIS PROCESSAMENTO DE SINAIS DE ÁUDIO TRATAMENTO DE RUÍDOS SPEECH ENHANCEMENT DIGITAL SIGNAL PROCESSING AUDIO SIGNAL PROCESSING DENOISING PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
topic	GENERATIVE ADVERSARIAL NETWORKS MELHORAMENTO DE VOZ PROCESSAMENTO DIGITAL DE SINAIS PROCESSAMENTO DE SINAIS DE ÁUDIO TRATAMENTO DE RUÍDOS SPEECH ENHANCEMENT DIGITAL SIGNAL PROCESSING AUDIO SIGNAL PROCESSING DENOISING PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
description	Orientador: Prof. Dr. Ricardo Suyama
publishDate	2020
dc.date.none.fl_str_mv	2020
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043
url	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79041 http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79040 Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=122043
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 224 f. : il.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC (UFABC) instacron:UFABC
instname_str	Universidade Federal do ABC (UFABC)
instacron_str	UFABC
institution	UFABC
reponame_str	Repositório Institucional da UFABC
collection	Repositório Institucional da UFABC
repository.name.fl_str_mv	Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_	1813263955517243392

Generative Adversarial Networks para aprimoramento de áudio e voz

Registros relacionados