Generative Adversarial Networks para aprimoramento de áudio e voz
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFABC |
Texto Completo: | http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043 |
Resumo: | Orientador: Prof. Dr. Ricardo Suyama |
id |
UFBC_f9cebacc7ef8165174372be60ed05f29 |
---|---|
oai_identifier_str |
oai:BDTD:122043 |
network_acronym_str |
UFBC |
network_name_str |
Repositório Institucional da UFABC |
repository_id_str |
|
spelling |
Generative Adversarial Networks para aprimoramento de áudio e vozGENERATIVE ADVERSARIAL NETWORKSMELHORAMENTO DE VOZPROCESSAMENTO DIGITAL DE SINAISPROCESSAMENTO DE SINAIS DE ÁUDIOTRATAMENTO DE RUÍDOSSPEECH ENHANCEMENTDIGITAL SIGNAL PROCESSINGAUDIO SIGNAL PROCESSINGDENOISINGPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientador: Prof. Dr. Ricardo SuyamaDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2020.Neste trabalho serão abordados aspectos inerentes a sinais de áudio, bem como critérios de avaliação de desempenho acompanhados de algumas métricas, e também algumas técnicas de melhoramento. Também serão abordadas as redes neurais artificiais, que são a base do que hoje se conhece por Deep Learning, e que deu início à Generative Adversarial Network, que é a abordagem de destaque deste trabalho. Ao final, são explorados dois problemas. O primeiro almeja melhorar a qualidade e a inteligibilidade de vozes em diversos cenários de ruído. Aqui foram utilizados o filtro de Wiener, que apresentou o melhor desempenho geral, exceto em casos muito ruidosos; o estimador Log-MMSE, que se saiu quase tão bem quanto Wiener, mas com variância levemente menor, e a SEGAN, que se saiu bem apenas nos cenários de baixa SNR, mas apresentou baixíssima variância no geral. O segundo problema busca conferir ganhos de desempenho a um algoritmo de localização de fontes sonoras para encontrar a direção de chegada de gritos de socorro captados por um arranjo de microfones em um Drone em cenários de ruído extremo, de ?21 dB a 24 dB. Foram explorados a SEGAN e o Log-MMSE, e o melhor desempenho foi o da combinação serial de ambos, nessa ordem, o que permitiu 100 % de acerto.This work will address aspects inherent to audio signals, as well as performance evaluation criteria accompanied by some metrics, as well as some enhancement techniques. It will also discuss the artificial neural networks, the basis of what is now known as Deep Learning, and which originated the Generative Adversarial Network, the focus of this work. In the end, two problems are investigated. The first aims to enhance voice quality and intelligibility in various noise scenarios. Here we used the Wiener filter, which showed the best overall performance except in very noisy cases; the Log-MMSE estimator, which performed almost as well as Wiener, but with slightly smaller variance; and SEGAN, which did well only in low SNR scenarios, but had very low overall variance. The second problem seeks to give performance gains to a sound source localization algorithm to find the direction of arrival of distress cries detected from a microphone array on a drone in extreme noise scenarios, from ?21 dB to 24 dB. SEGAN and Log-MMSE were explored, and the best performance was the serial combination of both in this order, which allowed 100 % accuracy.Suyama, RicardoPanazio, Aline de Oliveira NevesMasiero, Bruno SanchesAttux, Romis Ribeiro de FaissolSpadini, Tito Caco Curimbaba2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf224 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79041http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79040Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=122043porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2022-03-21T13:40:19Zoai:BDTD:122043Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2022-03-21T13:40:19Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false |
dc.title.none.fl_str_mv |
Generative Adversarial Networks para aprimoramento de áudio e voz |
title |
Generative Adversarial Networks para aprimoramento de áudio e voz |
spellingShingle |
Generative Adversarial Networks para aprimoramento de áudio e voz Spadini, Tito Caco Curimbaba GENERATIVE ADVERSARIAL NETWORKS MELHORAMENTO DE VOZ PROCESSAMENTO DIGITAL DE SINAIS PROCESSAMENTO DE SINAIS DE ÁUDIO TRATAMENTO DE RUÍDOS SPEECH ENHANCEMENT DIGITAL SIGNAL PROCESSING AUDIO SIGNAL PROCESSING DENOISING PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
title_short |
Generative Adversarial Networks para aprimoramento de áudio e voz |
title_full |
Generative Adversarial Networks para aprimoramento de áudio e voz |
title_fullStr |
Generative Adversarial Networks para aprimoramento de áudio e voz |
title_full_unstemmed |
Generative Adversarial Networks para aprimoramento de áudio e voz |
title_sort |
Generative Adversarial Networks para aprimoramento de áudio e voz |
author |
Spadini, Tito Caco Curimbaba |
author_facet |
Spadini, Tito Caco Curimbaba |
author_role |
author |
dc.contributor.none.fl_str_mv |
Suyama, Ricardo Panazio, Aline de Oliveira Neves Masiero, Bruno Sanches Attux, Romis Ribeiro de Faissol |
dc.contributor.author.fl_str_mv |
Spadini, Tito Caco Curimbaba |
dc.subject.por.fl_str_mv |
GENERATIVE ADVERSARIAL NETWORKS MELHORAMENTO DE VOZ PROCESSAMENTO DIGITAL DE SINAIS PROCESSAMENTO DE SINAIS DE ÁUDIO TRATAMENTO DE RUÍDOS SPEECH ENHANCEMENT DIGITAL SIGNAL PROCESSING AUDIO SIGNAL PROCESSING DENOISING PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
topic |
GENERATIVE ADVERSARIAL NETWORKS MELHORAMENTO DE VOZ PROCESSAMENTO DIGITAL DE SINAIS PROCESSAMENTO DE SINAIS DE ÁUDIO TRATAMENTO DE RUÍDOS SPEECH ENHANCEMENT DIGITAL SIGNAL PROCESSING AUDIO SIGNAL PROCESSING DENOISING PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
description |
Orientador: Prof. Dr. Ricardo Suyama |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043 |
url |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79041 http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79040 Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=122043 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 224 f. : il. |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC (UFABC) instacron:UFABC |
instname_str |
Universidade Federal do ABC (UFABC) |
instacron_str |
UFABC |
institution |
UFABC |
reponame_str |
Repositório Institucional da UFABC |
collection |
Repositório Institucional da UFABC |
repository.name.fl_str_mv |
Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC) |
repository.mail.fl_str_mv |
|
_version_ |
1813263955517243392 |