Generative Adversarial Networks para aprimoramento de áudio e voz

Detalhes bibliográficos
Autor(a) principal: Spadini, Tito Caco Curimbaba
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFABC
Texto Completo: http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043
Resumo: Orientador: Prof. Dr. Ricardo Suyama
id UFBC_f9cebacc7ef8165174372be60ed05f29
oai_identifier_str oai:BDTD:122043
network_acronym_str UFBC
network_name_str Repositório Institucional da UFABC
repository_id_str
spelling Generative Adversarial Networks para aprimoramento de áudio e vozGENERATIVE ADVERSARIAL NETWORKSMELHORAMENTO DE VOZPROCESSAMENTO DIGITAL DE SINAISPROCESSAMENTO DE SINAIS DE ÁUDIOTRATAMENTO DE RUÍDOSSPEECH ENHANCEMENTDIGITAL SIGNAL PROCESSINGAUDIO SIGNAL PROCESSINGDENOISINGPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientador: Prof. Dr. Ricardo SuyamaDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2020.Neste trabalho serão abordados aspectos inerentes a sinais de áudio, bem como critérios de avaliação de desempenho acompanhados de algumas métricas, e também algumas técnicas de melhoramento. Também serão abordadas as redes neurais artificiais, que são a base do que hoje se conhece por Deep Learning, e que deu início à Generative Adversarial Network, que é a abordagem de destaque deste trabalho. Ao final, são explorados dois problemas. O primeiro almeja melhorar a qualidade e a inteligibilidade de vozes em diversos cenários de ruído. Aqui foram utilizados o filtro de Wiener, que apresentou o melhor desempenho geral, exceto em casos muito ruidosos; o estimador Log-MMSE, que se saiu quase tão bem quanto Wiener, mas com variância levemente menor, e a SEGAN, que se saiu bem apenas nos cenários de baixa SNR, mas apresentou baixíssima variância no geral. O segundo problema busca conferir ganhos de desempenho a um algoritmo de localização de fontes sonoras para encontrar a direção de chegada de gritos de socorro captados por um arranjo de microfones em um Drone em cenários de ruído extremo, de ?21 dB a 24 dB. Foram explorados a SEGAN e o Log-MMSE, e o melhor desempenho foi o da combinação serial de ambos, nessa ordem, o que permitiu 100 % de acerto.This work will address aspects inherent to audio signals, as well as performance evaluation criteria accompanied by some metrics, as well as some enhancement techniques. It will also discuss the artificial neural networks, the basis of what is now known as Deep Learning, and which originated the Generative Adversarial Network, the focus of this work. In the end, two problems are investigated. The first aims to enhance voice quality and intelligibility in various noise scenarios. Here we used the Wiener filter, which showed the best overall performance except in very noisy cases; the Log-MMSE estimator, which performed almost as well as Wiener, but with slightly smaller variance; and SEGAN, which did well only in low SNR scenarios, but had very low overall variance. The second problem seeks to give performance gains to a sound source localization algorithm to find the direction of arrival of distress cries detected from a microphone array on a drone in extreme noise scenarios, from ?21 dB to 24 dB. SEGAN and Log-MMSE were explored, and the best performance was the serial combination of both in this order, which allowed 100 % accuracy.Suyama, RicardoPanazio, Aline de Oliveira NevesMasiero, Bruno SanchesAttux, Romis Ribeiro de FaissolSpadini, Tito Caco Curimbaba2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf224 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79041http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79040Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=122043porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2022-03-21T13:40:19Zoai:BDTD:122043Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2022-03-21T13:40:19Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv Generative Adversarial Networks para aprimoramento de áudio e voz
title Generative Adversarial Networks para aprimoramento de áudio e voz
spellingShingle Generative Adversarial Networks para aprimoramento de áudio e voz
Spadini, Tito Caco Curimbaba
GENERATIVE ADVERSARIAL NETWORKS
MELHORAMENTO DE VOZ
PROCESSAMENTO DIGITAL DE SINAIS
PROCESSAMENTO DE SINAIS DE ÁUDIO
TRATAMENTO DE RUÍDOS
SPEECH ENHANCEMENT
DIGITAL SIGNAL PROCESSING
AUDIO SIGNAL PROCESSING
DENOISING
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
title_short Generative Adversarial Networks para aprimoramento de áudio e voz
title_full Generative Adversarial Networks para aprimoramento de áudio e voz
title_fullStr Generative Adversarial Networks para aprimoramento de áudio e voz
title_full_unstemmed Generative Adversarial Networks para aprimoramento de áudio e voz
title_sort Generative Adversarial Networks para aprimoramento de áudio e voz
author Spadini, Tito Caco Curimbaba
author_facet Spadini, Tito Caco Curimbaba
author_role author
dc.contributor.none.fl_str_mv Suyama, Ricardo
Panazio, Aline de Oliveira Neves
Masiero, Bruno Sanches
Attux, Romis Ribeiro de Faissol
dc.contributor.author.fl_str_mv Spadini, Tito Caco Curimbaba
dc.subject.por.fl_str_mv GENERATIVE ADVERSARIAL NETWORKS
MELHORAMENTO DE VOZ
PROCESSAMENTO DIGITAL DE SINAIS
PROCESSAMENTO DE SINAIS DE ÁUDIO
TRATAMENTO DE RUÍDOS
SPEECH ENHANCEMENT
DIGITAL SIGNAL PROCESSING
AUDIO SIGNAL PROCESSING
DENOISING
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
topic GENERATIVE ADVERSARIAL NETWORKS
MELHORAMENTO DE VOZ
PROCESSAMENTO DIGITAL DE SINAIS
PROCESSAMENTO DE SINAIS DE ÁUDIO
TRATAMENTO DE RUÍDOS
SPEECH ENHANCEMENT
DIGITAL SIGNAL PROCESSING
AUDIO SIGNAL PROCESSING
DENOISING
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
description Orientador: Prof. Dr. Ricardo Suyama
publishDate 2020
dc.date.none.fl_str_mv 2020
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043
url http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79041
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=122043&midiaext=79040
Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=122043
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
224 f. : il.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFABC
instname:Universidade Federal do ABC (UFABC)
instacron:UFABC
instname_str Universidade Federal do ABC (UFABC)
instacron_str UFABC
institution UFABC
reponame_str Repositório Institucional da UFABC
collection Repositório Institucional da UFABC
repository.name.fl_str_mv Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_ 1813263955517243392