Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados

Detalhes bibliográficos
Autor(a) principal: Ceriotti, Vinicius Cella
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/267582
Resumo: A classificação de sons ambientais tem encontrado aplicabilidade em diversos setores, como sistemas de vigilância de áudio, monitoramento inteligente, preservação ambiental e detecção de ruído em áreas urbanas. No contexto de cidades inteligentes, que buscam soluções tecnológicas para os desafios da urbanização, a classificação de sons se mostra especialmente relevante. Com a integração de técnicas de aprendizado de máquina, torna-se possível aprimorar o desempenho no reconhecimento de padrões acústicos, facilitando a implementação de soluções mais robustas e adaptativas em aplicações práticas. A presente pesquisa analisa 5 topologias de redes neurais convolucionais propostas em trabalhos relacionados (SBCNN, DMIX, STRIDED, 2DCNN e 1DCNN) a partir de três técnicas de extração de características (espectrograma em escala logarítmica, espectrograma mel e espectrograma mel em escala logarítmica) e com e sem a utilização de Data Augmentation. Os modelos foram validados a partir da utilização de técnica 10-fold cross validation. A partir dos resultados obtidos, foram aplicadas as técnicas de poda computacional e quantização para redução do número de parâmetros e tamanho dos modelos. A topologia STRIDED obteve taxa de acerto média de 72, 19%, com 149.892 parâmetros (80% de esparsidade) e tamanho médio de 217.498 bytes para a base de dados UrbanSound8K, enquanto que a topologia SBCNN obteve taxa de acerto de 73, 48%, com 86.476 parâmetros e tamanho médio de 125.669 bytes.
id UFRGS-2_81b836c4297d3e2d84ba2a2284b8abcf
oai_identifier_str oai:www.lume.ufrgs.br:10183/267582
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Ceriotti, Vinicius CellaWeber, Tiago Oliveira2023-11-24T03:26:18Z2023http://hdl.handle.net/10183/267582001186929A classificação de sons ambientais tem encontrado aplicabilidade em diversos setores, como sistemas de vigilância de áudio, monitoramento inteligente, preservação ambiental e detecção de ruído em áreas urbanas. No contexto de cidades inteligentes, que buscam soluções tecnológicas para os desafios da urbanização, a classificação de sons se mostra especialmente relevante. Com a integração de técnicas de aprendizado de máquina, torna-se possível aprimorar o desempenho no reconhecimento de padrões acústicos, facilitando a implementação de soluções mais robustas e adaptativas em aplicações práticas. A presente pesquisa analisa 5 topologias de redes neurais convolucionais propostas em trabalhos relacionados (SBCNN, DMIX, STRIDED, 2DCNN e 1DCNN) a partir de três técnicas de extração de características (espectrograma em escala logarítmica, espectrograma mel e espectrograma mel em escala logarítmica) e com e sem a utilização de Data Augmentation. Os modelos foram validados a partir da utilização de técnica 10-fold cross validation. A partir dos resultados obtidos, foram aplicadas as técnicas de poda computacional e quantização para redução do número de parâmetros e tamanho dos modelos. A topologia STRIDED obteve taxa de acerto média de 72, 19%, com 149.892 parâmetros (80% de esparsidade) e tamanho médio de 217.498 bytes para a base de dados UrbanSound8K, enquanto que a topologia SBCNN obteve taxa de acerto de 73, 48%, com 86.476 parâmetros e tamanho médio de 125.669 bytes.Environmental sound classification has found applicability in several fields such as audio surveillance systems, smart monitoring, environmental conservation, and noise detection in urban areas. Sound classification is essential within the context of smart cities, which seek technological solutions to the challenges of urbanization. With the integration of machine learning techniques, enhancing performance in acoustic pattern recognition becomes possible, facilitating the implementation of more robust and adaptive solutions in practical applications. The current research examines 5 topologies of convolutional neural networks proposed in related works (SBCNN, DMIX, STRIDED, 2DCNN and 1DCNN) using three feature extraction techniques (log-scaled spectrogram, mel spectrogram, and log-scaled mel spectrogram), both with and without the use of Data Augmentation. The models were validated using the 10-fold cross validation technique. Based on the results, pruning and quantization techniques were applied to reduce the number of parameters and model sizes. The STRIDED topology achieved an average accuracy rate of 72.19%, with 149, 892 parameters (80% sparsity) and an average size of 217, 498 bytes for the UrbanSound8K database. Meanwhile, the SBCNN topology achieved an accuracy rate of 73.48%, with 86, 476 parameters and an average size of 125, 669 bytes.application/pdfporSomRedes neurais artificiaisReconhecimento de padrõesProcessamento de sinais acústicosEnvironmental SoundsConvolutional Neural NetworksSpectrogramData AugmentationPruningQuantizationClassificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPorto Alegre, BR-RS2023Engenharia Elétricagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001186929.pdf.txt001186929.pdf.txtExtracted Texttext/plain123947http://www.lume.ufrgs.br/bitstream/10183/267582/2/001186929.pdf.txt433ebf295e0d3787d10e1a991a2498ecMD52ORIGINAL001186929.pdfTexto completoapplication/pdf2014566http://www.lume.ufrgs.br/bitstream/10183/267582/1/001186929.pdf87ee66789fbbeeebedd9061bc8632998MD5110183/2675822023-11-25 04:27:52.096408oai:www.lume.ufrgs.br:10183/267582Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-11-25T06:27:52Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
title Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
spellingShingle Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
Ceriotti, Vinicius Cella
Som
Redes neurais artificiais
Reconhecimento de padrões
Processamento de sinais acústicos
Environmental Sounds
Convolutional Neural Networks
Spectrogram
Data Augmentation
Pruning
Quantization
title_short Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
title_full Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
title_fullStr Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
title_full_unstemmed Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
title_sort Classificação de sons ambientais utilizando redes neurais convolucionais para aplicações em hardwares com recursos limitados
author Ceriotti, Vinicius Cella
author_facet Ceriotti, Vinicius Cella
author_role author
dc.contributor.author.fl_str_mv Ceriotti, Vinicius Cella
dc.contributor.advisor1.fl_str_mv Weber, Tiago Oliveira
contributor_str_mv Weber, Tiago Oliveira
dc.subject.por.fl_str_mv Som
Redes neurais artificiais
Reconhecimento de padrões
Processamento de sinais acústicos
topic Som
Redes neurais artificiais
Reconhecimento de padrões
Processamento de sinais acústicos
Environmental Sounds
Convolutional Neural Networks
Spectrogram
Data Augmentation
Pruning
Quantization
dc.subject.eng.fl_str_mv Environmental Sounds
Convolutional Neural Networks
Spectrogram
Data Augmentation
Pruning
Quantization
description A classificação de sons ambientais tem encontrado aplicabilidade em diversos setores, como sistemas de vigilância de áudio, monitoramento inteligente, preservação ambiental e detecção de ruído em áreas urbanas. No contexto de cidades inteligentes, que buscam soluções tecnológicas para os desafios da urbanização, a classificação de sons se mostra especialmente relevante. Com a integração de técnicas de aprendizado de máquina, torna-se possível aprimorar o desempenho no reconhecimento de padrões acústicos, facilitando a implementação de soluções mais robustas e adaptativas em aplicações práticas. A presente pesquisa analisa 5 topologias de redes neurais convolucionais propostas em trabalhos relacionados (SBCNN, DMIX, STRIDED, 2DCNN e 1DCNN) a partir de três técnicas de extração de características (espectrograma em escala logarítmica, espectrograma mel e espectrograma mel em escala logarítmica) e com e sem a utilização de Data Augmentation. Os modelos foram validados a partir da utilização de técnica 10-fold cross validation. A partir dos resultados obtidos, foram aplicadas as técnicas de poda computacional e quantização para redução do número de parâmetros e tamanho dos modelos. A topologia STRIDED obteve taxa de acerto média de 72, 19%, com 149.892 parâmetros (80% de esparsidade) e tamanho médio de 217.498 bytes para a base de dados UrbanSound8K, enquanto que a topologia SBCNN obteve taxa de acerto de 73, 48%, com 86.476 parâmetros e tamanho médio de 125.669 bytes.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-11-24T03:26:18Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/267582
dc.identifier.nrb.pt_BR.fl_str_mv 001186929
url http://hdl.handle.net/10183/267582
identifier_str_mv 001186929
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/267582/2/001186929.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/267582/1/001186929.pdf
bitstream.checksum.fl_str_mv 433ebf295e0d3787d10e1a991a2498ec
87ee66789fbbeeebedd9061bc8632998
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224670420140032