Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais

Detalhes bibliográficos
Autor(a) principal: Santos, Milton dos
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/100/100132/tde-06032023-141417/
Resumo: A identificação do estilo musical a que pertence uma música é uma tarefa relativamente simples para um humano, mesmo com pouco treinamento musical. Entretanto, é uma tarefa bastante difícil de ser realizada de forma automatizada. Neste trabalho utilizamos a Transformada Wavelet, que consegue representar uma música em suas componentes de frequência em função do tempo, gerando uma imagem denominada espectrograma. A partir do espectrograma, geramos imagens para treinar uma Rede Neural Convolucional com o objetivo de classificar os sinais de áudio em seus estilos musicais. Apenas os primeiros 15 segundos de cada música são utilizados para gerar o espectrograma, 6.075 músicas no conjunto de treinamento e 2.025 no conjunto de teste, pertencentes a 10 estilos musicais Blues, Clássico, Country, Disco, Hip Hop, Jazz, Metal, Pop, Reggae e Rock. O procedimento é repetido 10 vezes, com o conjunto de treinamento e teste escolhidos aleatoriamente. A média das taxas de acerto ficou entre 70% e 94%, bem acima dos 10% esperados se a classificação fosse por puro acaso.
id USP_eb9612589579c2d0af223d63e29cae72
oai_identifier_str oai:teses.usp.br:tde-06032023-141417
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais ConvolucionaisClassification of musical audio from the coefficients of the Wavelet Transform using Convolutional Neural NetworksCoeficientes WaveletConvolutional Neural NetworkMIRMIRProcessamento de SinaisRede Neural ConvolucionalSignal ProcessingTransformada WaveletWavelet CoefficientWavelet TransformA identificação do estilo musical a que pertence uma música é uma tarefa relativamente simples para um humano, mesmo com pouco treinamento musical. Entretanto, é uma tarefa bastante difícil de ser realizada de forma automatizada. Neste trabalho utilizamos a Transformada Wavelet, que consegue representar uma música em suas componentes de frequência em função do tempo, gerando uma imagem denominada espectrograma. A partir do espectrograma, geramos imagens para treinar uma Rede Neural Convolucional com o objetivo de classificar os sinais de áudio em seus estilos musicais. Apenas os primeiros 15 segundos de cada música são utilizados para gerar o espectrograma, 6.075 músicas no conjunto de treinamento e 2.025 no conjunto de teste, pertencentes a 10 estilos musicais Blues, Clássico, Country, Disco, Hip Hop, Jazz, Metal, Pop, Reggae e Rock. O procedimento é repetido 10 vezes, com o conjunto de treinamento e teste escolhidos aleatoriamente. A média das taxas de acerto ficou entre 70% e 94%, bem acima dos 10% esperados se a classificação fosse por puro acaso.Identifying the musical style to which a song belongs is a relatively simple for a human, even with little musical training. However, it is a task quite difficult to be performed in an easy way. In this work we use the Wavelet Transform, which manages to represent a song in its frequency as a function of time, generating an image called spectrogram. From grass, we generate images of the behavior spectrum a Convolutional Neural Network with the purpose of classifying audio signals into their musical styles. only the first 15 seconds of each song used to generate the spectrogram, 6,075 songs in training set and 2025 in the test set, belonging to 10 musical styles Blues, Classical, Country, Disco, Hip Hop, Jazz, Metal, Pop, Reggae and Rock. The procedure Repetition 10 times, with the training and test set randomly chosen. One average hit rates were between 70% and 94%, well above the 10\\% expected if the classification were by pure chance.Biblioteca Digitais de Teses e Dissertações da USPRodrigues Neto, CamiloSantos, Milton dos2022-12-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100132/tde-06032023-141417/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-10T17:45:15Zoai:teses.usp.br:tde-06032023-141417Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-10T17:45:15Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
Classification of musical audio from the coefficients of the Wavelet Transform using Convolutional Neural Networks
title Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
spellingShingle Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
Santos, Milton dos
Coeficientes Wavelet
Convolutional Neural Network
MIR
MIR
Processamento de Sinais
Rede Neural Convolucional
Signal Processing
Transformada Wavelet
Wavelet Coefficient
Wavelet Transform
title_short Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
title_full Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
title_fullStr Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
title_full_unstemmed Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
title_sort Classificação de áudio musical a partir dos coeficientes da Transformada Wavelet utilizando Redes Neurais Convolucionais
author Santos, Milton dos
author_facet Santos, Milton dos
author_role author
dc.contributor.none.fl_str_mv Rodrigues Neto, Camilo
dc.contributor.author.fl_str_mv Santos, Milton dos
dc.subject.por.fl_str_mv Coeficientes Wavelet
Convolutional Neural Network
MIR
MIR
Processamento de Sinais
Rede Neural Convolucional
Signal Processing
Transformada Wavelet
Wavelet Coefficient
Wavelet Transform
topic Coeficientes Wavelet
Convolutional Neural Network
MIR
MIR
Processamento de Sinais
Rede Neural Convolucional
Signal Processing
Transformada Wavelet
Wavelet Coefficient
Wavelet Transform
description A identificação do estilo musical a que pertence uma música é uma tarefa relativamente simples para um humano, mesmo com pouco treinamento musical. Entretanto, é uma tarefa bastante difícil de ser realizada de forma automatizada. Neste trabalho utilizamos a Transformada Wavelet, que consegue representar uma música em suas componentes de frequência em função do tempo, gerando uma imagem denominada espectrograma. A partir do espectrograma, geramos imagens para treinar uma Rede Neural Convolucional com o objetivo de classificar os sinais de áudio em seus estilos musicais. Apenas os primeiros 15 segundos de cada música são utilizados para gerar o espectrograma, 6.075 músicas no conjunto de treinamento e 2.025 no conjunto de teste, pertencentes a 10 estilos musicais Blues, Clássico, Country, Disco, Hip Hop, Jazz, Metal, Pop, Reggae e Rock. O procedimento é repetido 10 vezes, com o conjunto de treinamento e teste escolhidos aleatoriamente. A média das taxas de acerto ficou entre 70% e 94%, bem acima dos 10% esperados se a classificação fosse por puro acaso.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100132/tde-06032023-141417/
url https://www.teses.usp.br/teses/disponiveis/100/100132/tde-06032023-141417/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256761954729984