MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning

Detalhes bibliográficos
Autor(a) principal: Sá, Pedro Marques Alegre de
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/97970
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_9b5d5b334e6ce7890c5eb47539126fda
oai_identifier_str oai:estudogeral.uc.pt:10316/97970
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep LearningMERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learningdeep learningaudio augmentationmusic emotion recognitionmusic emotion variation detectiondeep learningaumento de dados de audioreconhecimento de emoção na músicareconhecimento da variação da emoção na músicaDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaThe growing Music Emotion Recognition research field is evolving accompanied by an already massive and expanding library of digital music, which raises the need for it to be segmented and organized. Traditional Machine Learning approaches to identify perceived emotion in music are based on carefully crafted features that have dominated this field and brought state-of-the-art results. Our goal was to approach this field with Deep Learning (DL), as it can skip this expensive feature design by automatically extracting features. We propose a Deep Learning approach to the existing static 4QAED dataset, which achieved a state-of-the-art F1-Score of 88.45%. This model consisted in a hybrid approach with a Dense Neural Network (DNN) and a Convolutional Neural Network (CNN) for the features and melspectrograms (converted from audio samples), respectively. Additionally, different methods of data augmentation were experimented with for the static MER problem, using a Generative Adversarial Neural Network (GAN) and classical audio augmentation, which improved the overall performance of the model. Other pre-trained models were also tested (i.e. VGG19 and a CNN trained for music genre recognition). The Music Emotion Variation Detection field was explored as well, with (Bidirectional) Long Short Term Memory layers in combination with pre-trained CNN models, as we consider that the perceived emotion can change throughout the song. This research gave us a good insight into several distinct deep learning approaches resulting in a new state-of-the-art result with the 4QAED dataset, in addition to getting to know the limitations of both datasets.A investigação do Reconhecimento da Emoção na Música está evoluir, acompanhado por uma biblioteca de música digital já maciça e em expansão, o que levanta a necessidade de ser segmentada e organizada. As abordagens tradicionais de Machine Learning para identificar a emoção percebida na música baseiam-se em features cuidadosamente trabalhadas que dominaram este campo e trouxeram resultados de última geração. O nosso objectivo era abordar este campo com o Deep Learning (DL), uma vez que pode saltar este dispendioso processo de criação de features, extraindo automaticamente as features. Propomos uma abordagem de Deep Learning ao conjunto de dados estáticos 4QAED existente, que alcançou um F1-Score de 88,45%. Este modelo consistiu numa abordagem híbrida com uma Dense Neural Network (DNN) e uma Convolutional Neural Network (CNN) para as features e melspectrogramas (convertidos a partir de amostras de áudio), respectivamente. Além disso, foram experimentados diferentes métodos de aumento de dados para o problema do MER estático, utilizando uma Generative Adversarial Neural Network (GAN) e um aumento de áudio clássico, o que melhorou o desempenho global do modelo. Outros modelos pré-treinados foram também testados (ou seja, VGG19 e uma CNN treinada para o reconhecimento do género musical). O campo de Detecção da Variação da Emoção Musical também foi explorado, com camadas de (Bidireccional) Long Short Term Memory em combinação com modelos CNN pré-treinados, pois consideramos que a emoção percebida pode mudar ao longo da canção. Esta investigação deu-nos uma boa visão de várias abordagens distintas de Deep Learning, resultando num novo resultado de ponta com o conjunto de dados 4QAED, para além de conhecer as limitações de ambos os conjuntos de dados.FCT2021-11-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/97970http://hdl.handle.net/10316/97970TID:202921328engSá, Pedro Marques Alegre deinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T03:25:53Zoai:estudogeral.uc.pt:10316/97970Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:15:54.875293Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
title MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
spellingShingle MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
Sá, Pedro Marques Alegre de
deep learning
audio augmentation
music emotion recognition
music emotion variation detection
deep learning
aumento de dados de audio
reconhecimento de emoção na música
reconhecimento da variação da emoção na música
title_short MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
title_full MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
title_fullStr MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
title_full_unstemmed MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
title_sort MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
author Sá, Pedro Marques Alegre de
author_facet Sá, Pedro Marques Alegre de
author_role author
dc.contributor.author.fl_str_mv Sá, Pedro Marques Alegre de
dc.subject.por.fl_str_mv deep learning
audio augmentation
music emotion recognition
music emotion variation detection
deep learning
aumento de dados de audio
reconhecimento de emoção na música
reconhecimento da variação da emoção na música
topic deep learning
audio augmentation
music emotion recognition
music emotion variation detection
deep learning
aumento de dados de audio
reconhecimento de emoção na música
reconhecimento da variação da emoção na música
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2021
dc.date.none.fl_str_mv 2021-11-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/97970
http://hdl.handle.net/10316/97970
TID:202921328
url http://hdl.handle.net/10316/97970
identifier_str_mv TID:202921328
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134055424327680