MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/97970 |
Resumo: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_9b5d5b334e6ce7890c5eb47539126fda |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/97970 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep LearningMERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learningdeep learningaudio augmentationmusic emotion recognitionmusic emotion variation detectiondeep learningaumento de dados de audioreconhecimento de emoção na músicareconhecimento da variação da emoção na músicaDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaThe growing Music Emotion Recognition research field is evolving accompanied by an already massive and expanding library of digital music, which raises the need for it to be segmented and organized. Traditional Machine Learning approaches to identify perceived emotion in music are based on carefully crafted features that have dominated this field and brought state-of-the-art results. Our goal was to approach this field with Deep Learning (DL), as it can skip this expensive feature design by automatically extracting features. We propose a Deep Learning approach to the existing static 4QAED dataset, which achieved a state-of-the-art F1-Score of 88.45%. This model consisted in a hybrid approach with a Dense Neural Network (DNN) and a Convolutional Neural Network (CNN) for the features and melspectrograms (converted from audio samples), respectively. Additionally, different methods of data augmentation were experimented with for the static MER problem, using a Generative Adversarial Neural Network (GAN) and classical audio augmentation, which improved the overall performance of the model. Other pre-trained models were also tested (i.e. VGG19 and a CNN trained for music genre recognition). The Music Emotion Variation Detection field was explored as well, with (Bidirectional) Long Short Term Memory layers in combination with pre-trained CNN models, as we consider that the perceived emotion can change throughout the song. This research gave us a good insight into several distinct deep learning approaches resulting in a new state-of-the-art result with the 4QAED dataset, in addition to getting to know the limitations of both datasets.A investigação do Reconhecimento da Emoção na Música está evoluir, acompanhado por uma biblioteca de música digital já maciça e em expansão, o que levanta a necessidade de ser segmentada e organizada. As abordagens tradicionais de Machine Learning para identificar a emoção percebida na música baseiam-se em features cuidadosamente trabalhadas que dominaram este campo e trouxeram resultados de última geração. O nosso objectivo era abordar este campo com o Deep Learning (DL), uma vez que pode saltar este dispendioso processo de criação de features, extraindo automaticamente as features. Propomos uma abordagem de Deep Learning ao conjunto de dados estáticos 4QAED existente, que alcançou um F1-Score de 88,45%. Este modelo consistiu numa abordagem híbrida com uma Dense Neural Network (DNN) e uma Convolutional Neural Network (CNN) para as features e melspectrogramas (convertidos a partir de amostras de áudio), respectivamente. Além disso, foram experimentados diferentes métodos de aumento de dados para o problema do MER estático, utilizando uma Generative Adversarial Neural Network (GAN) e um aumento de áudio clássico, o que melhorou o desempenho global do modelo. Outros modelos pré-treinados foram também testados (ou seja, VGG19 e uma CNN treinada para o reconhecimento do género musical). O campo de Detecção da Variação da Emoção Musical também foi explorado, com camadas de (Bidireccional) Long Short Term Memory em combinação com modelos CNN pré-treinados, pois consideramos que a emoção percebida pode mudar ao longo da canção. Esta investigação deu-nos uma boa visão de várias abordagens distintas de Deep Learning, resultando num novo resultado de ponta com o conjunto de dados 4QAED, para além de conhecer as limitações de ambos os conjuntos de dados.FCT2021-11-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/97970http://hdl.handle.net/10316/97970TID:202921328engSá, Pedro Marques Alegre deinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T03:25:53Zoai:estudogeral.uc.pt:10316/97970Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:15:54.875293Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning |
title |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning |
spellingShingle |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning Sá, Pedro Marques Alegre de deep learning audio augmentation music emotion recognition music emotion variation detection deep learning aumento de dados de audio reconhecimento de emoção na música reconhecimento da variação da emoção na música |
title_short |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning |
title_full |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning |
title_fullStr |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning |
title_full_unstemmed |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning |
title_sort |
MERGE Audio: Music Emotion Recognition next Generation – Audio Classification with Deep Learning |
author |
Sá, Pedro Marques Alegre de |
author_facet |
Sá, Pedro Marques Alegre de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Sá, Pedro Marques Alegre de |
dc.subject.por.fl_str_mv |
deep learning audio augmentation music emotion recognition music emotion variation detection deep learning aumento de dados de audio reconhecimento de emoção na música reconhecimento da variação da emoção na música |
topic |
deep learning audio augmentation music emotion recognition music emotion variation detection deep learning aumento de dados de audio reconhecimento de emoção na música reconhecimento da variação da emoção na música |
description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-11-10 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/97970 http://hdl.handle.net/10316/97970 TID:202921328 |
url |
http://hdl.handle.net/10316/97970 |
identifier_str_mv |
TID:202921328 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134055424327680 |