Deep learning para classificação automática de sons usando o Audioset

Detalhes bibliográficos
Autor(a) principal: Rocha, Miguel Ângelo Moreira
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/19856
Resumo: O som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%.
id RCAP_87ba971bb0df82461c90109c2d1ad324
oai_identifier_str oai:recipp.ipp.pt:10400.22/19856
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Deep learning para classificação automática de sons usando o AudiosetRedes neuronaisClassificação de sonsMachine learningAudiosetMFCCEspectrograma de MelO som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%.Sound is associated with most human activities, being fundamental to its perception and distinction. However, this distinction is not always easy due to some factors such as, for example, the noise associated with them. Sound classification algorithms have made a strong contribution towards mitigating the problem of distinguishing sounds. Audioset is a dataset developed by Google that contains more than 2 million sounds, thus presenting 5800 hours of audio. In this work we used the subset of sounds emitted by dogs present in this dataset, comparing them with random sounds also present in the dataset. The work described in this thesis seeks to evaluate the potential of neural networks in the classification of sounds from the Audioset, using pre-trained models and models trained from scratch in this classification and later comparing their performance in the evaluation phase. In pre-processing, the sounds were normalized, and Mel spectrograms and the MFCC method were used to extract the attributes of these sounds. The LeNet-5 model (trained from scratch) and the EfficientNet model (trained from scratch and pre-trained) were used, and the best performing model was the pre-trained EfficientNet model that used Mel spectrograms as the attribute extraction method, with an accuracy of 83%.Gomes, Elsa Maria de Carvalho FerreiraRepositório Científico do Instituto Politécnico do PortoRocha, Miguel Ângelo Moreira2022-02-09T16:30:57Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdftext/plain; charset=utf-8http://hdl.handle.net/10400.22/19856TID:202796930porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T13:14:44Zoai:recipp.ipp.pt:10400.22/19856Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:39:55.669586Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Deep learning para classificação automática de sons usando o Audioset
title Deep learning para classificação automática de sons usando o Audioset
spellingShingle Deep learning para classificação automática de sons usando o Audioset
Rocha, Miguel Ângelo Moreira
Redes neuronais
Classificação de sons
Machine learning
Audioset
MFCC
Espectrograma de Mel
title_short Deep learning para classificação automática de sons usando o Audioset
title_full Deep learning para classificação automática de sons usando o Audioset
title_fullStr Deep learning para classificação automática de sons usando o Audioset
title_full_unstemmed Deep learning para classificação automática de sons usando o Audioset
title_sort Deep learning para classificação automática de sons usando o Audioset
author Rocha, Miguel Ângelo Moreira
author_facet Rocha, Miguel Ângelo Moreira
author_role author
dc.contributor.none.fl_str_mv Gomes, Elsa Maria de Carvalho Ferreira
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Rocha, Miguel Ângelo Moreira
dc.subject.por.fl_str_mv Redes neuronais
Classificação de sons
Machine learning
Audioset
MFCC
Espectrograma de Mel
topic Redes neuronais
Classificação de sons
Machine learning
Audioset
MFCC
Espectrograma de Mel
description O som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%.
publishDate 2021
dc.date.none.fl_str_mv 2021
2021-01-01T00:00:00Z
2022-02-09T16:30:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/19856
TID:202796930
url http://hdl.handle.net/10400.22/19856
identifier_str_mv TID:202796930
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
text/plain; charset=utf-8
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131486650105856