Deep learning para classificação automática de sons usando o Audioset
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/19856 |
Resumo: | O som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%. |
id |
RCAP_87ba971bb0df82461c90109c2d1ad324 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/19856 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Deep learning para classificação automática de sons usando o AudiosetRedes neuronaisClassificação de sonsMachine learningAudiosetMFCCEspectrograma de MelO som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%.Sound is associated with most human activities, being fundamental to its perception and distinction. However, this distinction is not always easy due to some factors such as, for example, the noise associated with them. Sound classification algorithms have made a strong contribution towards mitigating the problem of distinguishing sounds. Audioset is a dataset developed by Google that contains more than 2 million sounds, thus presenting 5800 hours of audio. In this work we used the subset of sounds emitted by dogs present in this dataset, comparing them with random sounds also present in the dataset. The work described in this thesis seeks to evaluate the potential of neural networks in the classification of sounds from the Audioset, using pre-trained models and models trained from scratch in this classification and later comparing their performance in the evaluation phase. In pre-processing, the sounds were normalized, and Mel spectrograms and the MFCC method were used to extract the attributes of these sounds. The LeNet-5 model (trained from scratch) and the EfficientNet model (trained from scratch and pre-trained) were used, and the best performing model was the pre-trained EfficientNet model that used Mel spectrograms as the attribute extraction method, with an accuracy of 83%.Gomes, Elsa Maria de Carvalho FerreiraRepositório Científico do Instituto Politécnico do PortoRocha, Miguel Ângelo Moreira2022-02-09T16:30:57Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdftext/plain; charset=utf-8http://hdl.handle.net/10400.22/19856TID:202796930porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T13:14:44Zoai:recipp.ipp.pt:10400.22/19856Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:39:55.669586Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Deep learning para classificação automática de sons usando o Audioset |
title |
Deep learning para classificação automática de sons usando o Audioset |
spellingShingle |
Deep learning para classificação automática de sons usando o Audioset Rocha, Miguel Ângelo Moreira Redes neuronais Classificação de sons Machine learning Audioset MFCC Espectrograma de Mel |
title_short |
Deep learning para classificação automática de sons usando o Audioset |
title_full |
Deep learning para classificação automática de sons usando o Audioset |
title_fullStr |
Deep learning para classificação automática de sons usando o Audioset |
title_full_unstemmed |
Deep learning para classificação automática de sons usando o Audioset |
title_sort |
Deep learning para classificação automática de sons usando o Audioset |
author |
Rocha, Miguel Ângelo Moreira |
author_facet |
Rocha, Miguel Ângelo Moreira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Gomes, Elsa Maria de Carvalho Ferreira Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Rocha, Miguel Ângelo Moreira |
dc.subject.por.fl_str_mv |
Redes neuronais Classificação de sons Machine learning Audioset MFCC Espectrograma de Mel |
topic |
Redes neuronais Classificação de sons Machine learning Audioset MFCC Espectrograma de Mel |
description |
O som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 2021-01-01T00:00:00Z 2022-02-09T16:30:57Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/19856 TID:202796930 |
url |
http://hdl.handle.net/10400.22/19856 |
identifier_str_mv |
TID:202796930 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf text/plain; charset=utf-8 |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799131486650105856 |