Deep learning para classificação automática de sons usando o Audioset

Rocha, Miguel Ângelo Moreira

Deep learning para classificação automática de sons usando o Audioset

Detalhes bibliográficos
Autor(a) principal:	Rocha, Miguel Ângelo Moreira
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.22/19856
Resumo:	O som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%.

Metadados do item

id	RCAP_87ba971bb0df82461c90109c2d1ad324
oai_identifier_str	oai:recipp.ipp.pt:10400.22/19856
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Deep learning para classificação automática de sons usando o AudiosetRedes neuronaisClassificação de sonsMachine learningAudiosetMFCCEspectrograma de MelO som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%.Sound is associated with most human activities, being fundamental to its perception and distinction. However, this distinction is not always easy due to some factors such as, for example, the noise associated with them. Sound classification algorithms have made a strong contribution towards mitigating the problem of distinguishing sounds. Audioset is a dataset developed by Google that contains more than 2 million sounds, thus presenting 5800 hours of audio. In this work we used the subset of sounds emitted by dogs present in this dataset, comparing them with random sounds also present in the dataset. The work described in this thesis seeks to evaluate the potential of neural networks in the classification of sounds from the Audioset, using pre-trained models and models trained from scratch in this classification and later comparing their performance in the evaluation phase. In pre-processing, the sounds were normalized, and Mel spectrograms and the MFCC method were used to extract the attributes of these sounds. The LeNet-5 model (trained from scratch) and the EfficientNet model (trained from scratch and pre-trained) were used, and the best performing model was the pre-trained EfficientNet model that used Mel spectrograms as the attribute extraction method, with an accuracy of 83%.Gomes, Elsa Maria de Carvalho FerreiraRepositório Científico do Instituto Politécnico do PortoRocha, Miguel Ângelo Moreira2022-02-09T16:30:57Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdftext/plain; charset=utf-8http://hdl.handle.net/10400.22/19856TID:202796930porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T13:14:44Zoai:recipp.ipp.pt:10400.22/19856Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:39:55.669586Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Deep learning para classificação automática de sons usando o Audioset
title	Deep learning para classificação automática de sons usando o Audioset
spellingShingle	Deep learning para classificação automática de sons usando o Audioset Rocha, Miguel Ângelo Moreira Redes neuronais Classificação de sons Machine learning Audioset MFCC Espectrograma de Mel
title_short	Deep learning para classificação automática de sons usando o Audioset
title_full	Deep learning para classificação automática de sons usando o Audioset
title_fullStr	Deep learning para classificação automática de sons usando o Audioset
title_full_unstemmed	Deep learning para classificação automática de sons usando o Audioset
title_sort	Deep learning para classificação automática de sons usando o Audioset
author	Rocha, Miguel Ângelo Moreira
author_facet	Rocha, Miguel Ângelo Moreira
author_role	author
dc.contributor.none.fl_str_mv	Gomes, Elsa Maria de Carvalho Ferreira Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv	Rocha, Miguel Ângelo Moreira
dc.subject.por.fl_str_mv	Redes neuronais Classificação de sons Machine learning Audioset MFCC Espectrograma de Mel
topic	Redes neuronais Classificação de sons Machine learning Audioset MFCC Espectrograma de Mel
description	O som está associado à maioria das atividades humanas, sendo fundamental a sua perceção e distinção. Contudo, esta distinção nem sempre é fácil devido a alguns fatores como, por exemplo, o ruído associado aos mesmos. Os algoritmos de classificação de sons trouxeram uma forte contribuição no sentido de mitigar o problema da distinção dos sons. O Audioset é um dataset desenvolvido pela Google que contém mais de 2 milhões de sons, apresentando assim 5800 horas de áudio. Neste trabalho foi utilizado o subconjunto de sons emitidos por cães presentes deste dataset, comparando-os com sons aleatórios também presentes no dataset. O trabalho que se descreve nesta tese procura avaliar o potencial das redes neuronais na classificação de sons do Audioset, utilizando modelos pré-treinados e modelos treinados do zero nessa classificação e comparando posteriormente o seu desempenho na fase de avaliação. No pré-processamento, os sons foram normalizados, tendo sido utilizados os espectrogramas de Mel e o método MFCC para se extrair os atributos desses sons. Foram utilizados os modelos LeNet-5 (treinado do zero) e o modelo EfficientNet (treinado do zero e pré-treinado), sendo que o modelo que apresentou melhor desempenho foi o modelo EfficientNet pré-treinado que utilizou os espectrogramas de Mel como método de extração de atributos com uma taxa de acerto de 83%.
publishDate	2021
dc.date.none.fl_str_mv	2021 2021-01-01T00:00:00Z 2022-02-09T16:30:57Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/19856 TID:202796930
url	http://hdl.handle.net/10400.22/19856
identifier_str_mv	TID:202796930
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf text/plain; charset=utf-8
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799131486650105856

Deep learning para classificação automática de sons usando o Audioset

Registros relacionados