CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL

Detalhes bibliográficos
Autor(a) principal: Anastácio, Ricardo Ribeiro
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.8/8299
Resumo: Ao longo desta dissertação é apresentada a pesquisa e desenvolvimento de um modelo neuronal de arquitetura Convolutional Neural Network (CNN) para classificar dez ambientes acústicos distintos, destinado a dispositivos baixa complexidade, i.e. limite 128K em número de parâmetros e máximo de 30 MMAC (milhões de Multiply- ACcumulate (MAC)) por inferência. É utilizada a pesquisa de hiperparâmetros (hypertuning), para conseguir retirar o máximo de informação pertinente dos recursos de áudio e também para otimizar a arquitetura do modelo. São utilizadas técnicas de aumento de dados, suavização de rótulos e paragem de treino antecipada para melhorar a generalização do modelo, melhorando a resposta na presença de novos dados não utilizados para treino. São propostas ainda três abordagens com o objetivo de aumentar o campo de aprendizagem e melhorar a diferenciação entre classes. Estas abordagens combinam métodos de otimização e aprendizagem, como agrupamento de modelos ensemble, separação de classes ou aprendizagem um contra todos (OvA). Foi ainda aplicada a técnica de destilação de conhecimento (KD), que permitiu reduzir a sua complexidade do modelo, esta técnica acabou por funcionar também como regularizador diminuindo o sobreajuste. As abordagens propostas foram validadas através da participação no desafio “Task 1, Low-Complexity Acoustic Scene Classification 2022” proposto pela comunidade internacional DCASE, conseguindo obter o 4.º lugar na classificação de equipas num universo de 19 equipas, e 11.º lugar perante 48 modelos em avaliação. O modelo submetido que obteve melhores resultados é designado AI4EDGE_4 é um ensemble de dez modelos OvA, utilizado como “professor” num processo de destilação de conhecimento num “aluno” de arquitetura TBM2. O modelo base fornecido em DCASE obteve uma exatidão de ACC=44.2% e uma perda de LOSS=1.532, o modelo AI4EDGE_4 obteve melhor desempenho i.e. uma exatidão de AC=51.6% e uma perda de LOSS=1.330.
id RCAP_7caae6b10674f7729a1afbc95e9d8945
oai_identifier_str oai:iconline.ipleiria.pt:10400.8/8299
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIALRede neuronal artificialClassificação de cenas acústicasDispositivos de pontaRede neuronal convolucionalPesquisa de hiperparâmetrosRedes neuronais conjuntas (ensemble)Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaAo longo desta dissertação é apresentada a pesquisa e desenvolvimento de um modelo neuronal de arquitetura Convolutional Neural Network (CNN) para classificar dez ambientes acústicos distintos, destinado a dispositivos baixa complexidade, i.e. limite 128K em número de parâmetros e máximo de 30 MMAC (milhões de Multiply- ACcumulate (MAC)) por inferência. É utilizada a pesquisa de hiperparâmetros (hypertuning), para conseguir retirar o máximo de informação pertinente dos recursos de áudio e também para otimizar a arquitetura do modelo. São utilizadas técnicas de aumento de dados, suavização de rótulos e paragem de treino antecipada para melhorar a generalização do modelo, melhorando a resposta na presença de novos dados não utilizados para treino. São propostas ainda três abordagens com o objetivo de aumentar o campo de aprendizagem e melhorar a diferenciação entre classes. Estas abordagens combinam métodos de otimização e aprendizagem, como agrupamento de modelos ensemble, separação de classes ou aprendizagem um contra todos (OvA). Foi ainda aplicada a técnica de destilação de conhecimento (KD), que permitiu reduzir a sua complexidade do modelo, esta técnica acabou por funcionar também como regularizador diminuindo o sobreajuste. As abordagens propostas foram validadas através da participação no desafio “Task 1, Low-Complexity Acoustic Scene Classification 2022” proposto pela comunidade internacional DCASE, conseguindo obter o 4.º lugar na classificação de equipas num universo de 19 equipas, e 11.º lugar perante 48 modelos em avaliação. O modelo submetido que obteve melhores resultados é designado AI4EDGE_4 é um ensemble de dez modelos OvA, utilizado como “professor” num processo de destilação de conhecimento num “aluno” de arquitetura TBM2. O modelo base fornecido em DCASE obteve uma exatidão de ACC=44.2% e uma perda de LOSS=1.532, o modelo AI4EDGE_4 obteve melhor desempenho i.e. uma exatidão de AC=51.6% e uma perda de LOSS=1.330.Bento, Luís Manuel CondeIC-OnlineAnastácio, Ricardo Ribeiro2023-03-29T15:41:14Z2022-12-122022-12-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.8/8299TID:203263200porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-17T15:57:03Zoai:iconline.ipleiria.pt:10400.8/8299Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:51:03.780698Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
title CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
spellingShingle CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
Anastácio, Ricardo Ribeiro
Rede neuronal artificial
Classificação de cenas acústicas
Dispositivos de ponta
Rede neuronal convolucional
Pesquisa de hiperparâmetros
Redes neuronais conjuntas (ensemble)
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
title_full CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
title_fullStr CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
title_full_unstemmed CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
title_sort CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
author Anastácio, Ricardo Ribeiro
author_facet Anastácio, Ricardo Ribeiro
author_role author
dc.contributor.none.fl_str_mv Bento, Luís Manuel Conde
IC-Online
dc.contributor.author.fl_str_mv Anastácio, Ricardo Ribeiro
dc.subject.por.fl_str_mv Rede neuronal artificial
Classificação de cenas acústicas
Dispositivos de ponta
Rede neuronal convolucional
Pesquisa de hiperparâmetros
Redes neuronais conjuntas (ensemble)
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Rede neuronal artificial
Classificação de cenas acústicas
Dispositivos de ponta
Rede neuronal convolucional
Pesquisa de hiperparâmetros
Redes neuronais conjuntas (ensemble)
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Ao longo desta dissertação é apresentada a pesquisa e desenvolvimento de um modelo neuronal de arquitetura Convolutional Neural Network (CNN) para classificar dez ambientes acústicos distintos, destinado a dispositivos baixa complexidade, i.e. limite 128K em número de parâmetros e máximo de 30 MMAC (milhões de Multiply- ACcumulate (MAC)) por inferência. É utilizada a pesquisa de hiperparâmetros (hypertuning), para conseguir retirar o máximo de informação pertinente dos recursos de áudio e também para otimizar a arquitetura do modelo. São utilizadas técnicas de aumento de dados, suavização de rótulos e paragem de treino antecipada para melhorar a generalização do modelo, melhorando a resposta na presença de novos dados não utilizados para treino. São propostas ainda três abordagens com o objetivo de aumentar o campo de aprendizagem e melhorar a diferenciação entre classes. Estas abordagens combinam métodos de otimização e aprendizagem, como agrupamento de modelos ensemble, separação de classes ou aprendizagem um contra todos (OvA). Foi ainda aplicada a técnica de destilação de conhecimento (KD), que permitiu reduzir a sua complexidade do modelo, esta técnica acabou por funcionar também como regularizador diminuindo o sobreajuste. As abordagens propostas foram validadas através da participação no desafio “Task 1, Low-Complexity Acoustic Scene Classification 2022” proposto pela comunidade internacional DCASE, conseguindo obter o 4.º lugar na classificação de equipas num universo de 19 equipas, e 11.º lugar perante 48 modelos em avaliação. O modelo submetido que obteve melhores resultados é designado AI4EDGE_4 é um ensemble de dez modelos OvA, utilizado como “professor” num processo de destilação de conhecimento num “aluno” de arquitetura TBM2. O modelo base fornecido em DCASE obteve uma exatidão de ACC=44.2% e uma perda de LOSS=1.532, o modelo AI4EDGE_4 obteve melhor desempenho i.e. uma exatidão de AC=51.6% e uma perda de LOSS=1.330.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-12
2022-12-12T00:00:00Z
2023-03-29T15:41:14Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.8/8299
TID:203263200
url http://hdl.handle.net/10400.8/8299
identifier_str_mv TID:203263200
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137002300375040