CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.8/8299 |
Resumo: | Ao longo desta dissertação é apresentada a pesquisa e desenvolvimento de um modelo neuronal de arquitetura Convolutional Neural Network (CNN) para classificar dez ambientes acústicos distintos, destinado a dispositivos baixa complexidade, i.e. limite 128K em número de parâmetros e máximo de 30 MMAC (milhões de Multiply- ACcumulate (MAC)) por inferência. É utilizada a pesquisa de hiperparâmetros (hypertuning), para conseguir retirar o máximo de informação pertinente dos recursos de áudio e também para otimizar a arquitetura do modelo. São utilizadas técnicas de aumento de dados, suavização de rótulos e paragem de treino antecipada para melhorar a generalização do modelo, melhorando a resposta na presença de novos dados não utilizados para treino. São propostas ainda três abordagens com o objetivo de aumentar o campo de aprendizagem e melhorar a diferenciação entre classes. Estas abordagens combinam métodos de otimização e aprendizagem, como agrupamento de modelos ensemble, separação de classes ou aprendizagem um contra todos (OvA). Foi ainda aplicada a técnica de destilação de conhecimento (KD), que permitiu reduzir a sua complexidade do modelo, esta técnica acabou por funcionar também como regularizador diminuindo o sobreajuste. As abordagens propostas foram validadas através da participação no desafio “Task 1, Low-Complexity Acoustic Scene Classification 2022” proposto pela comunidade internacional DCASE, conseguindo obter o 4.º lugar na classificação de equipas num universo de 19 equipas, e 11.º lugar perante 48 modelos em avaliação. O modelo submetido que obteve melhores resultados é designado AI4EDGE_4 é um ensemble de dez modelos OvA, utilizado como “professor” num processo de destilação de conhecimento num “aluno” de arquitetura TBM2. O modelo base fornecido em DCASE obteve uma exatidão de ACC=44.2% e uma perda de LOSS=1.532, o modelo AI4EDGE_4 obteve melhor desempenho i.e. uma exatidão de AC=51.6% e uma perda de LOSS=1.330. |
id |
RCAP_7caae6b10674f7729a1afbc95e9d8945 |
---|---|
oai_identifier_str |
oai:iconline.ipleiria.pt:10400.8/8299 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIALRede neuronal artificialClassificação de cenas acústicasDispositivos de pontaRede neuronal convolucionalPesquisa de hiperparâmetrosRedes neuronais conjuntas (ensemble)Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaAo longo desta dissertação é apresentada a pesquisa e desenvolvimento de um modelo neuronal de arquitetura Convolutional Neural Network (CNN) para classificar dez ambientes acústicos distintos, destinado a dispositivos baixa complexidade, i.e. limite 128K em número de parâmetros e máximo de 30 MMAC (milhões de Multiply- ACcumulate (MAC)) por inferência. É utilizada a pesquisa de hiperparâmetros (hypertuning), para conseguir retirar o máximo de informação pertinente dos recursos de áudio e também para otimizar a arquitetura do modelo. São utilizadas técnicas de aumento de dados, suavização de rótulos e paragem de treino antecipada para melhorar a generalização do modelo, melhorando a resposta na presença de novos dados não utilizados para treino. São propostas ainda três abordagens com o objetivo de aumentar o campo de aprendizagem e melhorar a diferenciação entre classes. Estas abordagens combinam métodos de otimização e aprendizagem, como agrupamento de modelos ensemble, separação de classes ou aprendizagem um contra todos (OvA). Foi ainda aplicada a técnica de destilação de conhecimento (KD), que permitiu reduzir a sua complexidade do modelo, esta técnica acabou por funcionar também como regularizador diminuindo o sobreajuste. As abordagens propostas foram validadas através da participação no desafio “Task 1, Low-Complexity Acoustic Scene Classification 2022” proposto pela comunidade internacional DCASE, conseguindo obter o 4.º lugar na classificação de equipas num universo de 19 equipas, e 11.º lugar perante 48 modelos em avaliação. O modelo submetido que obteve melhores resultados é designado AI4EDGE_4 é um ensemble de dez modelos OvA, utilizado como “professor” num processo de destilação de conhecimento num “aluno” de arquitetura TBM2. O modelo base fornecido em DCASE obteve uma exatidão de ACC=44.2% e uma perda de LOSS=1.532, o modelo AI4EDGE_4 obteve melhor desempenho i.e. uma exatidão de AC=51.6% e uma perda de LOSS=1.330.Bento, Luís Manuel CondeIC-OnlineAnastácio, Ricardo Ribeiro2023-03-29T15:41:14Z2022-12-122022-12-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.8/8299TID:203263200porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-17T15:57:03Zoai:iconline.ipleiria.pt:10400.8/8299Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:51:03.780698Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL |
title |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL |
spellingShingle |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL Anastácio, Ricardo Ribeiro Rede neuronal artificial Classificação de cenas acústicas Dispositivos de ponta Rede neuronal convolucional Pesquisa de hiperparâmetros Redes neuronais conjuntas (ensemble) Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL |
title_full |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL |
title_fullStr |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL |
title_full_unstemmed |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL |
title_sort |
CLASSIFICAÇÃO DE CENAS ACÚSTICAS EM DISPOSITIVOS COM CONSTRANGIMENTOS COMPUTACIONAIS UTILIZANDO INTELIGÊNCIA ARTIFICIAL |
author |
Anastácio, Ricardo Ribeiro |
author_facet |
Anastácio, Ricardo Ribeiro |
author_role |
author |
dc.contributor.none.fl_str_mv |
Bento, Luís Manuel Conde IC-Online |
dc.contributor.author.fl_str_mv |
Anastácio, Ricardo Ribeiro |
dc.subject.por.fl_str_mv |
Rede neuronal artificial Classificação de cenas acústicas Dispositivos de ponta Rede neuronal convolucional Pesquisa de hiperparâmetros Redes neuronais conjuntas (ensemble) Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Rede neuronal artificial Classificação de cenas acústicas Dispositivos de ponta Rede neuronal convolucional Pesquisa de hiperparâmetros Redes neuronais conjuntas (ensemble) Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Ao longo desta dissertação é apresentada a pesquisa e desenvolvimento de um modelo neuronal de arquitetura Convolutional Neural Network (CNN) para classificar dez ambientes acústicos distintos, destinado a dispositivos baixa complexidade, i.e. limite 128K em número de parâmetros e máximo de 30 MMAC (milhões de Multiply- ACcumulate (MAC)) por inferência. É utilizada a pesquisa de hiperparâmetros (hypertuning), para conseguir retirar o máximo de informação pertinente dos recursos de áudio e também para otimizar a arquitetura do modelo. São utilizadas técnicas de aumento de dados, suavização de rótulos e paragem de treino antecipada para melhorar a generalização do modelo, melhorando a resposta na presença de novos dados não utilizados para treino. São propostas ainda três abordagens com o objetivo de aumentar o campo de aprendizagem e melhorar a diferenciação entre classes. Estas abordagens combinam métodos de otimização e aprendizagem, como agrupamento de modelos ensemble, separação de classes ou aprendizagem um contra todos (OvA). Foi ainda aplicada a técnica de destilação de conhecimento (KD), que permitiu reduzir a sua complexidade do modelo, esta técnica acabou por funcionar também como regularizador diminuindo o sobreajuste. As abordagens propostas foram validadas através da participação no desafio “Task 1, Low-Complexity Acoustic Scene Classification 2022” proposto pela comunidade internacional DCASE, conseguindo obter o 4.º lugar na classificação de equipas num universo de 19 equipas, e 11.º lugar perante 48 modelos em avaliação. O modelo submetido que obteve melhores resultados é designado AI4EDGE_4 é um ensemble de dez modelos OvA, utilizado como “professor” num processo de destilação de conhecimento num “aluno” de arquitetura TBM2. O modelo base fornecido em DCASE obteve uma exatidão de ACC=44.2% e uma perda de LOSS=1.532, o modelo AI4EDGE_4 obteve melhor desempenho i.e. uma exatidão de AC=51.6% e uma perda de LOSS=1.330. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-12-12 2022-12-12T00:00:00Z 2023-03-29T15:41:14Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.8/8299 TID:203263200 |
url |
http://hdl.handle.net/10400.8/8299 |
identifier_str_mv |
TID:203263200 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799137002300375040 |