Sound pressure level prediction from video frames using deep convolutional neural networks

Detalhes bibliográficos
Autor(a) principal: Mazza, Leonardo Oliveira
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/14030
Resumo: Alguns sistemas de CCTV não possuem microfones. Como resultado, a informação de pressão sonora não está disponível nesses sistemas. Um método para gerar estimativas da pressão sonora usando apenas quadros de vídeos é apresentado. Para tal, 64 combinações de modelos baseados em redes convolucionais foram treinadas a partir de uma base de dados gerada automaticamente por dados de uma câmera com um microfone mono apontada para um cruzamento com tráfego intenso de carros, caminhões e motos. Para treinar as redes neurais, imagens coloridas são usadas como entradas da rede e valores reais de pressão sonora são usados como alvos da rede. Correlação 0.607 em resultados iniciais sugere que usar valores de pressão sonora média como alvos são suficientes para que redes neurais convolucionais detectem as fontes geradoras do áudio numa cena de tráfego. Essa hipótese é testada ao se avaliar os mapas de ativação de classe (CAM) de um modelo com o formato global average pooling+camada fully connected. Por fim, os CAMs ressaltaram fortemente objetos associados a altos valores de pressão sonora como ônibus e realçaram fracamente objetos associados a menores níveis de pressão sonora como carros. Foi feita validação cruzada no modelo com menor MSE com 6 folds e melhor modelo foi avaliado no conjunto de teste. Esse modelo obteve correlação próxima de 0.6 em três dos vídeos de teste e correlação 0.272 e 0.207 em outros dois vídeos de teste. A baixa correlação foi associada ao barulho constante do apito de um guarda de trânsito presente somente nesses dois últimos vídeos: característica ausente no conjunto de treino. A correlação nos dados de teste calculada conjuntamente foi de 0.647. Uma correlação de 0.844 ao usar Leq com intervalo de tempo maior (1 minuto) usando todos os videos de teste indica que a estimação do ruído no dataset.
id UFRJ_70193d1e0855ff5dc80a7199719e7d1b
oai_identifier_str oai:pantheon.ufrj.br:11422/14030
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Mazza, Leonardo Oliveirahttp://lattes.cnpq.br/0167354254513842http://lattes.cnpq.br/8123046464465333Torres, Julio Cesar BoscherHaddad , Diego BarretoGomes, José Gabriel Rodriguez Carneiro2021-04-05T01:56:49Z2023-11-30T03:04:11Z2019-06http://hdl.handle.net/11422/14030Alguns sistemas de CCTV não possuem microfones. Como resultado, a informação de pressão sonora não está disponível nesses sistemas. Um método para gerar estimativas da pressão sonora usando apenas quadros de vídeos é apresentado. Para tal, 64 combinações de modelos baseados em redes convolucionais foram treinadas a partir de uma base de dados gerada automaticamente por dados de uma câmera com um microfone mono apontada para um cruzamento com tráfego intenso de carros, caminhões e motos. Para treinar as redes neurais, imagens coloridas são usadas como entradas da rede e valores reais de pressão sonora são usados como alvos da rede. Correlação 0.607 em resultados iniciais sugere que usar valores de pressão sonora média como alvos são suficientes para que redes neurais convolucionais detectem as fontes geradoras do áudio numa cena de tráfego. Essa hipótese é testada ao se avaliar os mapas de ativação de classe (CAM) de um modelo com o formato global average pooling+camada fully connected. Por fim, os CAMs ressaltaram fortemente objetos associados a altos valores de pressão sonora como ônibus e realçaram fracamente objetos associados a menores níveis de pressão sonora como carros. Foi feita validação cruzada no modelo com menor MSE com 6 folds e melhor modelo foi avaliado no conjunto de teste. Esse modelo obteve correlação próxima de 0.6 em três dos vídeos de teste e correlação 0.272 e 0.207 em outros dois vídeos de teste. A baixa correlação foi associada ao barulho constante do apito de um guarda de trânsito presente somente nesses dois últimos vídeos: característica ausente no conjunto de treino. A correlação nos dados de teste calculada conjuntamente foi de 0.647. Uma correlação de 0.844 ao usar Leq com intervalo de tempo maior (1 minuto) usando todos os videos de teste indica que a estimação do ruído no dataset.Some CCTV systems do not have microphones. As a result, sound pressure information is not available in such systems. A method to generate traffic sound pressure estimates using solely video frames as input data is presented. To that end, we trained several combinations of models based on pretrained convolutional networks using a dataset that was automatically generated by a single camera with a mono microphone pointing at a busy traffic crossroad with cars, trucks, and motorbikes. For neural network training from that dataset, color images are used as neural network inputs, and true sound pressure level values are used as neural network targets. A correlation of 0.607 in preliminary results suggest that sound pressure level targets are sufficient for convolutional neural networks to detect sound generating sources within a traffic scene. This hypothesis is tested by evaluating the class activation maps (CAM) of a model with the required global average pooling+fully connected layer structure. We find that the CAM strongly highlights sources that produce large sound pressure values such as buses and faintly highlights objects associated with lower sound pressure such as cars. The neural network with the lowest MSE was cross-validated with 6 folds and the best model was evaluated in the test set. The best model attained a correlation of approximately 0.6 in three of the test videos and correlations of 0.272 and 0.207 in two of the test videos. The low correlation in the two last videos was associated with a traffic warden that constantly whistles: a characteristic not present in the training set. The overall correlation using the whole test set was 0.647. A correlation of 0.844 with a longer term (1 minute) sound pressure level (Leq) estimate using all test videos indicate that estimation of longer term sound pressure levels is less sensitive to sporadic noise in the dataset.Submitted by Paloma Arruda (palomaoliiveira75@gmail.com) on 2021-02-19T04:56:20Z No. of bitstreams: 1 LeonardoOliveiraMazza.pdf: 8964931 bytes, checksum: 7d7e6a8c72ed8c4a7bd58b9b972c3152 (MD5)Approved for entry into archive by Moreno Barros (moreno@ct.ufrj.br) on 2021-04-05T01:56:49Z (GMT) No. of bitstreams: 1 LeonardoOliveiraMazza.pdf: 8964931 bytes, checksum: 7d7e6a8c72ed8c4a7bd58b9b972c3152 (MD5)Made available in DSpace on 2021-04-05T01:56:49Z (GMT). No. of bitstreams: 1 LeonardoOliveiraMazza.pdf: 8964931 bytes, checksum: 7d7e6a8c72ed8c4a7bd58b9b972c3152 (MD5) Previous issue date: 2019-06engUniversidade Federal do Rio de JaneiroPrograma de Pós-Graduação em Engenharia ElétricaUFRJBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAConvolutional neural networksTraffic noise intensityNon-linear regressionNonlinear predictionSound pressure level prediction from video frames using deep convolutional neural networksPredição do nível de pressão sonora a partir de frames de vídeo com redes neurais convolucionais profundasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINALLeonardoOliveiraMazza.pdfLeonardoOliveiraMazza.pdfapplication/pdf8964931http://pantheon.ufrj.br:80/bitstream/11422/14030/1/LeonardoOliveiraMazza.pdf7d7e6a8c72ed8c4a7bd58b9b972c3152MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/14030/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD5211422/140302023-11-30 00:04:11.997oai:pantheon.ufrj.br:11422/14030TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:04:11Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv Sound pressure level prediction from video frames using deep convolutional neural networks
dc.title.alternative.pt_BR.fl_str_mv Predição do nível de pressão sonora a partir de frames de vídeo com redes neurais convolucionais profundas
title Sound pressure level prediction from video frames using deep convolutional neural networks
spellingShingle Sound pressure level prediction from video frames using deep convolutional neural networks
Mazza, Leonardo Oliveira
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Convolutional neural networks
Traffic noise intensity
Non-linear regression
Nonlinear prediction
title_short Sound pressure level prediction from video frames using deep convolutional neural networks
title_full Sound pressure level prediction from video frames using deep convolutional neural networks
title_fullStr Sound pressure level prediction from video frames using deep convolutional neural networks
title_full_unstemmed Sound pressure level prediction from video frames using deep convolutional neural networks
title_sort Sound pressure level prediction from video frames using deep convolutional neural networks
author Mazza, Leonardo Oliveira
author_facet Mazza, Leonardo Oliveira
author_role author
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/0167354254513842
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8123046464465333
dc.contributor.author.fl_str_mv Mazza, Leonardo Oliveira
dc.contributor.referee1.fl_str_mv Torres, Julio Cesar Boscher
dc.contributor.referee2.fl_str_mv Haddad , Diego Barreto
dc.contributor.advisor1.fl_str_mv Gomes, José Gabriel Rodriguez Carneiro
contributor_str_mv Torres, Julio Cesar Boscher
Haddad , Diego Barreto
Gomes, José Gabriel Rodriguez Carneiro
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Convolutional neural networks
Traffic noise intensity
Non-linear regression
Nonlinear prediction
dc.subject.por.fl_str_mv Convolutional neural networks
Traffic noise intensity
Non-linear regression
Nonlinear prediction
description Alguns sistemas de CCTV não possuem microfones. Como resultado, a informação de pressão sonora não está disponível nesses sistemas. Um método para gerar estimativas da pressão sonora usando apenas quadros de vídeos é apresentado. Para tal, 64 combinações de modelos baseados em redes convolucionais foram treinadas a partir de uma base de dados gerada automaticamente por dados de uma câmera com um microfone mono apontada para um cruzamento com tráfego intenso de carros, caminhões e motos. Para treinar as redes neurais, imagens coloridas são usadas como entradas da rede e valores reais de pressão sonora são usados como alvos da rede. Correlação 0.607 em resultados iniciais sugere que usar valores de pressão sonora média como alvos são suficientes para que redes neurais convolucionais detectem as fontes geradoras do áudio numa cena de tráfego. Essa hipótese é testada ao se avaliar os mapas de ativação de classe (CAM) de um modelo com o formato global average pooling+camada fully connected. Por fim, os CAMs ressaltaram fortemente objetos associados a altos valores de pressão sonora como ônibus e realçaram fracamente objetos associados a menores níveis de pressão sonora como carros. Foi feita validação cruzada no modelo com menor MSE com 6 folds e melhor modelo foi avaliado no conjunto de teste. Esse modelo obteve correlação próxima de 0.6 em três dos vídeos de teste e correlação 0.272 e 0.207 em outros dois vídeos de teste. A baixa correlação foi associada ao barulho constante do apito de um guarda de trânsito presente somente nesses dois últimos vídeos: característica ausente no conjunto de treino. A correlação nos dados de teste calculada conjuntamente foi de 0.647. Uma correlação de 0.844 ao usar Leq com intervalo de tempo maior (1 minuto) usando todos os videos de teste indica que a estimação do ruído no dataset.
publishDate 2019
dc.date.issued.fl_str_mv 2019-06
dc.date.accessioned.fl_str_mv 2021-04-05T01:56:49Z
dc.date.available.fl_str_mv 2023-11-30T03:04:11Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/14030
url http://hdl.handle.net/11422/14030
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFRJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
bitstream.url.fl_str_mv http://pantheon.ufrj.br:80/bitstream/11422/14030/1/LeonardoOliveiraMazza.pdf
http://pantheon.ufrj.br:80/bitstream/11422/14030/2/license.txt
bitstream.checksum.fl_str_mv 7d7e6a8c72ed8c4a7bd58b9b972c3152
dd32849f2bfb22da963c3aac6e26e255
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_ 1784097195449909248