Convolutional neural networks compression for object detection

Salvi, Andrey de Aguiar

Convolutional neural networks compression for object detection

Detalhes bibliográficos
Autor(a) principal:	Salvi, Andrey de Aguiar
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo:	http://tede2.pucrs.br/tede2/handle/tede/9890
Resumo:	Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.

Metadados do item

id	P_RS_6ac61f3c0384788945f5f5ca8df9a9e7
oai_identifier_str	oai:tede2.pucrs.br:tede/9890
network_acronym_str	P_RS
network_name_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling	Barros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828http://lattes.cnpq.br/3810506981901874Salvi, Andrey de Aguiar2021-09-28T13:16:38Z2021-03-22http://tede2.pucrs.br/tede2/handle/tede/9890Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.Deep Learning (DL) is the state-of-the-art in Computer Vision tasks, such as Image Classification, Object Detection, Instance Segmentation, Content Generation, among others. Over time, the models have become broader, deeper, and more accurate, but also hyperparameterized, heavier, and slower, making their use harder for automating tasks based on constrained devices, such as those with reduced processing power, or with memory or energy consumption constraints. Consequently, Model Compression emerges in the literature to reduce the model’s size and processing cost as much as possible, while impacting as little as possible in the model’s performance within its target task. Although there are many model compression studies in the literature exploring several different approaches, there are few studies in the literature bringing practical comparisons between different approaches and none of those focusing on Object Detection. Therefore, this work contributes to the literature by comparing and exploring the existing trade-offs between Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), and a model reconstruction based on efficient convolutions. To achieve this goal, we train models based on YOLOv3 with the same data augmentation on two datasets, PASCAL VOC and Exclusively Dark Images, and we evaluate them according to Mean Average Precision, number of parameters, storage size, and Multiply-Accumulate operations (MACs). Results show that a more aggressive Pruning was capable of generating the best trade-off: its mAP surpassed a NAS + KD approach, in addition to producing a model with the smallest number of parameters and with a most effective reduction in MACs.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2021-09-23T20:03:28Z No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2021-09-28T13:09:01Z (GMT) No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5)Made available in DSpace on 2021-09-28T13:16:38Z (GMT). No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5) Previous issue date: 2021-03-22application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/182183/ANDREY%20AGUIAR%20DE%20SALVI_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaDeep LearningObject DetectionYOLOv3Model CompressionPruningKnowledge DistillationNeural Architecture SearchEfficient ConvolutionAprendizado ProfundoDetecção de ObjetosYOLOv3Compressão de ModelosPodaDestilação de ConhecimentoPesquisa por Arquiteturas NeuraisConvoluções EficientesCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOConvolutional neural networks compression for object detectionCompressão de redes neurais convolucionais para detecção de objetosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILANDREY AGUIAR DE SALVI_DIS.pdf.jpgANDREY AGUIAR DE SALVI_DIS.pdf.jpgimage/jpeg4830http://tede2.pucrs.br/tede2/bitstream/tede/9890/4/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.jpgf317a4daec17e142c7289e68f0fe15baMD54TEXTANDREY AGUIAR DE SALVI_DIS.pdf.txtANDREY AGUIAR DE SALVI_DIS.pdf.txttext/plain185580http://tede2.pucrs.br/tede2/bitstream/tede/9890/3/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.txtb00de07d3671730d8daae972c8bbb6d0MD53ORIGINALANDREY AGUIAR DE SALVI_DIS.pdfANDREY AGUIAR DE SALVI_DIS.pdfapplication/pdf15102739http://tede2.pucrs.br/tede2/bitstream/tede/9890/2/ANDREY+AGUIAR+DE+SALVI_DIS.pdfdef4da680a81b904d8d7a1aa648cc465MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9890/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/98902021-09-28 12:00:23.791oai:tede2.pucrs.br:tede/9890QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br\|\|opendoar:2021-09-28T15:00:23Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv	Convolutional neural networks compression for object detection
dc.title.alternative.por.fl_str_mv	Compressão de redes neurais convolucionais para detecção de objetos
title	Convolutional neural networks compression for object detection
spellingShingle	Convolutional neural networks compression for object detection Salvi, Andrey de Aguiar Deep Learning Object Detection YOLOv3 Model Compression Pruning Knowledge Distillation Neural Architecture Search Efficient Convolution Aprendizado Profundo Detecção de Objetos YOLOv3 Compressão de Modelos Poda Destilação de Conhecimento Pesquisa por Arquiteturas Neurais Convoluções Eficientes CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short	Convolutional neural networks compression for object detection
title_full	Convolutional neural networks compression for object detection
title_fullStr	Convolutional neural networks compression for object detection
title_full_unstemmed	Convolutional neural networks compression for object detection
title_sort	Convolutional neural networks compression for object detection
author	Salvi, Andrey de Aguiar
author_facet	Salvi, Andrey de Aguiar
author_role	author
dc.contributor.advisor1.fl_str_mv	Barros, Rodrigo Coelho
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/8172124241767828
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/3810506981901874
dc.contributor.author.fl_str_mv	Salvi, Andrey de Aguiar
contributor_str_mv	Barros, Rodrigo Coelho
dc.subject.eng.fl_str_mv	Deep Learning Object Detection YOLOv3 Model Compression Pruning Knowledge Distillation Neural Architecture Search Efficient Convolution
topic	Deep Learning Object Detection YOLOv3 Model Compression Pruning Knowledge Distillation Neural Architecture Search Efficient Convolution Aprendizado Profundo Detecção de Objetos YOLOv3 Compressão de Modelos Poda Destilação de Conhecimento Pesquisa por Arquiteturas Neurais Convoluções Eficientes CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv	Aprendizado Profundo Detecção de Objetos YOLOv3 Compressão de Modelos Poda Destilação de Conhecimento Pesquisa por Arquiteturas Neurais Convoluções Eficientes
dc.subject.cnpq.fl_str_mv	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description	Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-09-28T13:16:38Z
dc.date.issued.fl_str_mv	2021-03-22
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://tede2.pucrs.br/tede2/handle/tede/9890
url	http://tede2.pucrs.br/tede2/handle/tede/9890
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.program.fl_str_mv	-4570527706994352458
dc.relation.confidence.fl_str_mv	500 500
dc.relation.cnpq.fl_str_mv	-862078257083325301
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	PUCRS
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Escola Politécnica
publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS
instname_str	Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str	PUC_RS
institution	PUC_RS
reponame_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
collection	Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv	http://tede2.pucrs.br/tede2/bitstream/tede/9890/4/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/9890/3/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/9890/2/ANDREY+AGUIAR+DE+SALVI_DIS.pdf http://tede2.pucrs.br/tede2/bitstream/tede/9890/1/license.txt
bitstream.checksum.fl_str_mv	f317a4daec17e142c7289e68f0fe15ba b00de07d3671730d8daae972c8bbb6d0 def4da680a81b904d8d7a1aa648cc465 220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv	biblioteca.central@pucrs.br\|\|
_version_	1799765351893827584

Convolutional neural networks compression for object detection

Registros relacionados