Convolutional neural networks compression for object detection
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/9890 |
Resumo: | Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs. |
id |
P_RS_6ac61f3c0384788945f5f5ca8df9a9e7 |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/9890 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Barros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828http://lattes.cnpq.br/3810506981901874Salvi, Andrey de Aguiar2021-09-28T13:16:38Z2021-03-22http://tede2.pucrs.br/tede2/handle/tede/9890Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.Deep Learning (DL) is the state-of-the-art in Computer Vision tasks, such as Image Classification, Object Detection, Instance Segmentation, Content Generation, among others. Over time, the models have become broader, deeper, and more accurate, but also hyperparameterized, heavier, and slower, making their use harder for automating tasks based on constrained devices, such as those with reduced processing power, or with memory or energy consumption constraints. Consequently, Model Compression emerges in the literature to reduce the model’s size and processing cost as much as possible, while impacting as little as possible in the model’s performance within its target task. Although there are many model compression studies in the literature exploring several different approaches, there are few studies in the literature bringing practical comparisons between different approaches and none of those focusing on Object Detection. Therefore, this work contributes to the literature by comparing and exploring the existing trade-offs between Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), and a model reconstruction based on efficient convolutions. To achieve this goal, we train models based on YOLOv3 with the same data augmentation on two datasets, PASCAL VOC and Exclusively Dark Images, and we evaluate them according to Mean Average Precision, number of parameters, storage size, and Multiply-Accumulate operations (MACs). Results show that a more aggressive Pruning was capable of generating the best trade-off: its mAP surpassed a NAS + KD approach, in addition to producing a model with the smallest number of parameters and with a most effective reduction in MACs.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2021-09-23T20:03:28Z No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2021-09-28T13:09:01Z (GMT) No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5)Made available in DSpace on 2021-09-28T13:16:38Z (GMT). No. of bitstreams: 1 ANDREY AGUIAR DE SALVI_DIS.pdf: 15102739 bytes, checksum: def4da680a81b904d8d7a1aa648cc465 (MD5) Previous issue date: 2021-03-22application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/182183/ANDREY%20AGUIAR%20DE%20SALVI_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaDeep LearningObject DetectionYOLOv3Model CompressionPruningKnowledge DistillationNeural Architecture SearchEfficient ConvolutionAprendizado ProfundoDetecção de ObjetosYOLOv3Compressão de ModelosPodaDestilação de ConhecimentoPesquisa por Arquiteturas NeuraisConvoluções EficientesCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOConvolutional neural networks compression for object detectionCompressão de redes neurais convolucionais para detecção de objetosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILANDREY AGUIAR DE SALVI_DIS.pdf.jpgANDREY AGUIAR DE SALVI_DIS.pdf.jpgimage/jpeg4830http://tede2.pucrs.br/tede2/bitstream/tede/9890/4/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.jpgf317a4daec17e142c7289e68f0fe15baMD54TEXTANDREY AGUIAR DE SALVI_DIS.pdf.txtANDREY AGUIAR DE SALVI_DIS.pdf.txttext/plain185580http://tede2.pucrs.br/tede2/bitstream/tede/9890/3/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.txtb00de07d3671730d8daae972c8bbb6d0MD53ORIGINALANDREY AGUIAR DE SALVI_DIS.pdfANDREY AGUIAR DE SALVI_DIS.pdfapplication/pdf15102739http://tede2.pucrs.br/tede2/bitstream/tede/9890/2/ANDREY+AGUIAR+DE+SALVI_DIS.pdfdef4da680a81b904d8d7a1aa648cc465MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9890/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/98902021-09-28 12:00:23.791oai:tede2.pucrs.br:tede/9890QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2021-09-28T15:00:23Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Convolutional neural networks compression for object detection |
dc.title.alternative.por.fl_str_mv |
Compressão de redes neurais convolucionais para detecção de objetos |
title |
Convolutional neural networks compression for object detection |
spellingShingle |
Convolutional neural networks compression for object detection Salvi, Andrey de Aguiar Deep Learning Object Detection YOLOv3 Model Compression Pruning Knowledge Distillation Neural Architecture Search Efficient Convolution Aprendizado Profundo Detecção de Objetos YOLOv3 Compressão de Modelos Poda Destilação de Conhecimento Pesquisa por Arquiteturas Neurais Convoluções Eficientes CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
title_short |
Convolutional neural networks compression for object detection |
title_full |
Convolutional neural networks compression for object detection |
title_fullStr |
Convolutional neural networks compression for object detection |
title_full_unstemmed |
Convolutional neural networks compression for object detection |
title_sort |
Convolutional neural networks compression for object detection |
author |
Salvi, Andrey de Aguiar |
author_facet |
Salvi, Andrey de Aguiar |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Barros, Rodrigo Coelho |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8172124241767828 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/3810506981901874 |
dc.contributor.author.fl_str_mv |
Salvi, Andrey de Aguiar |
contributor_str_mv |
Barros, Rodrigo Coelho |
dc.subject.eng.fl_str_mv |
Deep Learning Object Detection YOLOv3 Model Compression Pruning Knowledge Distillation Neural Architecture Search Efficient Convolution |
topic |
Deep Learning Object Detection YOLOv3 Model Compression Pruning Knowledge Distillation Neural Architecture Search Efficient Convolution Aprendizado Profundo Detecção de Objetos YOLOv3 Compressão de Modelos Poda Destilação de Conhecimento Pesquisa por Arquiteturas Neurais Convoluções Eficientes CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
dc.subject.por.fl_str_mv |
Aprendizado Profundo Detecção de Objetos YOLOv3 Compressão de Modelos Poda Destilação de Conhecimento Pesquisa por Arquiteturas Neurais Convoluções Eficientes |
dc.subject.cnpq.fl_str_mv |
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
description |
Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-09-28T13:16:38Z |
dc.date.issued.fl_str_mv |
2021-03-22 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/9890 |
url |
http://tede2.pucrs.br/tede2/handle/tede/9890 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.program.fl_str_mv |
-4570527706994352458 |
dc.relation.confidence.fl_str_mv |
500 500 |
dc.relation.cnpq.fl_str_mv |
-862078257083325301 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola Politécnica |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/9890/4/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/9890/3/ANDREY+AGUIAR+DE+SALVI_DIS.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/9890/2/ANDREY+AGUIAR+DE+SALVI_DIS.pdf http://tede2.pucrs.br/tede2/bitstream/tede/9890/1/license.txt |
bitstream.checksum.fl_str_mv |
f317a4daec17e142c7289e68f0fe15ba b00de07d3671730d8daae972c8bbb6d0 def4da680a81b904d8d7a1aa648cc465 220e11f2d3ba5354f917c7035aadef24 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765351893827584 |