Computationally-efficient neural networks for image compression

Detalhes bibliográficos
Autor(a) principal: Augusto, Leonardo de Souza
Data de Publicação: 2024
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/273200
Resumo: A compressão de imagens em redes neurais (NNIC) é uma área emergente, com trabalhos notáveis alcançando resultados promissores em termos de qualidade de imagem, mas ainda sem atingir tempos computacionais viáveis. As soluções NNIC empregam o uso de Autoencoders (AEs) (redes de compressão compostas por um codificador e uma parte decodificadora), comumente construídas com camadas convolucionais. Publicações recentes mostram que as redes NNIC são capazes de obter desempenho de taxa-distorção e qualidade visual iguais ou melhores na compressão de imagens quando comparadas com métodos de compressão tradicionais, ao mesmo tempo que permitem maior flexibilidade no design do modelo. Porém, essas redes introduzem novos desafios em relação ao custo computacional, uma vez que NNIC demanda alto poder computacional para compressão e descompressão e não tem alcançado grandes resultados em relação ao tempo de processamento, mesmo quando são utilizadas plataformas especializadas, como GPUs. Este trabalho propõe otimizar um dos modelos de referência disponíveis na literatura para obter melhor tempo de processamento e ao mesmo tempo tentar manter a qualidade da compressão. Diferentemente de outras soluções que visam obter maior compressão ou melhor qualidade de imagem, nossa proposta focará na redução do custo computacional das técnicas NNIC, com um foco especial no lado decodificador destas redes. Resultados experimentais, obtidos pela compressão e descompressão das imagens do conjunto de imagens Kodak, mostram que com pequenas alterações baseadas em poda nas camadas decodificadoras da rede, é possível atingir, em média, para a menor taxa de compressão, redução de 33.33% no tempo de descompressão, ao utilizar o melhor modelo para GPU, com uma perda média de PSNR de 0.01 dB. Ao utilizar o melhor modelo para CPU, a redução do tempo de descompressão foi de 55%, com perda de PSNR de 0.07 dB. Porém, o tempo de descompressão da CPU não atinge tempos de descompressão ideais quando comparado ao JPEG 2000, enquanto a GPU atinge resultados semelhantes aos do JPEG 2000. Esperamos que este trabalho desperte o interesse no desenvolvimento de formas de tornar o NNIC tão acessível quanto possível, com a tecnologia atual, e que possa ajudar no desenvolvimento de formatos de mídia atuais e futuros.
id UFRGS-2_5974d0725e7f285e6f050d9f32c6e48a
oai_identifier_str oai:www.lume.ufrgs.br:10183/273200
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Augusto, Leonardo de SouzaSilva, Mateus Grellert da2024-03-09T05:03:25Z2024http://hdl.handle.net/10183/273200001197963A compressão de imagens em redes neurais (NNIC) é uma área emergente, com trabalhos notáveis alcançando resultados promissores em termos de qualidade de imagem, mas ainda sem atingir tempos computacionais viáveis. As soluções NNIC empregam o uso de Autoencoders (AEs) (redes de compressão compostas por um codificador e uma parte decodificadora), comumente construídas com camadas convolucionais. Publicações recentes mostram que as redes NNIC são capazes de obter desempenho de taxa-distorção e qualidade visual iguais ou melhores na compressão de imagens quando comparadas com métodos de compressão tradicionais, ao mesmo tempo que permitem maior flexibilidade no design do modelo. Porém, essas redes introduzem novos desafios em relação ao custo computacional, uma vez que NNIC demanda alto poder computacional para compressão e descompressão e não tem alcançado grandes resultados em relação ao tempo de processamento, mesmo quando são utilizadas plataformas especializadas, como GPUs. Este trabalho propõe otimizar um dos modelos de referência disponíveis na literatura para obter melhor tempo de processamento e ao mesmo tempo tentar manter a qualidade da compressão. Diferentemente de outras soluções que visam obter maior compressão ou melhor qualidade de imagem, nossa proposta focará na redução do custo computacional das técnicas NNIC, com um foco especial no lado decodificador destas redes. Resultados experimentais, obtidos pela compressão e descompressão das imagens do conjunto de imagens Kodak, mostram que com pequenas alterações baseadas em poda nas camadas decodificadoras da rede, é possível atingir, em média, para a menor taxa de compressão, redução de 33.33% no tempo de descompressão, ao utilizar o melhor modelo para GPU, com uma perda média de PSNR de 0.01 dB. Ao utilizar o melhor modelo para CPU, a redução do tempo de descompressão foi de 55%, com perda de PSNR de 0.07 dB. Porém, o tempo de descompressão da CPU não atinge tempos de descompressão ideais quando comparado ao JPEG 2000, enquanto a GPU atinge resultados semelhantes aos do JPEG 2000. Esperamos que este trabalho desperte o interesse no desenvolvimento de formas de tornar o NNIC tão acessível quanto possível, com a tecnologia atual, e que possa ajudar no desenvolvimento de formatos de mídia atuais e futuros.Neural-network image compression (NNIC) is an emerging field, with notable works achieving promising results in terms of image quality, but yet to achieve feasible computational times. NNIC solutions employ the use of Autoencoders (AEs) (compression networks made of an encoder and a decoder part), commonly built with convolutional layers. Recent publications show that NNIC networks are capable of obtaining equal or better rate-distortion performance and visual quality on image compression when comparing with traditional compression methods, while allowing more flexibility on the model design. However, these networks introduce new challenges regarding computational cost, since NNIC demands high computational power for compression and decompression and has not achieved great results in regards to processing time, even when specialized platforms like GPUs are used. This work proposes to optimize one of the reference models available in the literature to achieve better processing time while trying to maintain the compression quality. Differently from other solutions that aim at achieving higher compression or better image quality, our proposal will focus on reducing the computational cost of NNIC techniques, with special focus on the decoder side of these networks. Experimental results, gathered from compressing and decompressing images from the Kodak dataset, show that with small pruning-based changes on the decoder layers of the network, it is possible to achieve, on average, for the lowest compression ratio, 33.33% reduction in decompression time when using the best model for GPU, with an average PSNR loss of 0.01 dB. When using the best model for CPU, the decompression time reduction was of 55%, with a PSNR loss of 0.07 dB. The quality and performance metrics were gathered from compressing/decompressing the images of the Kodak dataset. Although, the CPU decompression time does not achieve ideal decompression times when compared to JPEG 2000, while the GPU reaches similar results as JPEG 2000. We expect that this work sparks interest in developing ways to make NNIC as accessible as possible with current technology and that it can help the development of current, and future, media formats.application/pdfengRedes neurais convolucionaisCompressão de imagensAprendizado profundoDeep neural networksAutoencodersComputationally-efficient neural networks for image compressionRedes neurais para compressão de imagem computacionalmente eficientes info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2024Ciência da Computação: Ênfase em Engenharia da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001197963.pdf.txt001197963.pdf.txtExtracted Texttext/plain109590http://www.lume.ufrgs.br/bitstream/10183/273200/2/001197963.pdf.txt66a9de623d1b79f99c280bb9b57e9c21MD52ORIGINAL001197963.pdfTexto completo (inglês)application/pdf18582338http://www.lume.ufrgs.br/bitstream/10183/273200/1/001197963.pdf55d70f2e7968b5668ba4e5dc96a2243fMD5110183/2732002024-03-23 05:00:34.989686oai:www.lume.ufrgs.br:10183/273200Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-03-23T08:00:34Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Computationally-efficient neural networks for image compression
dc.title.alternative.pt.fl_str_mv Redes neurais para compressão de imagem computacionalmente eficientes
title Computationally-efficient neural networks for image compression
spellingShingle Computationally-efficient neural networks for image compression
Augusto, Leonardo de Souza
Redes neurais convolucionais
Compressão de imagens
Aprendizado profundo
Deep neural networks
Autoencoders
title_short Computationally-efficient neural networks for image compression
title_full Computationally-efficient neural networks for image compression
title_fullStr Computationally-efficient neural networks for image compression
title_full_unstemmed Computationally-efficient neural networks for image compression
title_sort Computationally-efficient neural networks for image compression
author Augusto, Leonardo de Souza
author_facet Augusto, Leonardo de Souza
author_role author
dc.contributor.author.fl_str_mv Augusto, Leonardo de Souza
dc.contributor.advisor1.fl_str_mv Silva, Mateus Grellert da
contributor_str_mv Silva, Mateus Grellert da
dc.subject.por.fl_str_mv Redes neurais convolucionais
Compressão de imagens
Aprendizado profundo
topic Redes neurais convolucionais
Compressão de imagens
Aprendizado profundo
Deep neural networks
Autoencoders
dc.subject.eng.fl_str_mv Deep neural networks
Autoencoders
description A compressão de imagens em redes neurais (NNIC) é uma área emergente, com trabalhos notáveis alcançando resultados promissores em termos de qualidade de imagem, mas ainda sem atingir tempos computacionais viáveis. As soluções NNIC empregam o uso de Autoencoders (AEs) (redes de compressão compostas por um codificador e uma parte decodificadora), comumente construídas com camadas convolucionais. Publicações recentes mostram que as redes NNIC são capazes de obter desempenho de taxa-distorção e qualidade visual iguais ou melhores na compressão de imagens quando comparadas com métodos de compressão tradicionais, ao mesmo tempo que permitem maior flexibilidade no design do modelo. Porém, essas redes introduzem novos desafios em relação ao custo computacional, uma vez que NNIC demanda alto poder computacional para compressão e descompressão e não tem alcançado grandes resultados em relação ao tempo de processamento, mesmo quando são utilizadas plataformas especializadas, como GPUs. Este trabalho propõe otimizar um dos modelos de referência disponíveis na literatura para obter melhor tempo de processamento e ao mesmo tempo tentar manter a qualidade da compressão. Diferentemente de outras soluções que visam obter maior compressão ou melhor qualidade de imagem, nossa proposta focará na redução do custo computacional das técnicas NNIC, com um foco especial no lado decodificador destas redes. Resultados experimentais, obtidos pela compressão e descompressão das imagens do conjunto de imagens Kodak, mostram que com pequenas alterações baseadas em poda nas camadas decodificadoras da rede, é possível atingir, em média, para a menor taxa de compressão, redução de 33.33% no tempo de descompressão, ao utilizar o melhor modelo para GPU, com uma perda média de PSNR de 0.01 dB. Ao utilizar o melhor modelo para CPU, a redução do tempo de descompressão foi de 55%, com perda de PSNR de 0.07 dB. Porém, o tempo de descompressão da CPU não atinge tempos de descompressão ideais quando comparado ao JPEG 2000, enquanto a GPU atinge resultados semelhantes aos do JPEG 2000. Esperamos que este trabalho desperte o interesse no desenvolvimento de formas de tornar o NNIC tão acessível quanto possível, com a tecnologia atual, e que possa ajudar no desenvolvimento de formatos de mídia atuais e futuros.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-03-09T05:03:25Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/273200
dc.identifier.nrb.pt_BR.fl_str_mv 001197963
url http://hdl.handle.net/10183/273200
identifier_str_mv 001197963
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/273200/2/001197963.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/273200/1/001197963.pdf
bitstream.checksum.fl_str_mv 66a9de623d1b79f99c280bb9b57e9c21
55d70f2e7968b5668ba4e5dc96a2243f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224678266634240