Computationally-efficient neural networks for image compression

Augusto, Leonardo de Souza

Computationally-efficient neural networks for image compression

Detalhes bibliográficos
Autor(a) principal:	Augusto, Leonardo de Souza
Data de Publicação:	2024
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/273200
Resumo:	A compressão de imagens em redes neurais (NNIC) é uma área emergente, com trabalhos notáveis alcançando resultados promissores em termos de qualidade de imagem, mas ainda sem atingir tempos computacionais viáveis. As soluções NNIC empregam o uso de Autoencoders (AEs) (redes de compressão compostas por um codificador e uma parte decodificadora), comumente construídas com camadas convolucionais. Publicações recentes mostram que as redes NNIC são capazes de obter desempenho de taxa-distorção e qualidade visual iguais ou melhores na compressão de imagens quando comparadas com métodos de compressão tradicionais, ao mesmo tempo que permitem maior flexibilidade no design do modelo. Porém, essas redes introduzem novos desafios em relação ao custo computacional, uma vez que NNIC demanda alto poder computacional para compressão e descompressão e não tem alcançado grandes resultados em relação ao tempo de processamento, mesmo quando são utilizadas plataformas especializadas, como GPUs. Este trabalho propõe otimizar um dos modelos de referência disponíveis na literatura para obter melhor tempo de processamento e ao mesmo tempo tentar manter a qualidade da compressão. Diferentemente de outras soluções que visam obter maior compressão ou melhor qualidade de imagem, nossa proposta focará na redução do custo computacional das técnicas NNIC, com um foco especial no lado decodificador destas redes. Resultados experimentais, obtidos pela compressão e descompressão das imagens do conjunto de imagens Kodak, mostram que com pequenas alterações baseadas em poda nas camadas decodificadoras da rede, é possível atingir, em média, para a menor taxa de compressão, redução de 33.33% no tempo de descompressão, ao utilizar o melhor modelo para GPU, com uma perda média de PSNR de 0.01 dB. Ao utilizar o melhor modelo para CPU, a redução do tempo de descompressão foi de 55%, com perda de PSNR de 0.07 dB. Porém, o tempo de descompressão da CPU não atinge tempos de descompressão ideais quando comparado ao JPEG 2000, enquanto a GPU atinge resultados semelhantes aos do JPEG 2000. Esperamos que este trabalho desperte o interesse no desenvolvimento de formas de tornar o NNIC tão acessível quanto possível, com a tecnologia atual, e que possa ajudar no desenvolvimento de formatos de mídia atuais e futuros.

Metadados do item

id	UFRGS-2_5974d0725e7f285e6f050d9f32c6e48a
oai_identifier_str	oai:www.lume.ufrgs.br:10183/273200
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Augusto, Leonardo de SouzaSilva, Mateus Grellert da2024-03-09T05:03:25Z2024http://hdl.handle.net/10183/273200001197963A compressão de imagens em redes neurais (NNIC) é uma área emergente, com trabalhos notáveis alcançando resultados promissores em termos de qualidade de imagem, mas ainda sem atingir tempos computacionais viáveis. As soluções NNIC empregam o uso de Autoencoders (AEs) (redes de compressão compostas por um codificador e uma parte decodificadora), comumente construídas com camadas convolucionais. Publicações recentes mostram que as redes NNIC são capazes de obter desempenho de taxa-distorção e qualidade visual iguais ou melhores na compressão de imagens quando comparadas com métodos de compressão tradicionais, ao mesmo tempo que permitem maior flexibilidade no design do modelo. Porém, essas redes introduzem novos desafios em relação ao custo computacional, uma vez que NNIC demanda alto poder computacional para compressão e descompressão e não tem alcançado grandes resultados em relação ao tempo de processamento, mesmo quando são utilizadas plataformas especializadas, como GPUs. Este trabalho propõe otimizar um dos modelos de referência disponíveis na literatura para obter melhor tempo de processamento e ao mesmo tempo tentar manter a qualidade da compressão. Diferentemente de outras soluções que visam obter maior compressão ou melhor qualidade de imagem, nossa proposta focará na redução do custo computacional das técnicas NNIC, com um foco especial no lado decodificador destas redes. Resultados experimentais, obtidos pela compressão e descompressão das imagens do conjunto de imagens Kodak, mostram que com pequenas alterações baseadas em poda nas camadas decodificadoras da rede, é possível atingir, em média, para a menor taxa de compressão, redução de 33.33% no tempo de descompressão, ao utilizar o melhor modelo para GPU, com uma perda média de PSNR de 0.01 dB. Ao utilizar o melhor modelo para CPU, a redução do tempo de descompressão foi de 55%, com perda de PSNR de 0.07 dB. Porém, o tempo de descompressão da CPU não atinge tempos de descompressão ideais quando comparado ao JPEG 2000, enquanto a GPU atinge resultados semelhantes aos do JPEG 2000. Esperamos que este trabalho desperte o interesse no desenvolvimento de formas de tornar o NNIC tão acessível quanto possível, com a tecnologia atual, e que possa ajudar no desenvolvimento de formatos de mídia atuais e futuros.Neural-network image compression (NNIC) is an emerging field, with notable works achieving promising results in terms of image quality, but yet to achieve feasible computational times. NNIC solutions employ the use of Autoencoders (AEs) (compression networks made of an encoder and a decoder part), commonly built with convolutional layers. Recent publications show that NNIC networks are capable of obtaining equal or better rate-distortion performance and visual quality on image compression when comparing with traditional compression methods, while allowing more flexibility on the model design. However, these networks introduce new challenges regarding computational cost, since NNIC demands high computational power for compression and decompression and has not achieved great results in regards to processing time, even when specialized platforms like GPUs are used. This work proposes to optimize one of the reference models available in the literature to achieve better processing time while trying to maintain the compression quality. Differently from other solutions that aim at achieving higher compression or better image quality, our proposal will focus on reducing the computational cost of NNIC techniques, with special focus on the decoder side of these networks. Experimental results, gathered from compressing and decompressing images from the Kodak dataset, show that with small pruning-based changes on the decoder layers of the network, it is possible to achieve, on average, for the lowest compression ratio, 33.33% reduction in decompression time when using the best model for GPU, with an average PSNR loss of 0.01 dB. When using the best model for CPU, the decompression time reduction was of 55%, with a PSNR loss of 0.07 dB. The quality and performance metrics were gathered from compressing/decompressing the images of the Kodak dataset. Although, the CPU decompression time does not achieve ideal decompression times when compared to JPEG 2000, while the GPU reaches similar results as JPEG 2000. We expect that this work sparks interest in developing ways to make NNIC as accessible as possible with current technology and that it can help the development of current, and future, media formats.application/pdfengRedes neurais convolucionaisCompressão de imagensAprendizado profundoDeep neural networksAutoencodersComputationally-efficient neural networks for image compressionRedes neurais para compressão de imagem computacionalmente eficientes info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2024Ciência da Computação: Ênfase em Engenharia da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001197963.pdf.txt001197963.pdf.txtExtracted Texttext/plain109590http://www.lume.ufrgs.br/bitstream/10183/273200/2/001197963.pdf.txt66a9de623d1b79f99c280bb9b57e9c21MD52ORIGINAL001197963.pdfTexto completo (inglês)application/pdf18582338http://www.lume.ufrgs.br/bitstream/10183/273200/1/001197963.pdf55d70f2e7968b5668ba4e5dc96a2243fMD5110183/2732002024-03-23 05:00:34.989686oai:www.lume.ufrgs.br:10183/273200Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-03-23T08:00:34Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Computationally-efficient neural networks for image compression
dc.title.alternative.pt.fl_str_mv	Redes neurais para compressão de imagem computacionalmente eficientes
title	Computationally-efficient neural networks for image compression
spellingShingle	Computationally-efficient neural networks for image compression Augusto, Leonardo de Souza Redes neurais convolucionais Compressão de imagens Aprendizado profundo Deep neural networks Autoencoders
title_short	Computationally-efficient neural networks for image compression
title_full	Computationally-efficient neural networks for image compression
title_fullStr	Computationally-efficient neural networks for image compression
title_full_unstemmed	Computationally-efficient neural networks for image compression
title_sort	Computationally-efficient neural networks for image compression
author	Augusto, Leonardo de Souza
author_facet	Augusto, Leonardo de Souza
author_role	author
dc.contributor.author.fl_str_mv	Augusto, Leonardo de Souza
dc.contributor.advisor1.fl_str_mv	Silva, Mateus Grellert da
contributor_str_mv	Silva, Mateus Grellert da
dc.subject.por.fl_str_mv	Redes neurais convolucionais Compressão de imagens Aprendizado profundo
topic	Redes neurais convolucionais Compressão de imagens Aprendizado profundo Deep neural networks Autoencoders
dc.subject.eng.fl_str_mv	Deep neural networks Autoencoders
description	A compressão de imagens em redes neurais (NNIC) é uma área emergente, com trabalhos notáveis alcançando resultados promissores em termos de qualidade de imagem, mas ainda sem atingir tempos computacionais viáveis. As soluções NNIC empregam o uso de Autoencoders (AEs) (redes de compressão compostas por um codificador e uma parte decodificadora), comumente construídas com camadas convolucionais. Publicações recentes mostram que as redes NNIC são capazes de obter desempenho de taxa-distorção e qualidade visual iguais ou melhores na compressão de imagens quando comparadas com métodos de compressão tradicionais, ao mesmo tempo que permitem maior flexibilidade no design do modelo. Porém, essas redes introduzem novos desafios em relação ao custo computacional, uma vez que NNIC demanda alto poder computacional para compressão e descompressão e não tem alcançado grandes resultados em relação ao tempo de processamento, mesmo quando são utilizadas plataformas especializadas, como GPUs. Este trabalho propõe otimizar um dos modelos de referência disponíveis na literatura para obter melhor tempo de processamento e ao mesmo tempo tentar manter a qualidade da compressão. Diferentemente de outras soluções que visam obter maior compressão ou melhor qualidade de imagem, nossa proposta focará na redução do custo computacional das técnicas NNIC, com um foco especial no lado decodificador destas redes. Resultados experimentais, obtidos pela compressão e descompressão das imagens do conjunto de imagens Kodak, mostram que com pequenas alterações baseadas em poda nas camadas decodificadoras da rede, é possível atingir, em média, para a menor taxa de compressão, redução de 33.33% no tempo de descompressão, ao utilizar o melhor modelo para GPU, com uma perda média de PSNR de 0.01 dB. Ao utilizar o melhor modelo para CPU, a redução do tempo de descompressão foi de 55%, com perda de PSNR de 0.07 dB. Porém, o tempo de descompressão da CPU não atinge tempos de descompressão ideais quando comparado ao JPEG 2000, enquanto a GPU atinge resultados semelhantes aos do JPEG 2000. Esperamos que este trabalho desperte o interesse no desenvolvimento de formas de tornar o NNIC tão acessível quanto possível, com a tecnologia atual, e que possa ajudar no desenvolvimento de formatos de mídia atuais e futuros.
publishDate	2024
dc.date.accessioned.fl_str_mv	2024-03-09T05:03:25Z
dc.date.issued.fl_str_mv	2024
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/273200
dc.identifier.nrb.pt_BR.fl_str_mv	001197963
url	http://hdl.handle.net/10183/273200
identifier_str_mv	001197963
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/273200/2/001197963.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/273200/1/001197963.pdf
bitstream.checksum.fl_str_mv	66a9de623d1b79f99c280bb9b57e9c21 55d70f2e7968b5668ba4e5dc96a2243f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224678266634240

Computationally-efficient neural networks for image compression

Registros relacionados