Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction

Detalhes bibliográficos
Autor(a) principal: Tasoniero, Felipe Roque
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/10117
Resumo: Pesquisas recentes sobre modelos de Renderização Diferenciável relacionados à reconstrução 3D de imagens utilizam modelos totalmente convolucionais para extração de features ou para o processamento de decodificação. Por outro lado, várias tarefas de visão computacional como reconhecimento visual, segmentação, geração de imagens e detecção de objetos tiveram grande melhoria de desempenho ao fazer uso de modelos baseados em self-attention, conhecidos tradicionalmente como Transformers. Devido a tal sucesso, neste trabalho pretendemos explorar quatro diferentes abordagens de modelos baseados em selfattention para reconstrução implícita de objetos 3D. Em nossa primeira abordagem, implementamos as camadas de self-attention da SAGAN junto as camadas convolucionais; em nossa segunda abordagem, implementamos o modelo patchwise self-attention para substituir completamente o codificador convolucional. Em seguida, implementamos um modelo de Transformer chamado Pyramid Vision Transformer para substituir o codificador convolucional do modelo DVR; finalmente, em nossa quarta abordagem, implementamos o modelo Nyströmformer como um otimizador para reduzir o custo computacional e para melhorar a capacidade de extração de features. Considerando todas as abordagens, nossos resultados mostraram que podemos alcançar resultados competitivos usando Transformers, bem como adicionando um otimizador para reduzir seu custo computacional. Com a aplicação do modelo de otimização e consequente redução do custo computacional, foi possível modificar o módulo referente ao decodificador de forma a melhorar os resultados de reconstrução, alcançando melhorias de até 8,5% em relação aos baselines.
id P_RS_fd5ee0a39c65f8c892bd1f90dad9eb41
oai_identifier_str oai:tede2.pucrs.br:tede/10117
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Barros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828http://lattes.cnpq.br/4264740668955178Tasoniero, Felipe Roque2022-03-17T12:46:20Z2021-10-28http://tede2.pucrs.br/tede2/handle/tede/10117Pesquisas recentes sobre modelos de Renderização Diferenciável relacionados à reconstrução 3D de imagens utilizam modelos totalmente convolucionais para extração de features ou para o processamento de decodificação. Por outro lado, várias tarefas de visão computacional como reconhecimento visual, segmentação, geração de imagens e detecção de objetos tiveram grande melhoria de desempenho ao fazer uso de modelos baseados em self-attention, conhecidos tradicionalmente como Transformers. Devido a tal sucesso, neste trabalho pretendemos explorar quatro diferentes abordagens de modelos baseados em selfattention para reconstrução implícita de objetos 3D. Em nossa primeira abordagem, implementamos as camadas de self-attention da SAGAN junto as camadas convolucionais; em nossa segunda abordagem, implementamos o modelo patchwise self-attention para substituir completamente o codificador convolucional. Em seguida, implementamos um modelo de Transformer chamado Pyramid Vision Transformer para substituir o codificador convolucional do modelo DVR; finalmente, em nossa quarta abordagem, implementamos o modelo Nyströmformer como um otimizador para reduzir o custo computacional e para melhorar a capacidade de extração de features. Considerando todas as abordagens, nossos resultados mostraram que podemos alcançar resultados competitivos usando Transformers, bem como adicionando um otimizador para reduzir seu custo computacional. Com a aplicação do modelo de otimização e consequente redução do custo computacional, foi possível modificar o módulo referente ao decodificador de forma a melhorar os resultados de reconstrução, alcançando melhorias de até 8,5% em relação aos baselines.Recent studies on Differentiable Rendering models related to 3D reconstruction focus on fully convolutional-based models for data feature extraction or for the decoding process. On the other hand, computer vision tasks such as image recognition, segmentation, image generation, and object detection is benefiting largely from using fully self-attention approaches known as Transformers. Due to the recent success of the Transformer backbone models applied to computer vision, in this work we aim to explore four different approaches of self-attention-based models for implicit 3D object reconstruction from images. In our first approach, we have implemented the SAGAN Self-Attention layers together with convolutions layers; in our second approach, we have implemented a patchwise self-attention model to completely replace the convolutional encoder; next, we have implemented a Transformer model called Pyramid Vision Transformer to replace the convolutional based encoder from the DVR model; finally, we have implemented the Nyströmformer model, an optimizer to reduce the computational cost and to improve the feature extracting capability. Considering all approaches, our results have shown that we can achieve competitive results by using Transformer models, as well as adding an optimizer to reduce the computational cost. By applying the optimization model and reducing the computational cost, it was possible to modify the decoder module to increase the reconstruction results, resulting in improvements of up to 8.5% compared to the baseline approaches.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2022-03-15T20:16:00Z No. of bitstreams: 1 FELIPE_ROQUE_TASONIERO_DIS.pdf: 4457229 bytes, checksum: 3cd611f9e87d2041f168cce3d347f4a5 (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2022-03-17T12:39:42Z (GMT) No. of bitstreams: 1 FELIPE_ROQUE_TASONIERO_DIS.pdf: 4457229 bytes, checksum: 3cd611f9e87d2041f168cce3d347f4a5 (MD5)Made available in DSpace on 2022-03-17T12:46:20Z (GMT). No. of bitstreams: 1 FELIPE_ROQUE_TASONIERO_DIS.pdf: 4457229 bytes, checksum: 3cd611f9e87d2041f168cce3d347f4a5 (MD5) Previous issue date: 2021-10-28application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/183450/FELIPE_ROQUE_TASONIERO_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaDeep Learning3D ReconstructionComputer VisionTransformersAprendizado ProfundoReconstrução 3DVisão ComputacionalTransformersCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOSelf-attention for improving the differentiable rendering pipeline in image 3D reconstructioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILFELIPE_ROQUE_TASONIERO_DIS.pdf.jpgFELIPE_ROQUE_TASONIERO_DIS.pdf.jpgimage/jpeg5651http://tede2.pucrs.br/tede2/bitstream/tede/10117/4/FELIPE_ROQUE_TASONIERO_DIS.pdf.jpg811d63a708e49bf7c737e1a15d97dfa3MD54TEXTFELIPE_ROQUE_TASONIERO_DIS.pdf.txtFELIPE_ROQUE_TASONIERO_DIS.pdf.txttext/plain136906http://tede2.pucrs.br/tede2/bitstream/tede/10117/3/FELIPE_ROQUE_TASONIERO_DIS.pdf.txt27b9823b230e46fd1892fbc3df4b9c38MD53ORIGINALFELIPE_ROQUE_TASONIERO_DIS.pdfFELIPE_ROQUE_TASONIERO_DIS.pdfapplication/pdf4457229http://tede2.pucrs.br/tede2/bitstream/tede/10117/2/FELIPE_ROQUE_TASONIERO_DIS.pdf3cd611f9e87d2041f168cce3d347f4a5MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/10117/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/101172022-03-17 12:00:23.86oai:tede2.pucrs.br:tede/10117QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2022-03-17T15:00:23Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
title Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
spellingShingle Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
Tasoniero, Felipe Roque
Deep Learning
3D Reconstruction
Computer Vision
Transformers
Aprendizado Profundo
Reconstrução 3D
Visão Computacional
Transformers
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
title_full Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
title_fullStr Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
title_full_unstemmed Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
title_sort Self-attention for improving the differentiable rendering pipeline in image 3D reconstruction
author Tasoniero, Felipe Roque
author_facet Tasoniero, Felipe Roque
author_role author
dc.contributor.advisor1.fl_str_mv Barros, Rodrigo Coelho
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8172124241767828
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/4264740668955178
dc.contributor.author.fl_str_mv Tasoniero, Felipe Roque
contributor_str_mv Barros, Rodrigo Coelho
dc.subject.eng.fl_str_mv Deep Learning
3D Reconstruction
Computer Vision
Transformers
topic Deep Learning
3D Reconstruction
Computer Vision
Transformers
Aprendizado Profundo
Reconstrução 3D
Visão Computacional
Transformers
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv Aprendizado Profundo
Reconstrução 3D
Visão Computacional
Transformers
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Pesquisas recentes sobre modelos de Renderização Diferenciável relacionados à reconstrução 3D de imagens utilizam modelos totalmente convolucionais para extração de features ou para o processamento de decodificação. Por outro lado, várias tarefas de visão computacional como reconhecimento visual, segmentação, geração de imagens e detecção de objetos tiveram grande melhoria de desempenho ao fazer uso de modelos baseados em self-attention, conhecidos tradicionalmente como Transformers. Devido a tal sucesso, neste trabalho pretendemos explorar quatro diferentes abordagens de modelos baseados em selfattention para reconstrução implícita de objetos 3D. Em nossa primeira abordagem, implementamos as camadas de self-attention da SAGAN junto as camadas convolucionais; em nossa segunda abordagem, implementamos o modelo patchwise self-attention para substituir completamente o codificador convolucional. Em seguida, implementamos um modelo de Transformer chamado Pyramid Vision Transformer para substituir o codificador convolucional do modelo DVR; finalmente, em nossa quarta abordagem, implementamos o modelo Nyströmformer como um otimizador para reduzir o custo computacional e para melhorar a capacidade de extração de features. Considerando todas as abordagens, nossos resultados mostraram que podemos alcançar resultados competitivos usando Transformers, bem como adicionando um otimizador para reduzir seu custo computacional. Com a aplicação do modelo de otimização e consequente redução do custo computacional, foi possível modificar o módulo referente ao decodificador de forma a melhorar os resultados de reconstrução, alcançando melhorias de até 8,5% em relação aos baselines.
publishDate 2021
dc.date.issued.fl_str_mv 2021-10-28
dc.date.accessioned.fl_str_mv 2022-03-17T12:46:20Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/10117
url http://tede2.pucrs.br/tede2/handle/tede/10117
dc.language.iso.fl_str_mv eng
language eng
dc.relation.program.fl_str_mv -4570527706994352458
dc.relation.confidence.fl_str_mv 500
500
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/10117/4/FELIPE_ROQUE_TASONIERO_DIS.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/10117/3/FELIPE_ROQUE_TASONIERO_DIS.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/10117/2/FELIPE_ROQUE_TASONIERO_DIS.pdf
http://tede2.pucrs.br/tede2/bitstream/tede/10117/1/license.txt
bitstream.checksum.fl_str_mv 811d63a708e49bf7c737e1a15d97dfa3
27b9823b230e46fd1892fbc3df4b9c38
3cd611f9e87d2041f168cce3d347f4a5
220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765354561404928