Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/18/18153/tde-02092021-110320/ |
Resumo: | Medir a profundidade de imagens é um problema inverso fundamental dentro do campo da Visão Computacional, uma vez que as informações de profundidade são obtidas por meio de imagens 2D, as quais podem ser geradas a partir de infinitas possibilidades de cenas reais observadas. Ademais, tal problema é não bem-posto, pois os valores estimados de profundidade são fortemente dependentes das imagens de espaços do mundo real adquiridas. Outras importantes tarefas da área de Robótica recorrem a medidas de profundidade, como a Localização e Mapeamento Simultâneos (SLAM) e Structure from Motion (SfM). Beneficiando-se do progresso de Redes Neurais Convolucionais Profundas (DCNNs) para explorar características estruturais e informações espaciais de imagens, a Estimação de Profundidade a partir de Uma Única Imagem (SIDE) é frequentemente destacada em meios de inovação científica e tecnológica, já que este conceito proporciona vantagens relacionadas ao seu baixo custo de implementação, menores restrições de uso e robustez a condições ambientais. No contexto de veículos autônomos, as DCNNs otimizam a tarefa de SIDE através da predição de mapas com dados precisos de profundidade, os quais são indispensáveis durante o processo de navegação autônoma em locais distintos. No entanto, essas redes geralmente são treinadas em mapas de profundidade esparsos e ruidosos, gerados por varreduras de Light Detection and Ranging laser (LiDAR) ou structured-light e time-of-flight devices (Kinect), e são executadas com alto custo computacional, exigindo Unidades de Processamento Gráfico (GPUs) de alto desempenho. Sendo assim, este trabalho propõe uma nova arquitetura de DCNN supervisionada e funções de custo baseadas em atenção para solucionar problemas de SIDE. Inova-se também ao incorporar múltiplas técnicas de Visão Computacional, como a utilização de algoritmos de densificação e informações adicionais de semântica, de profundidade e de normais de superfície ao treinamento de tal DCNN. O método introduzido neste trabalho tem foco em aplicações de veículos autônomos em ambientes internos e externos. |
id |
USP_08bed47f82e8c329fc76780e8cf875bf |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-02092021-110320 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementaçãoDeep learning applied to monocular depth estimation: an approach based on attention and complementationAprendizagem ProfundaComputer VisionDeep LearningSIDESIDEVisão ComputacionalMedir a profundidade de imagens é um problema inverso fundamental dentro do campo da Visão Computacional, uma vez que as informações de profundidade são obtidas por meio de imagens 2D, as quais podem ser geradas a partir de infinitas possibilidades de cenas reais observadas. Ademais, tal problema é não bem-posto, pois os valores estimados de profundidade são fortemente dependentes das imagens de espaços do mundo real adquiridas. Outras importantes tarefas da área de Robótica recorrem a medidas de profundidade, como a Localização e Mapeamento Simultâneos (SLAM) e Structure from Motion (SfM). Beneficiando-se do progresso de Redes Neurais Convolucionais Profundas (DCNNs) para explorar características estruturais e informações espaciais de imagens, a Estimação de Profundidade a partir de Uma Única Imagem (SIDE) é frequentemente destacada em meios de inovação científica e tecnológica, já que este conceito proporciona vantagens relacionadas ao seu baixo custo de implementação, menores restrições de uso e robustez a condições ambientais. No contexto de veículos autônomos, as DCNNs otimizam a tarefa de SIDE através da predição de mapas com dados precisos de profundidade, os quais são indispensáveis durante o processo de navegação autônoma em locais distintos. No entanto, essas redes geralmente são treinadas em mapas de profundidade esparsos e ruidosos, gerados por varreduras de Light Detection and Ranging laser (LiDAR) ou structured-light e time-of-flight devices (Kinect), e são executadas com alto custo computacional, exigindo Unidades de Processamento Gráfico (GPUs) de alto desempenho. Sendo assim, este trabalho propõe uma nova arquitetura de DCNN supervisionada e funções de custo baseadas em atenção para solucionar problemas de SIDE. Inova-se também ao incorporar múltiplas técnicas de Visão Computacional, como a utilização de algoritmos de densificação e informações adicionais de semântica, de profundidade e de normais de superfície ao treinamento de tal DCNN. O método introduzido neste trabalho tem foco em aplicações de veículos autônomos em ambientes internos e externos.Measuring the depth of images is a fundamental inverse problem within the field of Computer Vision since the depth information is obtained through 2D images, which can be generated from infinite possibilities of observed real scenes. Furthermore, this problem is ill-posed, since the estimated depth values are strongly dependent on the acquired images of real-world spaces. Other important tasks in the area of Robotics use depth measurements, such as Simultaneous Localization and Mapping (SLAM) and Structure from Motion (SfM). Benefiting from the progress of Deep Convolutional Neural Networks (DCNNs) to explore structural features and spatial image information, Single Image Depth Estimation (SIDE) is often highlighted in means of scientific and technological innovation, as such a concept provides advantages related to its low-cost implementation, fewer restrictions on use and robustness to environmental conditions. In the context of autonomous vehicles, DCNNs optimize the task of SIDE by predicting maps with accurate depth data, which are indispensable during the autonomous navigation process in different locations. However, these networks are usually trained on sparse and noisy depth maps, generated by scans of Light Detection and Ranging laser (LiDAR) or structured-light and time-of-flight devices (Kinect), and are executed with high computational cost, requiring powerful Graphic Processing Units (GPUs). Therefore, this work proposes a new supervised DCNN architecture and attention-based loss functions to solve SIDE problems. It is also innovative by incorporating multiple Computer Vision techniques, such as the use of densification algorithms and additional information on semantics, depth and surface normals to the training of such DCNN. The method introduced in this work focuses on autonomous vehicles applications in indoor and outdoor environments.Biblioteca Digitais de Teses e Dissertações da USPGrassi Junior, ValdirMendes, Raul de Queiroz2021-07-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/18/18153/tde-02092021-110320/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-09-08T21:36:02Zoai:teses.usp.br:tde-02092021-110320Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-09-08T21:36:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação Deep learning applied to monocular depth estimation: an approach based on attention and complementation |
title |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação |
spellingShingle |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação Mendes, Raul de Queiroz Aprendizagem Profunda Computer Vision Deep Learning SIDE SIDE Visão Computacional |
title_short |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação |
title_full |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação |
title_fullStr |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação |
title_full_unstemmed |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação |
title_sort |
Aprendizagem profunda aplicada a estimação monocular de profundidade: uma abordagem baseada em atenção e complementação |
author |
Mendes, Raul de Queiroz |
author_facet |
Mendes, Raul de Queiroz |
author_role |
author |
dc.contributor.none.fl_str_mv |
Grassi Junior, Valdir |
dc.contributor.author.fl_str_mv |
Mendes, Raul de Queiroz |
dc.subject.por.fl_str_mv |
Aprendizagem Profunda Computer Vision Deep Learning SIDE SIDE Visão Computacional |
topic |
Aprendizagem Profunda Computer Vision Deep Learning SIDE SIDE Visão Computacional |
description |
Medir a profundidade de imagens é um problema inverso fundamental dentro do campo da Visão Computacional, uma vez que as informações de profundidade são obtidas por meio de imagens 2D, as quais podem ser geradas a partir de infinitas possibilidades de cenas reais observadas. Ademais, tal problema é não bem-posto, pois os valores estimados de profundidade são fortemente dependentes das imagens de espaços do mundo real adquiridas. Outras importantes tarefas da área de Robótica recorrem a medidas de profundidade, como a Localização e Mapeamento Simultâneos (SLAM) e Structure from Motion (SfM). Beneficiando-se do progresso de Redes Neurais Convolucionais Profundas (DCNNs) para explorar características estruturais e informações espaciais de imagens, a Estimação de Profundidade a partir de Uma Única Imagem (SIDE) é frequentemente destacada em meios de inovação científica e tecnológica, já que este conceito proporciona vantagens relacionadas ao seu baixo custo de implementação, menores restrições de uso e robustez a condições ambientais. No contexto de veículos autônomos, as DCNNs otimizam a tarefa de SIDE através da predição de mapas com dados precisos de profundidade, os quais são indispensáveis durante o processo de navegação autônoma em locais distintos. No entanto, essas redes geralmente são treinadas em mapas de profundidade esparsos e ruidosos, gerados por varreduras de Light Detection and Ranging laser (LiDAR) ou structured-light e time-of-flight devices (Kinect), e são executadas com alto custo computacional, exigindo Unidades de Processamento Gráfico (GPUs) de alto desempenho. Sendo assim, este trabalho propõe uma nova arquitetura de DCNN supervisionada e funções de custo baseadas em atenção para solucionar problemas de SIDE. Inova-se também ao incorporar múltiplas técnicas de Visão Computacional, como a utilização de algoritmos de densificação e informações adicionais de semântica, de profundidade e de normais de superfície ao treinamento de tal DCNN. O método introduzido neste trabalho tem foco em aplicações de veículos autônomos em ambientes internos e externos. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-07-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/18/18153/tde-02092021-110320/ |
url |
https://www.teses.usp.br/teses/disponiveis/18/18153/tde-02092021-110320/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256616537161728 |