Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas

Detalhes bibliográficos
Autor(a) principal: Henrique, Vinícius Barbosa
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: https://hdl.handle.net/11449/254707
Resumo: A extração de edificações a partir de imagens ópticas constitui um importante passo para o planejamento urbano e desenvolvimento territorial para as cidades, e os processos automáticos, como o machine learning e deep learning, beneficiam indiretamente os gestores públicos no contexto de processos decisórios. O deep learning é uma subárea do aprendizado de máquina, que se concentra no treinamento de redes neurais profundas com enfoque no aprendizado com base em dados com alta variabilidade, como luminosidade, posição, textura e outros, e difere de outras técnicas por utilizar redes neurais na aprendizagem e envolver o uso de múltiplas camadas de neurônios artificiais para realizar tarefas complexas de processamento de dados. Há diversas redes disponíveis na literatura para os mais variados fins, incluído o contexto de segmentação de edificações em área urbana, ou redes inicialmente designadas para uma finalidade que apresenta compatibilidade em aprendizado de edificações (como a U-Net desenvolvida para segmentação em imagens da área médica). Independente da rede considerada, é comum variações com implementações de módulos e novos processos, como ocorre na ResUNet-a baseada na U-Net, com o objetivo de aprimorar sua segmentação. A melhoria nos resultados dessas redes também pode ser produzida pela entrada de informações adicionais, modificando os dados usados no treinamento para melhorar a identificação de um objeto, como o uso de dados LiDAR (Light Detection And Ranging) e diferentes modelos de cores, por exemplo. A presente pesquisa se propõe a avaliar o efeito da modificação dos dados de entrada nas redes de deep learning, com uso de dados LiDAR e composição de cores, na arquitetura ResUNet-a, e testar a hipótese de aprimoramento da segmentação. Para avaliar a hipótese foi realizado um experimento prático visando testar o uso da rede ResUNet-a, sendo possível atingir 96.0% de correspondência na segmentação semântica de edificações pela métrica F1-Score com um modelo de parâmetros treinado em 60 épocas durante o período de 4 dias. A partir disso, a metodologia foi proposta para avaliar o desempenho utilizando dois datasets: HInDSM (composto por informação de matiz, intensidade e MDSn - modelo digital de superfície normalizado) e imagem RGB, usado para efeito de comparação. O resultado pelo HInDSM alcançou 96,601% de F1-Score, correspondendo a um acréscimo de 1,89% se comparado ao uso apenas da imagem RGB. Além disso, o modelo apresenta melhorias qualitativas na segmentação de edificações, e conclui-se que o uso de MDSn combinado com os componentes matiz (hue) e intensidade, do modelo de cor HSI trazem melhorias na acurácia e desempenho na identificação de edificações em meio urbano.
id UNSP_2dc4446b94687e623d01c57d2ca6923a
oai_identifier_str oai:repositorio.unesp.br:11449/254707
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticasBuilding Extraction through Deep Learning and combination of LiDAR and Optical Image DataAprendizado ProfundoExtração de edificaçõesLiDARModelo de CoresDeep learningBuilding ExtractionColor ModelsA extração de edificações a partir de imagens ópticas constitui um importante passo para o planejamento urbano e desenvolvimento territorial para as cidades, e os processos automáticos, como o machine learning e deep learning, beneficiam indiretamente os gestores públicos no contexto de processos decisórios. O deep learning é uma subárea do aprendizado de máquina, que se concentra no treinamento de redes neurais profundas com enfoque no aprendizado com base em dados com alta variabilidade, como luminosidade, posição, textura e outros, e difere de outras técnicas por utilizar redes neurais na aprendizagem e envolver o uso de múltiplas camadas de neurônios artificiais para realizar tarefas complexas de processamento de dados. Há diversas redes disponíveis na literatura para os mais variados fins, incluído o contexto de segmentação de edificações em área urbana, ou redes inicialmente designadas para uma finalidade que apresenta compatibilidade em aprendizado de edificações (como a U-Net desenvolvida para segmentação em imagens da área médica). Independente da rede considerada, é comum variações com implementações de módulos e novos processos, como ocorre na ResUNet-a baseada na U-Net, com o objetivo de aprimorar sua segmentação. A melhoria nos resultados dessas redes também pode ser produzida pela entrada de informações adicionais, modificando os dados usados no treinamento para melhorar a identificação de um objeto, como o uso de dados LiDAR (Light Detection And Ranging) e diferentes modelos de cores, por exemplo. A presente pesquisa se propõe a avaliar o efeito da modificação dos dados de entrada nas redes de deep learning, com uso de dados LiDAR e composição de cores, na arquitetura ResUNet-a, e testar a hipótese de aprimoramento da segmentação. Para avaliar a hipótese foi realizado um experimento prático visando testar o uso da rede ResUNet-a, sendo possível atingir 96.0% de correspondência na segmentação semântica de edificações pela métrica F1-Score com um modelo de parâmetros treinado em 60 épocas durante o período de 4 dias. A partir disso, a metodologia foi proposta para avaliar o desempenho utilizando dois datasets: HInDSM (composto por informação de matiz, intensidade e MDSn - modelo digital de superfície normalizado) e imagem RGB, usado para efeito de comparação. O resultado pelo HInDSM alcançou 96,601% de F1-Score, correspondendo a um acréscimo de 1,89% se comparado ao uso apenas da imagem RGB. Além disso, o modelo apresenta melhorias qualitativas na segmentação de edificações, e conclui-se que o uso de MDSn combinado com os componentes matiz (hue) e intensidade, do modelo de cor HSI trazem melhorias na acurácia e desempenho na identificação de edificações em meio urbano.The extraction of buildings from optical images is an important step for urban planning and territorial development for cities, and automated processes, such as machine learning and deep learning, indirectly benefit public decision-makers. Deep learning is a subfield of machine learning that focuses on training deep neural networks with an emphasis on data-driven learning with high variability, such as brightness, position, texture, and others. It differs from other techniques in using neural networks in learning and involving the use of multiple layers of artificial neurons to perform complex data processing tasks. There are several networks available in the literature for various purposes, including the context of building segmentation in urban areas, or networks initially designed for a purpose that is compatible with building learning (such as the U-Net developed for segmentation in medical images). Regardless of the network considered, variations with module implementations and new processes are common, as seen in the ResUNet-a based on U-Net, aiming to improve its segmentation. Improved results in these networks can also be achieved by introducing additional information, modifying the training data to enhance object identification, such as the use of Light Detection and Ranging (LiDAR) data and different color models, for example. This research aims to evaluate the effect of modifying input data in deep learning networks, using LiDAR data and color composition in the ResUNet-a architecture, and test the hypothesis of segmentation improvement. To evaluate the hypothesis, a practical experiment was conducted to test the use of the ResUNet-a network, achieving a 96.0% correspondence in semantic building segmentation by the F1-Score metric with a parameter model trained in 60 epochs over a period of 4 days. Subsequently, the methodology was proposed to evaluate performance using two datasets: HInDSM (comprising hue, intensity, and normalized digital surface model (nDSM) information) and RGB images, used for comparison. The result for HInDSM reached a 96.601% F1-Score, representing an increase of 1.89% compared to using only RGB images. Additionally, the model presents qualitative improvements in building segmentation, and it is concluded that the use of nDSM combined with hue and intensity components from the HSI color model brings improvements in accuracy and performance in the identification of buildings in urban environments.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 88887.482248/2020-00Universidade Estadual Paulista (Unesp)Galo, Maurício [UINESP]Shimabukuro, Milton Hirokazu [UNESP]Henrique, Vinícius Barbosa2024-03-25T13:16:59Z2024-03-25T13:16:59Z2023-01-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/pdfHENRIQUE, Vinícius Barbosa. Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas. Orientador: Maurício Galo. 2024. 95 f. Dissertação (Mestrado em Ciências Cartográficas) - Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista, Presidente Prudente, 2023.https://hdl.handle.net/11449/254707porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-03-26T06:16:33Zoai:repositorio.unesp.br:11449/254707Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T20:38:18.131103Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
Building Extraction through Deep Learning and combination of LiDAR and Optical Image Data
title Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
spellingShingle Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
Henrique, Vinícius Barbosa
Aprendizado Profundo
Extração de edificações
LiDAR
Modelo de Cores
Deep learning
Building Extraction
Color Models
title_short Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
title_full Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
title_fullStr Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
title_full_unstemmed Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
title_sort Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas
author Henrique, Vinícius Barbosa
author_facet Henrique, Vinícius Barbosa
author_role author
dc.contributor.none.fl_str_mv Galo, Maurício [UINESP]
Shimabukuro, Milton Hirokazu [UNESP]
dc.contributor.author.fl_str_mv Henrique, Vinícius Barbosa
dc.subject.por.fl_str_mv Aprendizado Profundo
Extração de edificações
LiDAR
Modelo de Cores
Deep learning
Building Extraction
Color Models
topic Aprendizado Profundo
Extração de edificações
LiDAR
Modelo de Cores
Deep learning
Building Extraction
Color Models
description A extração de edificações a partir de imagens ópticas constitui um importante passo para o planejamento urbano e desenvolvimento territorial para as cidades, e os processos automáticos, como o machine learning e deep learning, beneficiam indiretamente os gestores públicos no contexto de processos decisórios. O deep learning é uma subárea do aprendizado de máquina, que se concentra no treinamento de redes neurais profundas com enfoque no aprendizado com base em dados com alta variabilidade, como luminosidade, posição, textura e outros, e difere de outras técnicas por utilizar redes neurais na aprendizagem e envolver o uso de múltiplas camadas de neurônios artificiais para realizar tarefas complexas de processamento de dados. Há diversas redes disponíveis na literatura para os mais variados fins, incluído o contexto de segmentação de edificações em área urbana, ou redes inicialmente designadas para uma finalidade que apresenta compatibilidade em aprendizado de edificações (como a U-Net desenvolvida para segmentação em imagens da área médica). Independente da rede considerada, é comum variações com implementações de módulos e novos processos, como ocorre na ResUNet-a baseada na U-Net, com o objetivo de aprimorar sua segmentação. A melhoria nos resultados dessas redes também pode ser produzida pela entrada de informações adicionais, modificando os dados usados no treinamento para melhorar a identificação de um objeto, como o uso de dados LiDAR (Light Detection And Ranging) e diferentes modelos de cores, por exemplo. A presente pesquisa se propõe a avaliar o efeito da modificação dos dados de entrada nas redes de deep learning, com uso de dados LiDAR e composição de cores, na arquitetura ResUNet-a, e testar a hipótese de aprimoramento da segmentação. Para avaliar a hipótese foi realizado um experimento prático visando testar o uso da rede ResUNet-a, sendo possível atingir 96.0% de correspondência na segmentação semântica de edificações pela métrica F1-Score com um modelo de parâmetros treinado em 60 épocas durante o período de 4 dias. A partir disso, a metodologia foi proposta para avaliar o desempenho utilizando dois datasets: HInDSM (composto por informação de matiz, intensidade e MDSn - modelo digital de superfície normalizado) e imagem RGB, usado para efeito de comparação. O resultado pelo HInDSM alcançou 96,601% de F1-Score, correspondendo a um acréscimo de 1,89% se comparado ao uso apenas da imagem RGB. Além disso, o modelo apresenta melhorias qualitativas na segmentação de edificações, e conclui-se que o uso de MDSn combinado com os componentes matiz (hue) e intensidade, do modelo de cor HSI trazem melhorias na acurácia e desempenho na identificação de edificações em meio urbano.
publishDate 2023
dc.date.none.fl_str_mv 2023-01-06
2024-03-25T13:16:59Z
2024-03-25T13:16:59Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv HENRIQUE, Vinícius Barbosa. Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas. Orientador: Maurício Galo. 2024. 95 f. Dissertação (Mestrado em Ciências Cartográficas) - Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista, Presidente Prudente, 2023.
https://hdl.handle.net/11449/254707
identifier_str_mv HENRIQUE, Vinícius Barbosa. Extração de edificações por Deep Learning e combinação de dados LiDAR e imagens ópticas. Orientador: Maurício Galo. 2024. 95 f. Dissertação (Mestrado em Ciências Cartográficas) - Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista, Presidente Prudente, 2023.
url https://hdl.handle.net/11449/254707
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808129230369718272