Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais

Detalhes bibliográficos
Autor(a) principal: Souza, Deivison Venicio, 1983-
Data de Publicação: 2020
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/74596
Resumo: Orientador: Prof. Carlos Roberto Sanquetta
id UFPR_0034263f19dfe8a3750c40de2e3e38ea
oai_identifier_str oai:acervodigital.ufpr.br:1884/74596
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Souza, Deivison Venicio, 1983-Nievola, Julio CesarDalla Corte, Ana Paula, 1980-Universidade Federal do Paraná. Setor de Ciências Agrárias. Programa de Pós-Graduação em Engenharia FlorestalSanquetta, Carlos Roberto, 1964-2022-04-07T18:48:25Z2022-04-07T18:48:25Z2020https://hdl.handle.net/1884/74596Orientador: Prof. Carlos Roberto SanquettaCoorientadores: Prof. Júlio César Nievola, Profª Ana Paula Dalla CorteTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Agrárias, Programa de Pós-Graduação em Engenharia Florestal. Defesa : Curitiba, 24/01/2020Inclui referências: p. 134-149Área de concentração: Manejo FlorestalResumo: No campo da mensuração florestal, encontrar modelos acurados para predizer variáveis biométricas difíceis de determinar diretamente em campo e de alto custo operacional em inventários florestais, sempre constituiu um grande interesse das pesquisas. Em florestas naturais inequiâneas, em particular, a elevada heterogeneidade das variáveis biométricas é uma condição marcante e intrínseca, e que torna a modelagem preditiva um grande desafio. Devido a isso, por vezes, métodos tradicionais, como a regressão linear clássica, não são capazes de modelar adequadamente a natureza. Assim, o uso de métodos mais flexíveis e com boa capacidade de descrever a realidade, como as técnicas de aprendizado de máquina, ganham forte apelo quando o intuito é melhorar a acurácia dos modelos de biomassa e volume de árvores em florestas naturais inequiâneas. O principal objetivo desta pesquisa foi estudar e comparar o potencial de técnicas de aprendizado de máquina na melhoria das estimativas da biomassa aérea total (BAT) e volume comercial com casca de árvores individuais, frente à abordagem de modelagem por regressão tradicional, a partir de dados coletados em diversos sítios de florestas naturais inequiâneas. Para além disso, objetivou-se usar abordagens recentes para prover algum nível de interpretação para os modelos algorítmicos, desmistificando a metáfora da "caixa preta", e também desenvolver aplicações web para disponibilizar os modelos de aprendizado de máquina mais acurados. Dois estudos de casos foram conduzidos. No primeiro, foi usada uma base global compilada contendo dados de biomassa aérea total de 4004 árvores-amostras (diâmetro >= 5cm) colhidas e distribuídas em 58 sítios de diferentes países. No segundo, foi usado um conjunto de dados com volume comercial com casca de 13831 árvores (diâmetro >= 50cm) pertencentes à 38 espécies florestais manejadas na Amazônia brasileira. Para fins de modelagem preditiva, cada conjunto de dados original foi dividido em dados de treinamento (80%) e teste (20%). O método k-fold cross-validation foi usado para obter estimativas imparciais de desempenho para os modelos de aprendizado de máquina (MAM). O conjunto de teste foi reservado para uma comparação mais apropriada da precisão das abordagens de regressão tradicional e aprendizado de máquina. Em ambos os estudos de caso, foram consideradas nove técnicas de aprendizado de máquina. Para a modelagem tradicional da BAT, apenas a forma funcional do "Modelo Pantropical-MP" foi admitida e ajustada no conjunto de treinamento, e designada "Modelo Alternativo - MA". Para a modelagem volumétrica tradicional foram admitidas dez formas funcionais usuais na Mensuração Florestal. Na modelagem da biomassa aérea total, os melhores MAM construídos apresentaram rRMSE variando entre 7,30% e 7,98% na validação cruzada, sendo uma rede neural artificial do tipo MLP (size = 9; decay = 0,2) a mais acurada. No conjunto de teste, os MAM e MA apresentaram semelhança na distribuição residual e no desempenho médio para predizer a variável resposta em amostras independentes. Na modelagem do volume comercial com casca, os melhores MAM foram obtidos usando um espaço de recursos dependente do diâmetro e altura, com rRMSE variando entre 22,83% e 24,47%, sendo um modelo de regressão por vetores de suporte com função kernel radial (sigma = 0,003; C = 128) o mais acurado. Os modelos tradicionais genéricos de dupla entrada com resposta logarítmica (Spurr e Schumacher-Hall) apresentaram menor erro padrão residual, mas forte heterocedasticidade. A heterocedasticidade nos MAM aprendidos usando um espaço de recursos dependente de diâmetro e altura da árvore, parece ser menos severa do que aquela constatada nos modelos de dupla entrada com resposta logarítmica. A modelagem preditiva usando técnicas de aprendizado de máquina não proveu a melhoria esperada nas estimativas de volume comercial com casca e biomassa área total em florestas naturais inequiâneas. Apesar disso, o uso de técnicas de aprendizado de máquina parece ser bastante promissor para modelagem de variáveis biométricas, uma vez que conseguiu equiparar-se aos modelos tradicionais que a décadas são usados na Ciência Florestal.Abstract: In the scope of forest measurement, finding accurate models to predict biometric variables that are difficult to determine directly in the field and costly to operate in forest inventories has always been a major research concern. In natural uneven-aged forests the high heterogeneity of biometric variables is a striking and intrinsic condition that makes predictive modeling a major challenge. Because of this, sometimes the traditional methods such as classical linear regression, are not able to adequately model the nature. Thus, the use of more flexible methods with a good ability to describe reality, such as machine learning techniques, is strongly sought when the aim is to improve the accuracy of biomass and tree volume models in unequal natural forests. The main objective of this research was to study and compare the potential of machine learning techniques to improve estimates of above-ground biomass (AGB) and commercial volume of individual bark trees, compared to the traditional regression modeling approach, based on data collected from various sites of natural uneven-aged forests. In addition, it aimed to use recent approaches to provide some level of interpretation for algorithmic models, demystifying the "black box" metaphor, and also develop web applications to provide the most accurate machine learning models. Two case studies were conducted. In the first, a compiled global database containing total aerial biomass data from 4004 sample trees (diameter >= 5cm) collected and distributed in 58 sites from different countries was used. In the second, a data set with commercial volume of 13831 bark trees (diameter >= 50cm) belonging to 38 forest species managed in the Brazilian Amazon rainforest was used. For the purpose of predictive modeling, each original data set was divided into training (80%) and test (20%) data. The k-fold cross-validation method was used to obtain unbiased performance estimates for machine learning models (MLM). The test set has been reserved for a more appropriate comparison of the accuracy of traditional regression and machine learning approaches. In both case studies, nine machine learning algorithms were considered. For traditional AGB modeling, only the functional form of the "Pantropical Model - PM" was admitted and adjusted in the training set, and designated "Alternative Model - AM". Ten usual functional forms were allowed for traditional volumetric modeling in Forest Measurement. In the modeling of the above-ground biomass, the best MLM built presented rRMSE ranging from 7.30% to 7.98% in the cross validation, being an artificial neural network of the MLP type (size = 9; decay = 0.2) the most accurate. In the test set, MLM and AM showed similarity in residual distribution and mean performance to predict the response variable in independent samples. In the bark tree commercial volume modeling, the best MLM were obtained using a diameter and height dependent resource space, with rRMSE ranging from 22.83% to 24.47%, being a support vector regression model with radial kernel function (sigma = 0.003, C = 128) the most accurate. The traditional generic logarithmic double-input models (Spurr and Schumacher-Hall) showed lower residual standard error but strong heteroscedasticity. The heteroscedasticity in MLM learned using a tree diameter and height dependent resource space appears to be less severe than that found in logarithmic response double entry models. Predictive modeling using machine learning techniques did not provide the expected improvement in the accuracy of commercial volume estimates of bark trees and above-ground biomass in natural uneven-aged forests. Nevertheless, the use of machine learning techniques seems to be quite promising for modeling biometric variables, as it has managed to match the traditional models that have been used in forest science for decades.171 p. : il. (algumas color.).application/pdfFlorestas - MediçãoBiomassa florestal - MediçãoArvores - MediçãoMineração de dados (Computação)AlgorítmosTesesRecursos Florestais e Engenharia FlorestalAprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - DEIVISON VENICIO SOUZA.pdfapplication/pdf16297768https://acervodigital.ufpr.br/bitstream/1884/74596/1/R%20-%20T%20-%20DEIVISON%20VENICIO%20SOUZA.pdfe0d702dafecc6a0f80f41acff600a295MD51open access1884/745962022-04-07 15:48:25.723open accessoai:acervodigital.ufpr.br:1884/74596Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-04-07T18:48:25Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
title Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
spellingShingle Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
Souza, Deivison Venicio, 1983-
Florestas - Medição
Biomassa florestal - Medição
Arvores - Medição
Mineração de dados (Computação)
Algorítmos
Teses
Recursos Florestais e Engenharia Florestal
title_short Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
title_full Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
title_fullStr Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
title_full_unstemmed Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
title_sort Aprendizado de máquina para predição de biomassa e volume comercial de árvores em florestas tropicais
author Souza, Deivison Venicio, 1983-
author_facet Souza, Deivison Venicio, 1983-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Nievola, Julio Cesar
Dalla Corte, Ana Paula, 1980-
Universidade Federal do Paraná. Setor de Ciências Agrárias. Programa de Pós-Graduação em Engenharia Florestal
dc.contributor.author.fl_str_mv Souza, Deivison Venicio, 1983-
dc.contributor.advisor1.fl_str_mv Sanquetta, Carlos Roberto, 1964-
contributor_str_mv Sanquetta, Carlos Roberto, 1964-
dc.subject.por.fl_str_mv Florestas - Medição
Biomassa florestal - Medição
Arvores - Medição
Mineração de dados (Computação)
Algorítmos
Teses
Recursos Florestais e Engenharia Florestal
topic Florestas - Medição
Biomassa florestal - Medição
Arvores - Medição
Mineração de dados (Computação)
Algorítmos
Teses
Recursos Florestais e Engenharia Florestal
description Orientador: Prof. Carlos Roberto Sanquetta
publishDate 2020
dc.date.issued.fl_str_mv 2020
dc.date.accessioned.fl_str_mv 2022-04-07T18:48:25Z
dc.date.available.fl_str_mv 2022-04-07T18:48:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/74596
url https://hdl.handle.net/1884/74596
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 171 p. : il. (algumas color.).
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/74596/1/R%20-%20T%20-%20DEIVISON%20VENICIO%20SOUZA.pdf
bitstream.checksum.fl_str_mv e0d702dafecc6a0f80f41acff600a295
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1813898860816236544