Reamostragem em redes neurais com aplicação a dados espaciais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFU |
Texto Completo: | https://repositorio.ufu.br/handle/123456789/33033 http://doi.org/10.14393/ufu.di.2021.507 |
Resumo: | In the development of artificial neural networks (ANN), the available dataset is divided into three categories: training, validation and testing. However, an important problem arises here: how can we trust the prediction provided by a single ANN? Due to the randomness related to the ANN itself (architecture, initialization and training procedure), usually, there is no better choice. To capture the intrinsic randomness of RNA, we present an approach based on the Jackknife method of statistical resampling. The classic Jackknife consists in removing an observation from the available dataset (n) and using the (n – 1) remaining samples in the estimation process. This process is repeated for each individual observation. At the end, there will be n estimates from different samples. In the case of neural networks, each individual observation is selected to compose the test set, while the rest of the sample is destined for network training. In this case, the number of neural networks is equal to the size of the available data. However, we extend the idea by replicating this procedure a certain number of times. Therefore, due to the random characteristic of the neural network, predictions vary for the same sampling point. Therefore, due to the random characteristic of the neural network, predictions vary for the same sampling point. Consequently, we can describe the distribution of each individual prediction. Therefore, the proposed method provides interval predictions instead of the traditional point prediction. The proposed method was applied and tested using hydrogen potential (pH), exchangeable calcium (Ca2+) and phosphorus concentration (P) data obtained through the analysis of 118 georeferenced soil points. The results showed that the 60% reduction in the available dataset offers compatible accuracy compared to the full dataset and, therefore, a higher cost of sampling in the field would not be necessary. The resampling method spatially characterizes the points of greater and lesser accuracy and uncertainty. In external validation, i.e., analyzing data that did not participate in the resampling, we observed that the success rate is higher when using interval prediction rather than using average prediction. Although we restrict it to the neural network model, the proposed method can also be extended to other modern statistics tools, such as Kriging, Least Squares Collocation, and so on. |
id |
UFU_bab688e078b6959f9f70e94750e2d002 |
---|---|
oai_identifier_str |
oai:repositorio.ufu.br:123456789/33033 |
network_acronym_str |
UFU |
network_name_str |
Repositório Institucional da UFU |
repository_id_str |
|
spelling |
Reamostragem em redes neurais com aplicação a dados espaciaisResampling in neural networks with application to spatial analysisRedes Neurais ArtificiaisReamostragemDelete-1 JackknifeAnálise EspacialSoloAgronomiaCNPQ::CIENCIAS EXATAS E DA TERRAIn the development of artificial neural networks (ANN), the available dataset is divided into three categories: training, validation and testing. However, an important problem arises here: how can we trust the prediction provided by a single ANN? Due to the randomness related to the ANN itself (architecture, initialization and training procedure), usually, there is no better choice. To capture the intrinsic randomness of RNA, we present an approach based on the Jackknife method of statistical resampling. The classic Jackknife consists in removing an observation from the available dataset (n) and using the (n – 1) remaining samples in the estimation process. This process is repeated for each individual observation. At the end, there will be n estimates from different samples. In the case of neural networks, each individual observation is selected to compose the test set, while the rest of the sample is destined for network training. In this case, the number of neural networks is equal to the size of the available data. However, we extend the idea by replicating this procedure a certain number of times. Therefore, due to the random characteristic of the neural network, predictions vary for the same sampling point. Therefore, due to the random characteristic of the neural network, predictions vary for the same sampling point. Consequently, we can describe the distribution of each individual prediction. Therefore, the proposed method provides interval predictions instead of the traditional point prediction. The proposed method was applied and tested using hydrogen potential (pH), exchangeable calcium (Ca2+) and phosphorus concentration (P) data obtained through the analysis of 118 georeferenced soil points. The results showed that the 60% reduction in the available dataset offers compatible accuracy compared to the full dataset and, therefore, a higher cost of sampling in the field would not be necessary. The resampling method spatially characterizes the points of greater and lesser accuracy and uncertainty. In external validation, i.e., analyzing data that did not participate in the resampling, we observed that the success rate is higher when using interval prediction rather than using average prediction. Although we restrict it to the neural network model, the proposed method can also be extended to other modern statistics tools, such as Kriging, Least Squares Collocation, and so on.Dissertação (Mestrado)No desenvolvimento de redes neurais artificiais (RNA) o conjunto de dados disponível é dividido em três categorias: treinamento, validação e teste. No entanto, surge aqui um problema importante: como podemos confiar na predição fornecida por uma única RNA? Devido à aleatoriedade relacionada à própria RNA (arquitetura, inicialização e procedimento de treinamento), geralmente, não existe a melhor escolha. Para capturar a aleatoriedade intrínseca à RNA, apresentamos uma abordagem baseada no método Jackknife de reamostragem estatística. O Jackknife clássico consiste em remover uma observação do conjunto de dados disponíveis (n) e usar as (n – 1) amostras restantes no processo de estimação. Este processo é repetido para cada observação individual. Ao final, ter-se-á n estimativas advindas de amostras diferentes. No caso de redes neurais, cada observação individual é selecionada para compor o conjunto de teste, enquanto o restante da amostra é destinado para o treinamento da rede. Nesse caso, o número de redes neurais é igual ao tamanho dos dados disponíveis. Entretanto, estendemos a ideia ao replicar esse procedimento por um certo número de vezes. Logo, devido à característica aleatória da rede neural, as predições variam para um mesmo ponto amostral. Consequentemente, podemos descrever a distribuição de cada predição individual. Portanto, o método proposto fornece predições intervalares ao invés da tradicional predição pontual. O método proposto foi aplicado e testado utilizando dados de potencial de hidrogênio (pH), cálcio trocável (Ca2+) e concentração de fósforo (P) obtidos por meio da análise de 118 pontos de solos georreferenciados. Os resultados mostraram que a redução de 60% no conjunto de dados disponível oferece acurácia compatível em relação ao conjunto de dados completo e, portanto, um custo maior de amostragem em campo não seria necessário. O método de reamostragem caracteriza espacialmente os pontos de maior e menor acurácia e incerteza. Na avaliação externa, ou seja, na análise de dados que não participaram da reamostragem, observamos que a taxa de sucesso é maior quando usamos a predição intervalar em vez de usar a predição média. Embora restrinjamos a aplicação em redes neurais, o método proposto pode ser estendido a outras ferramentas estatísticas modernas, tais como Krigagem, Colocação por Mínimos Quadrados, entre outros.Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em Agricultura e Informações GeoespaciaisRofatto, Vinicius Franciscohttp://lattes.cnpq.br/2034859873081330Matsuoka, Marcelo Tomiohttp://lattes.cnpq.br/5253571490697285Matsuoka, Marcelo Tomiohttp://lattes.cnpq.br/5253571490697285Costa, Enio Tarso de Souzahttp://lattes.cnpq.br/7276032323554977Pereira, Vinícius Amadeu Stuanihttp://lattes.cnpq.br/3206540313926848Rodrigues, Bruno Póvoa2021-11-01T14:41:50Z2021-11-01T14:41:50Z2021-08-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfRODRIGUES, Bruno Póvoa. Reamostragem em redes neurais com aplicação a dados espaciais. 2021. 27 f. Dissertação (Mestrado em Agricultura e Informações Geoespaciais) - Universidade Federal de Uberlândia, Monte Carmelo, 2021. Disponível em: http://doi.org/10.14393/ufu.di.2021.507.https://repositorio.ufu.br/handle/123456789/33033http://doi.org/10.14393/ufu.di.2021.507porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2021-11-02T06:29:25Zoai:repositorio.ufu.br:123456789/33033Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2021-11-02T06:29:25Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
dc.title.none.fl_str_mv |
Reamostragem em redes neurais com aplicação a dados espaciais Resampling in neural networks with application to spatial analysis |
title |
Reamostragem em redes neurais com aplicação a dados espaciais |
spellingShingle |
Reamostragem em redes neurais com aplicação a dados espaciais Rodrigues, Bruno Póvoa Redes Neurais Artificiais Reamostragem Delete-1 Jackknife Análise Espacial Solo Agronomia CNPQ::CIENCIAS EXATAS E DA TERRA |
title_short |
Reamostragem em redes neurais com aplicação a dados espaciais |
title_full |
Reamostragem em redes neurais com aplicação a dados espaciais |
title_fullStr |
Reamostragem em redes neurais com aplicação a dados espaciais |
title_full_unstemmed |
Reamostragem em redes neurais com aplicação a dados espaciais |
title_sort |
Reamostragem em redes neurais com aplicação a dados espaciais |
author |
Rodrigues, Bruno Póvoa |
author_facet |
Rodrigues, Bruno Póvoa |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rofatto, Vinicius Francisco http://lattes.cnpq.br/2034859873081330 Matsuoka, Marcelo Tomio http://lattes.cnpq.br/5253571490697285 Matsuoka, Marcelo Tomio http://lattes.cnpq.br/5253571490697285 Costa, Enio Tarso de Souza http://lattes.cnpq.br/7276032323554977 Pereira, Vinícius Amadeu Stuani http://lattes.cnpq.br/3206540313926848 |
dc.contributor.author.fl_str_mv |
Rodrigues, Bruno Póvoa |
dc.subject.por.fl_str_mv |
Redes Neurais Artificiais Reamostragem Delete-1 Jackknife Análise Espacial Solo Agronomia CNPQ::CIENCIAS EXATAS E DA TERRA |
topic |
Redes Neurais Artificiais Reamostragem Delete-1 Jackknife Análise Espacial Solo Agronomia CNPQ::CIENCIAS EXATAS E DA TERRA |
description |
In the development of artificial neural networks (ANN), the available dataset is divided into three categories: training, validation and testing. However, an important problem arises here: how can we trust the prediction provided by a single ANN? Due to the randomness related to the ANN itself (architecture, initialization and training procedure), usually, there is no better choice. To capture the intrinsic randomness of RNA, we present an approach based on the Jackknife method of statistical resampling. The classic Jackknife consists in removing an observation from the available dataset (n) and using the (n – 1) remaining samples in the estimation process. This process is repeated for each individual observation. At the end, there will be n estimates from different samples. In the case of neural networks, each individual observation is selected to compose the test set, while the rest of the sample is destined for network training. In this case, the number of neural networks is equal to the size of the available data. However, we extend the idea by replicating this procedure a certain number of times. Therefore, due to the random characteristic of the neural network, predictions vary for the same sampling point. Therefore, due to the random characteristic of the neural network, predictions vary for the same sampling point. Consequently, we can describe the distribution of each individual prediction. Therefore, the proposed method provides interval predictions instead of the traditional point prediction. The proposed method was applied and tested using hydrogen potential (pH), exchangeable calcium (Ca2+) and phosphorus concentration (P) data obtained through the analysis of 118 georeferenced soil points. The results showed that the 60% reduction in the available dataset offers compatible accuracy compared to the full dataset and, therefore, a higher cost of sampling in the field would not be necessary. The resampling method spatially characterizes the points of greater and lesser accuracy and uncertainty. In external validation, i.e., analyzing data that did not participate in the resampling, we observed that the success rate is higher when using interval prediction rather than using average prediction. Although we restrict it to the neural network model, the proposed method can also be extended to other modern statistics tools, such as Kriging, Least Squares Collocation, and so on. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-11-01T14:41:50Z 2021-11-01T14:41:50Z 2021-08-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
RODRIGUES, Bruno Póvoa. Reamostragem em redes neurais com aplicação a dados espaciais. 2021. 27 f. Dissertação (Mestrado em Agricultura e Informações Geoespaciais) - Universidade Federal de Uberlândia, Monte Carmelo, 2021. Disponível em: http://doi.org/10.14393/ufu.di.2021.507. https://repositorio.ufu.br/handle/123456789/33033 http://doi.org/10.14393/ufu.di.2021.507 |
identifier_str_mv |
RODRIGUES, Bruno Póvoa. Reamostragem em redes neurais com aplicação a dados espaciais. 2021. 27 f. Dissertação (Mestrado em Agricultura e Informações Geoespaciais) - Universidade Federal de Uberlândia, Monte Carmelo, 2021. Disponível em: http://doi.org/10.14393/ufu.di.2021.507. |
url |
https://repositorio.ufu.br/handle/123456789/33033 http://doi.org/10.14393/ufu.di.2021.507 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Agricultura e Informações Geoespaciais |
publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Agricultura e Informações Geoespaciais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Repositório Institucional da UFU |
collection |
Repositório Institucional da UFU |
repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
_version_ |
1805569670592331776 |