APRENDIZADO BAYESIANO PARA REDES NEURAIS

Detalhes bibliográficos
Autor(a) principal: EDISON AMERICO HUARSAYA TITO
Data de Publicação: 1999
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@2
Resumo: Esta dissertação investiga as Redes Neurais Bayesianas, que é uma nova abordagem que conjuga o potencial das redes neurais artificiais com a solidez analítica da estatística Bayesiana. Tipicamente, redes neurais convencionais como backpropagation, têm bom desempenho mas apresentam problemas de convergência, na ausência de dados suficientes de treinamento, ou problemas de mínimos locais, que trazem como conseqüência longo tempo de treinamento (esforço computacional) e possibilidades de sobre-treinamento (generalização ruim). Por essas razões, tem-se buscado desenvolver novos algoritmos de aprendizado para redes neurais baseados em princípios que pertencem a outras áreas da ciência como a Estatística, Lógica Nebulosa, Algoritmos Genéticos, etc. Neste sentido, este trabalho estuda e avalia um novo algoritmo de aprendizado baseado na estatística bayesiana, que consiste na utilização do mecanismo de interferência bayesiana no cálculo dos parâmetros (pesos) da rede neural. As principais etapas deste trabalho foram: o estudo das diferenças dos enfoques da estatística clássica e bayesiana sobre o aprendizado das redes neurais; o estudo dos métodos utilizados na inferência bayesiana; a avaliação das redes neurais Bayesianas (RNB) com aplicações Benchmarks; e por último, a avaliação das RNBs com aplicações reais. A diferença entre a estatística clássica e Bayesiana sobre o aprendizado das redes neurais esá na forma em que os parâmetros da rede são calculados. Por exemplo, o princípio de máxima verossimilhança quepertence à estatística clássica, na qual está baseada o algoritmo de backpropagation, se caracteriza por estimar um único vetor de parâmetros da rede neural. Por outro lado, a inferência Bayesiana se caracteriza por calcular uma função de densidade de probabilidade sobre todos os possíveis vetores de parâmetros que a rede neural pode possuir. Os métodos utilizados na inferência Bayesiana para calcular a função de densidade de probabilidade dos parâmetros. Neste trabalho se deu ênfase a dois métodos amplamente utilizados na estatística Bayesiana: o método de aproximação gaussiana e o método de MCMC (Markov Chain Monte Carlo), que mostraram sua efetividade com respeito ao problema da dimensão elevada do vetor de parâmetros. Para avaliar o desempenho destes algoritmos de aprendizado Bayesiano, foram feitos testes em aplicações benchmarks de previsão, classificação e aproximação de uma função. Também foram desenvolvidas aplicações reais de previsão de uma série temporal e carga elétrica e reconhecimento de face onde se avaliou o desempenho destes algoritmos. Além disso, foram feitas comparações entre estes algoritmos de aprendizado Bayesiano com o backpropagation, sistemas neuro fuzzy hierárquicos e outras técnicas estatísticas tais como Box&Jenkins e Holt-Winters. Com este trabalho, verificou-se que entre as vantagens dos algoritmos de aprendizado Bayesiano tem-se: a de minimizar o problema de sobre-treinamento (overfitting); controlar a complexidade do modelo (princípio de Occam’s razor) e ter boa generalização com poucos dados de treinamento.
id PUC_RIO-1_4624b3900f55363cffd586979deb7a90
oai_identifier_str oai:MAXWELL.puc-rio.br:14538
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisAPRENDIZADO BAYESIANO PARA REDES NEURAIS BAYESIAN LEARNING FOR NEURAL NETWORKS 1999-03-05MARLEY MARIA BERNARDES REBUZZI VELLASCO75758385700lattes.cnpq.br/8265116967095452MARCO AURELIO CAVALCANTI PACHECO27235831715lattes.cnpq.br/2283022405554044MARLEY MARIA BERNARDES REBUZZI VELLASCOREINALDO CASTRO SOUZAREINALDO CASTRO SOUZAMARCO AURELIO CAVALCANTI PACHECOMARCO AURELIO CAVALCANTI PACHECOEDISON AMERICO HUARSAYA TITOPONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROPPG EM ENGENHARIA ELÉTRICAPUC-RioBREsta dissertação investiga as Redes Neurais Bayesianas, que é uma nova abordagem que conjuga o potencial das redes neurais artificiais com a solidez analítica da estatística Bayesiana. Tipicamente, redes neurais convencionais como backpropagation, têm bom desempenho mas apresentam problemas de convergência, na ausência de dados suficientes de treinamento, ou problemas de mínimos locais, que trazem como conseqüência longo tempo de treinamento (esforço computacional) e possibilidades de sobre-treinamento (generalização ruim). Por essas razões, tem-se buscado desenvolver novos algoritmos de aprendizado para redes neurais baseados em princípios que pertencem a outras áreas da ciência como a Estatística, Lógica Nebulosa, Algoritmos Genéticos, etc. Neste sentido, este trabalho estuda e avalia um novo algoritmo de aprendizado baseado na estatística bayesiana, que consiste na utilização do mecanismo de interferência bayesiana no cálculo dos parâmetros (pesos) da rede neural. As principais etapas deste trabalho foram: o estudo das diferenças dos enfoques da estatística clássica e bayesiana sobre o aprendizado das redes neurais; o estudo dos métodos utilizados na inferência bayesiana; a avaliação das redes neurais Bayesianas (RNB) com aplicações Benchmarks; e por último, a avaliação das RNBs com aplicações reais. A diferença entre a estatística clássica e Bayesiana sobre o aprendizado das redes neurais esá na forma em que os parâmetros da rede são calculados. Por exemplo, o princípio de máxima verossimilhança quepertence à estatística clássica, na qual está baseada o algoritmo de backpropagation, se caracteriza por estimar um único vetor de parâmetros da rede neural. Por outro lado, a inferência Bayesiana se caracteriza por calcular uma função de densidade de probabilidade sobre todos os possíveis vetores de parâmetros que a rede neural pode possuir. Os métodos utilizados na inferência Bayesiana para calcular a função de densidade de probabilidade dos parâmetros. Neste trabalho se deu ênfase a dois métodos amplamente utilizados na estatística Bayesiana: o método de aproximação gaussiana e o método de MCMC (Markov Chain Monte Carlo), que mostraram sua efetividade com respeito ao problema da dimensão elevada do vetor de parâmetros. Para avaliar o desempenho destes algoritmos de aprendizado Bayesiano, foram feitos testes em aplicações benchmarks de previsão, classificação e aproximação de uma função. Também foram desenvolvidas aplicações reais de previsão de uma série temporal e carga elétrica e reconhecimento de face onde se avaliou o desempenho destes algoritmos. Além disso, foram feitas comparações entre estes algoritmos de aprendizado Bayesiano com o backpropagation, sistemas neuro fuzzy hierárquicos e outras técnicas estatísticas tais como Box&Jenkins e Holt-Winters. Com este trabalho, verificou-se que entre as vantagens dos algoritmos de aprendizado Bayesiano tem-se: a de minimizar o problema de sobre-treinamento (overfitting); controlar a complexidade do modelo (princípio de Occam’s razor) e ter boa generalização com poucos dados de treinamento.This dissertation investigates the Bayesianan Neural Networks, which is a new approach that merges the potencial of the artificial neural networks with the robust analytical analysis of the Bayesian Statistic. Typically, theconventional neural networks such as backpropagation, have good performance but presents problems of convergence, when enough data for training is not available, or due to problems of local minimum, which result in long training time and overfitting. For these reasons, researchers are investigating new learning algorithm for neural networks based on principle that belong to other area of science like Statistics, Fuzzy logic, Genetic Algorithms, etc. This dissertation studies and evaluates a new learning algorithm based on the Bayesian Statistics, that consists in the use of the Bayesian mechanical inference to calculate the value of the parameters of neural networks. The main steps of this research are: the study of the difference between the approach of the classical statistics and the approach of the Bayesian statistics regarding the process of learning in neural networks (RNB) with Benchmarks applications; and the evaluation of RNBs with real applications. The main differences between the classical and Bayesian statistics in regard to the learning on neural networks are in the form of calculation of the parameters. For example, the principle of maximum likelihood that belongs to classical statistics, in which the backpropagation algorithms, it is characterized for calculate only on vector of parameters of neural networks. However, the Bayesian inference, it is characterized for calculate a probabilistic density function of the parameters of neural networks are approximations or numerical methods, because the correct analytical treatment is difficult due to the high dimensions of the vector parameter. This dissertation gives especial emphasis to two methods: the Gaussian approximation and the Markov Chain Monte Carlo method (MCMC). To evaluate the performance of these Bayesian learning algorithms, a number of test has been done in application benchmarks of time series forecasting, classification and approximation of functions. Also, have been developed real applications on time serie forecasting of electrical and face recognition. Moreover, comparations have been made between the Bayesian learning algorithms with backpropagation, neuro fuzzy systems and other statistical techniques like a Box&Jenkins and Holt-Winters. This dissertation has shown that the advantages of the Bayesian learning algorithms are the minimization of the overfitting, control of the model complexity (principle of Occam’s razor)and good generalization with a few data for training. CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICOhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@2porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-01T13:05:56Zoai:MAXWELL.puc-rio.br:14538Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342017-09-14T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.pt.fl_str_mv APRENDIZADO BAYESIANO PARA REDES NEURAIS
dc.title.alternative.en.fl_str_mv BAYESIAN LEARNING FOR NEURAL NETWORKS
title APRENDIZADO BAYESIANO PARA REDES NEURAIS
spellingShingle APRENDIZADO BAYESIANO PARA REDES NEURAIS
EDISON AMERICO HUARSAYA TITO
title_short APRENDIZADO BAYESIANO PARA REDES NEURAIS
title_full APRENDIZADO BAYESIANO PARA REDES NEURAIS
title_fullStr APRENDIZADO BAYESIANO PARA REDES NEURAIS
title_full_unstemmed APRENDIZADO BAYESIANO PARA REDES NEURAIS
title_sort APRENDIZADO BAYESIANO PARA REDES NEURAIS
dc.creator.ID.none.fl_str_mv
dc.creator.Lattes.none.fl_str_mv
author EDISON AMERICO HUARSAYA TITO
author_facet EDISON AMERICO HUARSAYA TITO
author_role author
dc.contributor.advisor2ID.none.fl_str_mv 27235831715
dc.contributor.advisor1.fl_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
dc.contributor.advisor1ID.fl_str_mv 75758385700
dc.contributor.advisor1Lattes.fl_str_mv lattes.cnpq.br/8265116967095452
dc.contributor.advisor2.fl_str_mv MARCO AURELIO CAVALCANTI PACHECO
dc.contributor.advisor2Lattes.fl_str_mv lattes.cnpq.br/2283022405554044
dc.contributor.referee1.fl_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
dc.contributor.referee2.fl_str_mv REINALDO CASTRO SOUZA
dc.contributor.referee3.fl_str_mv REINALDO CASTRO SOUZA
dc.contributor.referee4.fl_str_mv MARCO AURELIO CAVALCANTI PACHECO
dc.contributor.referee5.fl_str_mv MARCO AURELIO CAVALCANTI PACHECO
dc.contributor.author.fl_str_mv EDISON AMERICO HUARSAYA TITO
contributor_str_mv MARLEY MARIA BERNARDES REBUZZI VELLASCO
MARCO AURELIO CAVALCANTI PACHECO
MARLEY MARIA BERNARDES REBUZZI VELLASCO
REINALDO CASTRO SOUZA
REINALDO CASTRO SOUZA
MARCO AURELIO CAVALCANTI PACHECO
MARCO AURELIO CAVALCANTI PACHECO
description Esta dissertação investiga as Redes Neurais Bayesianas, que é uma nova abordagem que conjuga o potencial das redes neurais artificiais com a solidez analítica da estatística Bayesiana. Tipicamente, redes neurais convencionais como backpropagation, têm bom desempenho mas apresentam problemas de convergência, na ausência de dados suficientes de treinamento, ou problemas de mínimos locais, que trazem como conseqüência longo tempo de treinamento (esforço computacional) e possibilidades de sobre-treinamento (generalização ruim). Por essas razões, tem-se buscado desenvolver novos algoritmos de aprendizado para redes neurais baseados em princípios que pertencem a outras áreas da ciência como a Estatística, Lógica Nebulosa, Algoritmos Genéticos, etc. Neste sentido, este trabalho estuda e avalia um novo algoritmo de aprendizado baseado na estatística bayesiana, que consiste na utilização do mecanismo de interferência bayesiana no cálculo dos parâmetros (pesos) da rede neural. As principais etapas deste trabalho foram: o estudo das diferenças dos enfoques da estatística clássica e bayesiana sobre o aprendizado das redes neurais; o estudo dos métodos utilizados na inferência bayesiana; a avaliação das redes neurais Bayesianas (RNB) com aplicações Benchmarks; e por último, a avaliação das RNBs com aplicações reais. A diferença entre a estatística clássica e Bayesiana sobre o aprendizado das redes neurais esá na forma em que os parâmetros da rede são calculados. Por exemplo, o princípio de máxima verossimilhança quepertence à estatística clássica, na qual está baseada o algoritmo de backpropagation, se caracteriza por estimar um único vetor de parâmetros da rede neural. Por outro lado, a inferência Bayesiana se caracteriza por calcular uma função de densidade de probabilidade sobre todos os possíveis vetores de parâmetros que a rede neural pode possuir. Os métodos utilizados na inferência Bayesiana para calcular a função de densidade de probabilidade dos parâmetros. Neste trabalho se deu ênfase a dois métodos amplamente utilizados na estatística Bayesiana: o método de aproximação gaussiana e o método de MCMC (Markov Chain Monte Carlo), que mostraram sua efetividade com respeito ao problema da dimensão elevada do vetor de parâmetros. Para avaliar o desempenho destes algoritmos de aprendizado Bayesiano, foram feitos testes em aplicações benchmarks de previsão, classificação e aproximação de uma função. Também foram desenvolvidas aplicações reais de previsão de uma série temporal e carga elétrica e reconhecimento de face onde se avaliou o desempenho destes algoritmos. Além disso, foram feitas comparações entre estes algoritmos de aprendizado Bayesiano com o backpropagation, sistemas neuro fuzzy hierárquicos e outras técnicas estatísticas tais como Box&Jenkins e Holt-Winters. Com este trabalho, verificou-se que entre as vantagens dos algoritmos de aprendizado Bayesiano tem-se: a de minimizar o problema de sobre-treinamento (overfitting); controlar a complexidade do modelo (princípio de Occam’s razor) e ter boa generalização com poucos dados de treinamento.
publishDate 1999
dc.date.issued.fl_str_mv 1999-03-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@2
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=14538@2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.publisher.program.fl_str_mv PPG EM ENGENHARIA ELÉTRICA
dc.publisher.initials.fl_str_mv PUC-Rio
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1748324903442972672