Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos

Detalhes bibliográficos
Autor(a) principal: Portela, Matheus Vieira
Data de Publicação: 2015
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Monografias da UnB
Texto Completo: http://bdm.unb.br/handle/10483/15302
Resumo: Monografia (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2015.
id UNB-2_a679f8172aa8a9d5d6cb2ead5d61947c
oai_identifier_str oai:bdm.unb.br:10483/15302
network_acronym_str UNB-2
network_name_str Biblioteca Digital de Monografias da UnB
repository_id_str 11571
spelling Portela, Matheus VieiraRamos, Guilherme NovaesPORTELA, Matheus Vieira. Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos. 2015. vi, 53 f., il. Monografia (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2015.http://bdm.unb.br/handle/10483/15302Monografia (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2015.Agentes inteligentes agem baseados nas suas medições sensoriais a fim de alcançar seus objetivos. Em ambientes dinâmicos, como sistemas multiagentes, agentes devem adaptar seus processos de seleção de ações de acordo com o estado do sistema mutável, uma vez que comportamentos anteriormente considerados adequados podem tornar-se sub-ótimos. Tal problema é ainda maior se o ambiente é estocástico, forçando os agentes a lidarem com incertezas. Esse trabalho propõe um algoritmo de aprendizado por reforço para sistemas multiagentes estocásticos, utilizando programação bayesiana para estimação de estados e Q-learning com aproximação de funções para prover aos agentes a capacidade de aprender a selecionar os comportamentos mais adequados. Experimentos indicam resultados positivos para a abordagem, onde agentes aprenderam a cooperar, de forma autônoma, em um jogo eletrônico estocástico multiagente.Submitted by Ruthlea Nascimento (ruthlea.nascimento@gmail.com) on 2016-12-21T18:50:44Z No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2015_MatheusVieiraPortela_tcc.pdf: 2863777 bytes, checksum: b266edeb7c12f523d801419e1a92f17d (MD5)Approved for entry into archive by Ruthlea Nascimento (ruthlea.nascimento@gmail.com) on 2016-12-22T20:08:59Z (GMT) No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2015_MatheusVieiraPortela_tcc.pdf: 2863777 bytes, checksum: b266edeb7c12f523d801419e1a92f17d (MD5)Made available in DSpace on 2016-12-22T20:08:59Z (GMT). No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2015_MatheusVieiraPortela_tcc.pdf: 2863777 bytes, checksum: b266edeb7c12f523d801419e1a92f17d (MD5)Intelligent agents act based on sensor measurements in order to fulfill their goals. When the environment is dynamic, such as a multiagent system, agents must adapt their action selection processes according to the changes in the system’s state, given that behaviors that previously were considered the best choice may becomes sub-optimal. This problem is even greater when the environment is stochastic, forcing the agents to deal with uncertainties. This work proposes a reinforcement learning algorithm for stochastic multiagent systems, using Bayesian programming for state estimation and Q-learning with function approximation to provide the agents with capabilities to select the most appropriate behaviors. The experiments indicate positive results for this approach, where agents autonomously learned to cooperate in a stochastic multiagent digital game.Sistema multiagenteInteligência artificialProgramação bayesianaRobóticaSeleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2016-12-22T20:08:59Z2016-12-22T20:08:59Z2015-12info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2015_MatheusVieiraPortela_tcc.pdf2015_MatheusVieiraPortela_tcc.pdfapplication/pdf2863777http://bdm.unb.br/xmlui/bitstream/10483/15302/1/2015_MatheusVieiraPortela_tcc.pdfb266edeb7c12f523d801419e1a92f17dMD51CC-LICENSElicense_urllicense_urltext/plain43http://bdm.unb.br/xmlui/bitstream/10483/15302/2/license_url321f3992dd3875151d8801b773ab32edMD52license_textlicense_textapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/15302/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/15302/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain1758http://bdm.unb.br/xmlui/bitstream/10483/15302/5/license.txt48fee5d355e169b5219b5efc5a9ad174MD5510483/153022016-12-22 18:08:59.468oai:bdm.unb.br:10483/15302w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYQpsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0KY29udGF0byBhdHJhdsOpcyBkZTogYmRtQGJjZS51bmIuYnIgb3UgMzEwNy0yNjg3LgoKTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCBvL2EgU3IuL1NyYS4gKGF1dG9yIG91IGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvcik6CgphKSBDb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlCnJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhYmFpeG8pLCBjb211bmljYXIgZS9vdQpkaXN0cmlidWlyIG8gZG9jdW1lbnRvIGVudHJlZ3VlIChpbmNsdWluZG8gbyByZXN1bW8vYWJzdHJhY3QpIGVtCmZvcm1hdG8gZGlnaXRhbCBvdSBpbXByZXNzbyBlIGVtIHF1YWxxdWVyIG1laW8uCgpiKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwsIGUgcXVlCmRldMOpbSBvIGRpcmVpdG8gZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEKdGFtYsOpbSBxdWUgYSBlbnRyZWdhIGRvIGRvY3VtZW50byBuw6NvIGluZnJpbmdlLCB0YW50byBxdWFudG8gbGhlIMOpCnBvc3PDrXZlbCBzYWJlciwgb3MgZGlyZWl0b3MgZGUgcXVhbHF1ZXIgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlLgoKYykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgY29udMOpbSBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zCmRpcmVpdG9zIGRlIGF1dG9yLCBkZWNsYXJhIHF1ZSBvYnRldmUgYXV0b3JpemHDp8OjbyBkbyBkZXRlbnRvciBkb3MKZGlyZWl0b3MgZGUgYXV0b3IgcGFyYSBjb25jZWRlciDDoCBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIG9zIGRpcmVpdG9zCnJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZQp0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdQpjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8KcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhLCBkZWNsYXJhIHF1ZQpjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91CmFjb3Jkby4KCkEgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBzZXUgKHMpIG5vbWUgKHMpCmNvbW8gbyAocykgYXV0b3IgKGVzKSBvdSBkZXRlbnRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8KZW50cmVndWUsIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgcGFyYSBhbMOpbSBkYXMgcGVybWl0aWRhcyBwb3IKZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712016-12-22T20:08:59Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
title Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
spellingShingle Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
Portela, Matheus Vieira
Sistema multiagente
Inteligência artificial
Programação bayesiana
Robótica
title_short Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
title_full Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
title_fullStr Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
title_full_unstemmed Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
title_sort Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
author Portela, Matheus Vieira
author_facet Portela, Matheus Vieira
author_role author
dc.contributor.author.fl_str_mv Portela, Matheus Vieira
dc.contributor.advisor1.fl_str_mv Ramos, Guilherme Novaes
contributor_str_mv Ramos, Guilherme Novaes
dc.subject.keyword.pt_BR.fl_str_mv Sistema multiagente
Inteligência artificial
Programação bayesiana
Robótica
topic Sistema multiagente
Inteligência artificial
Programação bayesiana
Robótica
description Monografia (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2015.
publishDate 2015
dc.date.submitted.none.fl_str_mv 2015-12
dc.date.accessioned.fl_str_mv 2016-12-22T20:08:59Z
dc.date.available.fl_str_mv 2016-12-22T20:08:59Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PORTELA, Matheus Vieira. Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos. 2015. vi, 53 f., il. Monografia (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2015.
dc.identifier.uri.fl_str_mv http://bdm.unb.br/handle/10483/15302
identifier_str_mv PORTELA, Matheus Vieira. Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos. 2015. vi, 53 f., il. Monografia (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2015.
url http://bdm.unb.br/handle/10483/15302
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Monografias da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Biblioteca Digital de Monografias da UnB
collection Biblioteca Digital de Monografias da UnB
bitstream.url.fl_str_mv http://bdm.unb.br/xmlui/bitstream/10483/15302/1/2015_MatheusVieiraPortela_tcc.pdf
http://bdm.unb.br/xmlui/bitstream/10483/15302/2/license_url
http://bdm.unb.br/xmlui/bitstream/10483/15302/3/license_text
http://bdm.unb.br/xmlui/bitstream/10483/15302/4/license_rdf
http://bdm.unb.br/xmlui/bitstream/10483/15302/5/license.txt
bitstream.checksum.fl_str_mv b266edeb7c12f523d801419e1a92f17d
321f3992dd3875151d8801b773ab32ed
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
48fee5d355e169b5219b5efc5a9ad174
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv bdm@bce.unb.br||patricia@bce.unb.br
_version_ 1813907906349760512