Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Monografias da UnB |
Texto Completo: | http://bdm.unb.br/handle/10483/15302 |
Resumo: | Monografia (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2015. |
id |
UNB-2_a679f8172aa8a9d5d6cb2ead5d61947c |
---|---|
oai_identifier_str |
oai:bdm.unb.br:10483/15302 |
network_acronym_str |
UNB-2 |
network_name_str |
Biblioteca Digital de Monografias da UnB |
repository_id_str |
11571 |
spelling |
Portela, Matheus VieiraRamos, Guilherme NovaesPORTELA, Matheus Vieira. Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos. 2015. vi, 53 f., il. Monografia (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2015.http://bdm.unb.br/handle/10483/15302Monografia (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2015.Agentes inteligentes agem baseados nas suas medições sensoriais a fim de alcançar seus objetivos. Em ambientes dinâmicos, como sistemas multiagentes, agentes devem adaptar seus processos de seleção de ações de acordo com o estado do sistema mutável, uma vez que comportamentos anteriormente considerados adequados podem tornar-se sub-ótimos. Tal problema é ainda maior se o ambiente é estocástico, forçando os agentes a lidarem com incertezas. Esse trabalho propõe um algoritmo de aprendizado por reforço para sistemas multiagentes estocásticos, utilizando programação bayesiana para estimação de estados e Q-learning com aproximação de funções para prover aos agentes a capacidade de aprender a selecionar os comportamentos mais adequados. Experimentos indicam resultados positivos para a abordagem, onde agentes aprenderam a cooperar, de forma autônoma, em um jogo eletrônico estocástico multiagente.Submitted by Ruthlea Nascimento (ruthlea.nascimento@gmail.com) on 2016-12-21T18:50:44Z No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2015_MatheusVieiraPortela_tcc.pdf: 2863777 bytes, checksum: b266edeb7c12f523d801419e1a92f17d (MD5)Approved for entry into archive by Ruthlea Nascimento (ruthlea.nascimento@gmail.com) on 2016-12-22T20:08:59Z (GMT) No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2015_MatheusVieiraPortela_tcc.pdf: 2863777 bytes, checksum: b266edeb7c12f523d801419e1a92f17d (MD5)Made available in DSpace on 2016-12-22T20:08:59Z (GMT). No. of bitstreams: 3 license_text: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) 2015_MatheusVieiraPortela_tcc.pdf: 2863777 bytes, checksum: b266edeb7c12f523d801419e1a92f17d (MD5)Intelligent agents act based on sensor measurements in order to fulfill their goals. When the environment is dynamic, such as a multiagent system, agents must adapt their action selection processes according to the changes in the system’s state, given that behaviors that previously were considered the best choice may becomes sub-optimal. This problem is even greater when the environment is stochastic, forcing the agents to deal with uncertainties. This work proposes a reinforcement learning algorithm for stochastic multiagent systems, using Bayesian programming for state estimation and Q-learning with function approximation to provide the agents with capabilities to select the most appropriate behaviors. The experiments indicate positive results for this approach, where agents autonomously learned to cooperate in a stochastic multiagent digital game.Sistema multiagenteInteligência artificialProgramação bayesianaRobóticaSeleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2016-12-22T20:08:59Z2016-12-22T20:08:59Z2015-12info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2015_MatheusVieiraPortela_tcc.pdf2015_MatheusVieiraPortela_tcc.pdfapplication/pdf2863777http://bdm.unb.br/xmlui/bitstream/10483/15302/1/2015_MatheusVieiraPortela_tcc.pdfb266edeb7c12f523d801419e1a92f17dMD51CC-LICENSElicense_urllicense_urltext/plain43http://bdm.unb.br/xmlui/bitstream/10483/15302/2/license_url321f3992dd3875151d8801b773ab32edMD52license_textlicense_textapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/15302/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/15302/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain1758http://bdm.unb.br/xmlui/bitstream/10483/15302/5/license.txt48fee5d355e169b5219b5efc5a9ad174MD5510483/153022016-12-22 18:08:59.468oai:bdm.unb.br:10483/15302w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYQpsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0KY29udGF0byBhdHJhdsOpcyBkZTogYmRtQGJjZS51bmIuYnIgb3UgMzEwNy0yNjg3LgoKTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCBvL2EgU3IuL1NyYS4gKGF1dG9yIG91IGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvcik6CgphKSBDb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlCnJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhYmFpeG8pLCBjb211bmljYXIgZS9vdQpkaXN0cmlidWlyIG8gZG9jdW1lbnRvIGVudHJlZ3VlIChpbmNsdWluZG8gbyByZXN1bW8vYWJzdHJhY3QpIGVtCmZvcm1hdG8gZGlnaXRhbCBvdSBpbXByZXNzbyBlIGVtIHF1YWxxdWVyIG1laW8uCgpiKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwsIGUgcXVlCmRldMOpbSBvIGRpcmVpdG8gZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEKdGFtYsOpbSBxdWUgYSBlbnRyZWdhIGRvIGRvY3VtZW50byBuw6NvIGluZnJpbmdlLCB0YW50byBxdWFudG8gbGhlIMOpCnBvc3PDrXZlbCBzYWJlciwgb3MgZGlyZWl0b3MgZGUgcXVhbHF1ZXIgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlLgoKYykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgY29udMOpbSBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zCmRpcmVpdG9zIGRlIGF1dG9yLCBkZWNsYXJhIHF1ZSBvYnRldmUgYXV0b3JpemHDp8OjbyBkbyBkZXRlbnRvciBkb3MKZGlyZWl0b3MgZGUgYXV0b3IgcGFyYSBjb25jZWRlciDDoCBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIG9zIGRpcmVpdG9zCnJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZQp0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdQpjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8KcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhLCBkZWNsYXJhIHF1ZQpjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91CmFjb3Jkby4KCkEgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBzZXUgKHMpIG5vbWUgKHMpCmNvbW8gbyAocykgYXV0b3IgKGVzKSBvdSBkZXRlbnRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8KZW50cmVndWUsIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgcGFyYSBhbMOpbSBkYXMgcGVybWl0aWRhcyBwb3IKZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712016-12-22T20:08:59Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false |
dc.title.pt_BR.fl_str_mv |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos |
title |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos |
spellingShingle |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos Portela, Matheus Vieira Sistema multiagente Inteligência artificial Programação bayesiana Robótica |
title_short |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos |
title_full |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos |
title_fullStr |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos |
title_full_unstemmed |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos |
title_sort |
Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos |
author |
Portela, Matheus Vieira |
author_facet |
Portela, Matheus Vieira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Portela, Matheus Vieira |
dc.contributor.advisor1.fl_str_mv |
Ramos, Guilherme Novaes |
contributor_str_mv |
Ramos, Guilherme Novaes |
dc.subject.keyword.pt_BR.fl_str_mv |
Sistema multiagente Inteligência artificial Programação bayesiana Robótica |
topic |
Sistema multiagente Inteligência artificial Programação bayesiana Robótica |
description |
Monografia (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2015. |
publishDate |
2015 |
dc.date.submitted.none.fl_str_mv |
2015-12 |
dc.date.accessioned.fl_str_mv |
2016-12-22T20:08:59Z |
dc.date.available.fl_str_mv |
2016-12-22T20:08:59Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PORTELA, Matheus Vieira. Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos. 2015. vi, 53 f., il. Monografia (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2015. |
dc.identifier.uri.fl_str_mv |
http://bdm.unb.br/handle/10483/15302 |
identifier_str_mv |
PORTELA, Matheus Vieira. Seleção de comportamentos em múltiplos agentes autônomos com aprendizagem por reforço em ambientes estocásticos. 2015. vi, 53 f., il. Monografia (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2015. |
url |
http://bdm.unb.br/handle/10483/15302 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Monografias da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Biblioteca Digital de Monografias da UnB |
collection |
Biblioteca Digital de Monografias da UnB |
bitstream.url.fl_str_mv |
http://bdm.unb.br/xmlui/bitstream/10483/15302/1/2015_MatheusVieiraPortela_tcc.pdf http://bdm.unb.br/xmlui/bitstream/10483/15302/2/license_url http://bdm.unb.br/xmlui/bitstream/10483/15302/3/license_text http://bdm.unb.br/xmlui/bitstream/10483/15302/4/license_rdf http://bdm.unb.br/xmlui/bitstream/10483/15302/5/license.txt |
bitstream.checksum.fl_str_mv |
b266edeb7c12f523d801419e1a92f17d 321f3992dd3875151d8801b773ab32ed d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e 48fee5d355e169b5219b5efc5a9ad174 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
bdm@bce.unb.br||patricia@bce.unb.br |
_version_ |
1813907906349760512 |