Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/40293 |
Resumo: | A sociedade vem passando por mudanças radicais nas últimas décadas. Cada vez mais, aparelhos inteligentes surgem no nosso dia-a-dia com o intuito de nos trazer comodidades. Empresas que atuam em diversas áreas de mercado tem investido cada vez mais em algoritmos de inteligência artificial. Apesar dos enormes avanços da última década, os algoritmos mais modernos ainda estão longe de construir, generalizar e inferir conhecimentos como humanos. Essas limitações por muitas vezes limitam o escopo que esses algoritmos podem atuar e trazem vulnerabilidades neles. Para que máquinas possam realmente estar presentes nos mais diversos ambientes do cotidiano elas precisam aprender a interagir com o mundo e se adaptar a ele. Robôs inteligentes são agentes que conseguem inferir conhecimentos a partir das observações retiradas do seu ambiente que garantam a autonomia do robô em executar a tarefa. O controle do robô do seu próprio corpo de forma adequada é uma característica fundamental, que deve ser aprendida por qualquer agente que precise atuar em um ambiente. Um agente com essas características pode ser aplicado em diversas tarefas. Esta dissertação utiliza aprendizagem de máquina, prioritariamente com o paradigma de aprendizagem por reforço, para estudar como agentes se comportam em ambientes dinâmicos e complexos para realizar uma tarefa comum a todos. O intuito é, posteriormente, aplicar a melhor técnica estudada em robôs reais e participar de uma competição real para avaliar o desempenho da estratégia aprendida. Este trabalho visa investigar e contribuir para o avanço da área de aprendizagem de comportamentos para o mundo real, construindo um ambiente de aprendizagem por reforço fiel à realidade e analisando sempre o tradeoff entre dificuldade de simulação e velocidade de aprendizagem. Utilizando o ambiente criado treinar agentes simulados capazes de performar bem no jogo de futebol de robôs e conseguir transferir o comportamento aprendido para um robô real de forma que seu comportamento fique fiel ao aprendido em simulação. |
id |
UFPE_69ed5c838d22fcb6a0b7c9014c36c0f5 |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/40293 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
DELGADO, Reniê de Azevedohttp://lattes.cnpq.br/5191253800525921http://lattes.cnpq.br/1931667959910637BASSANI, Hansenclever de França2021-06-09T19:49:48Z2021-06-09T19:49:48Z2019-08-30DELGADO, Reniê de Azevedo. Aprendizagem de comportamentos em robôs através de aprendizagem por reforço. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.https://repositorio.ufpe.br/handle/123456789/40293A sociedade vem passando por mudanças radicais nas últimas décadas. Cada vez mais, aparelhos inteligentes surgem no nosso dia-a-dia com o intuito de nos trazer comodidades. Empresas que atuam em diversas áreas de mercado tem investido cada vez mais em algoritmos de inteligência artificial. Apesar dos enormes avanços da última década, os algoritmos mais modernos ainda estão longe de construir, generalizar e inferir conhecimentos como humanos. Essas limitações por muitas vezes limitam o escopo que esses algoritmos podem atuar e trazem vulnerabilidades neles. Para que máquinas possam realmente estar presentes nos mais diversos ambientes do cotidiano elas precisam aprender a interagir com o mundo e se adaptar a ele. Robôs inteligentes são agentes que conseguem inferir conhecimentos a partir das observações retiradas do seu ambiente que garantam a autonomia do robô em executar a tarefa. O controle do robô do seu próprio corpo de forma adequada é uma característica fundamental, que deve ser aprendida por qualquer agente que precise atuar em um ambiente. Um agente com essas características pode ser aplicado em diversas tarefas. Esta dissertação utiliza aprendizagem de máquina, prioritariamente com o paradigma de aprendizagem por reforço, para estudar como agentes se comportam em ambientes dinâmicos e complexos para realizar uma tarefa comum a todos. O intuito é, posteriormente, aplicar a melhor técnica estudada em robôs reais e participar de uma competição real para avaliar o desempenho da estratégia aprendida. Este trabalho visa investigar e contribuir para o avanço da área de aprendizagem de comportamentos para o mundo real, construindo um ambiente de aprendizagem por reforço fiel à realidade e analisando sempre o tradeoff entre dificuldade de simulação e velocidade de aprendizagem. Utilizando o ambiente criado treinar agentes simulados capazes de performar bem no jogo de futebol de robôs e conseguir transferir o comportamento aprendido para um robô real de forma que seu comportamento fique fiel ao aprendido em simulação.FACEPESociety has been undergoing radical changes in recent decades with smart devices continuously emerging in our daily lives. Companies operating in the most broad market areas are increasingly investing in artificial intelligence algorithms. Despite last decade advances, the most modern algorithms are still far from building, generalizing and inferring human knowledge. These limitations often limit the scope in which these algorithms can act on and bring vulnerabilities to them. For machines to really be present in the most diverse environments of everyday life they need to learn to interact with and adapt to the world. Intelligent robots are agents able to infer knowledge from environment observations that guarantees their autonomy to perform the task. Properly controlling your own robotic body is a key feature for any agent who needs to work in an environment. An agent with these characteristics can be applied to several tasks. This dissertation uses machine learning, primarily with the reinforcement learning paradigm, to study how agents behave in dynamic and complex environments to accomplish a common task. The aim is to apply the best technique studied in real robots and participate in a real competition to evaluate the performance of the chosen strategy. This work aims to investigate and contribute to the advance of applied behavioral learning, building a learning environment for reinforcement that is true to reality and analyzing the tradeoff between simulation difficulty and learning speed. Using the environment created, train simulated agents capable of performing well in the robot soccer game and being able to transfer the learned behavior to a real robot guaranteeing that its behaviour is faithful to the simulated.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalRobóticaAprendizagem de MáquinaAprendizagem por reforçoAprendizagem de comportamentos em robôs através de aprendizagem por reforçoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Reniê de Azevedo Delgado.pdfDISSERTAÇÃO Reniê de Azevedo Delgado.pdfapplication/pdf5241659https://repositorio.ufpe.br/bitstream/123456789/40293/1/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf91a437ff9f1649c3e5be41bd7accb366MD51TEXTDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.txtDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.txtExtracted texttext/plain173045https://repositorio.ufpe.br/bitstream/123456789/40293/4/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.txt461cdd6068a0c5d409682ee68660d583MD54THUMBNAILDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.jpgDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.jpgGenerated Thumbnailimage/jpeg1257https://repositorio.ufpe.br/bitstream/123456789/40293/5/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.jpg431f30df4b37d585bb769f2ec13292e3MD55CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/40293/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/40293/3/license.txtbd573a5ca8288eb7272482765f819534MD53123456789/402932021-06-10 02:12:28.13oai:repositorio.ufpe.br:123456789/40293TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-06-10T05:12:28Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço |
title |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço |
spellingShingle |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço DELGADO, Reniê de Azevedo Inteligência computacional Robótica Aprendizagem de Máquina Aprendizagem por reforço |
title_short |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço |
title_full |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço |
title_fullStr |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço |
title_full_unstemmed |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço |
title_sort |
Aprendizagem de comportamentos em robôs através de aprendizagem por reforço |
author |
DELGADO, Reniê de Azevedo |
author_facet |
DELGADO, Reniê de Azevedo |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/5191253800525921 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/1931667959910637 |
dc.contributor.author.fl_str_mv |
DELGADO, Reniê de Azevedo |
dc.contributor.advisor1.fl_str_mv |
BASSANI, Hansenclever de França |
contributor_str_mv |
BASSANI, Hansenclever de França |
dc.subject.por.fl_str_mv |
Inteligência computacional Robótica Aprendizagem de Máquina Aprendizagem por reforço |
topic |
Inteligência computacional Robótica Aprendizagem de Máquina Aprendizagem por reforço |
description |
A sociedade vem passando por mudanças radicais nas últimas décadas. Cada vez mais, aparelhos inteligentes surgem no nosso dia-a-dia com o intuito de nos trazer comodidades. Empresas que atuam em diversas áreas de mercado tem investido cada vez mais em algoritmos de inteligência artificial. Apesar dos enormes avanços da última década, os algoritmos mais modernos ainda estão longe de construir, generalizar e inferir conhecimentos como humanos. Essas limitações por muitas vezes limitam o escopo que esses algoritmos podem atuar e trazem vulnerabilidades neles. Para que máquinas possam realmente estar presentes nos mais diversos ambientes do cotidiano elas precisam aprender a interagir com o mundo e se adaptar a ele. Robôs inteligentes são agentes que conseguem inferir conhecimentos a partir das observações retiradas do seu ambiente que garantam a autonomia do robô em executar a tarefa. O controle do robô do seu próprio corpo de forma adequada é uma característica fundamental, que deve ser aprendida por qualquer agente que precise atuar em um ambiente. Um agente com essas características pode ser aplicado em diversas tarefas. Esta dissertação utiliza aprendizagem de máquina, prioritariamente com o paradigma de aprendizagem por reforço, para estudar como agentes se comportam em ambientes dinâmicos e complexos para realizar uma tarefa comum a todos. O intuito é, posteriormente, aplicar a melhor técnica estudada em robôs reais e participar de uma competição real para avaliar o desempenho da estratégia aprendida. Este trabalho visa investigar e contribuir para o avanço da área de aprendizagem de comportamentos para o mundo real, construindo um ambiente de aprendizagem por reforço fiel à realidade e analisando sempre o tradeoff entre dificuldade de simulação e velocidade de aprendizagem. Utilizando o ambiente criado treinar agentes simulados capazes de performar bem no jogo de futebol de robôs e conseguir transferir o comportamento aprendido para um robô real de forma que seu comportamento fique fiel ao aprendido em simulação. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-08-30 |
dc.date.accessioned.fl_str_mv |
2021-06-09T19:49:48Z |
dc.date.available.fl_str_mv |
2021-06-09T19:49:48Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
DELGADO, Reniê de Azevedo. Aprendizagem de comportamentos em robôs através de aprendizagem por reforço. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/40293 |
identifier_str_mv |
DELGADO, Reniê de Azevedo. Aprendizagem de comportamentos em robôs através de aprendizagem por reforço. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019. |
url |
https://repositorio.ufpe.br/handle/123456789/40293 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/40293/1/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf https://repositorio.ufpe.br/bitstream/123456789/40293/4/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/40293/5/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/40293/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/40293/3/license.txt |
bitstream.checksum.fl_str_mv |
91a437ff9f1649c3e5be41bd7accb366 461cdd6068a0c5d409682ee68660d583 431f30df4b37d585bb769f2ec13292e3 e39d27027a6cc9cb039ad269a5db8e34 bd573a5ca8288eb7272482765f819534 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1797780606803771392 |