Aprendizagem de comportamentos em robôs através de aprendizagem por reforço

Detalhes bibliográficos
Autor(a) principal: DELGADO, Reniê de Azevedo
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/40293
Resumo: A sociedade vem passando por mudanças radicais nas últimas décadas. Cada vez mais, aparelhos inteligentes surgem no nosso dia-a-dia com o intuito de nos trazer comodidades. Empresas que atuam em diversas áreas de mercado tem investido cada vez mais em algoritmos de inteligência artificial. Apesar dos enormes avanços da última década, os algoritmos mais modernos ainda estão longe de construir, generalizar e inferir conhecimentos como humanos. Essas limitações por muitas vezes limitam o escopo que esses algoritmos podem atuar e trazem vulnerabilidades neles. Para que máquinas possam realmente estar presentes nos mais diversos ambientes do cotidiano elas precisam aprender a interagir com o mundo e se adaptar a ele. Robôs inteligentes são agentes que conseguem inferir conhecimentos a partir das observações retiradas do seu ambiente que garantam a autonomia do robô em executar a tarefa. O controle do robô do seu próprio corpo de forma adequada é uma característica fundamental, que deve ser aprendida por qualquer agente que precise atuar em um ambiente. Um agente com essas características pode ser aplicado em diversas tarefas. Esta dissertação utiliza aprendizagem de máquina, prioritariamente com o paradigma de aprendizagem por reforço, para estudar como agentes se comportam em ambientes dinâmicos e complexos para realizar uma tarefa comum a todos. O intuito é, posteriormente, aplicar a melhor técnica estudada em robôs reais e participar de uma competição real para avaliar o desempenho da estratégia aprendida. Este trabalho visa investigar e contribuir para o avanço da área de aprendizagem de comportamentos para o mundo real, construindo um ambiente de aprendizagem por reforço fiel à realidade e analisando sempre o tradeoff entre dificuldade de simulação e velocidade de aprendizagem. Utilizando o ambiente criado treinar agentes simulados capazes de performar bem no jogo de futebol de robôs e conseguir transferir o comportamento aprendido para um robô real de forma que seu comportamento fique fiel ao aprendido em simulação.
id UFPE_69ed5c838d22fcb6a0b7c9014c36c0f5
oai_identifier_str oai:repositorio.ufpe.br:123456789/40293
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling DELGADO, Reniê de Azevedohttp://lattes.cnpq.br/5191253800525921http://lattes.cnpq.br/1931667959910637BASSANI, Hansenclever de França2021-06-09T19:49:48Z2021-06-09T19:49:48Z2019-08-30DELGADO, Reniê de Azevedo. Aprendizagem de comportamentos em robôs através de aprendizagem por reforço. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.https://repositorio.ufpe.br/handle/123456789/40293A sociedade vem passando por mudanças radicais nas últimas décadas. Cada vez mais, aparelhos inteligentes surgem no nosso dia-a-dia com o intuito de nos trazer comodidades. Empresas que atuam em diversas áreas de mercado tem investido cada vez mais em algoritmos de inteligência artificial. Apesar dos enormes avanços da última década, os algoritmos mais modernos ainda estão longe de construir, generalizar e inferir conhecimentos como humanos. Essas limitações por muitas vezes limitam o escopo que esses algoritmos podem atuar e trazem vulnerabilidades neles. Para que máquinas possam realmente estar presentes nos mais diversos ambientes do cotidiano elas precisam aprender a interagir com o mundo e se adaptar a ele. Robôs inteligentes são agentes que conseguem inferir conhecimentos a partir das observações retiradas do seu ambiente que garantam a autonomia do robô em executar a tarefa. O controle do robô do seu próprio corpo de forma adequada é uma característica fundamental, que deve ser aprendida por qualquer agente que precise atuar em um ambiente. Um agente com essas características pode ser aplicado em diversas tarefas. Esta dissertação utiliza aprendizagem de máquina, prioritariamente com o paradigma de aprendizagem por reforço, para estudar como agentes se comportam em ambientes dinâmicos e complexos para realizar uma tarefa comum a todos. O intuito é, posteriormente, aplicar a melhor técnica estudada em robôs reais e participar de uma competição real para avaliar o desempenho da estratégia aprendida. Este trabalho visa investigar e contribuir para o avanço da área de aprendizagem de comportamentos para o mundo real, construindo um ambiente de aprendizagem por reforço fiel à realidade e analisando sempre o tradeoff entre dificuldade de simulação e velocidade de aprendizagem. Utilizando o ambiente criado treinar agentes simulados capazes de performar bem no jogo de futebol de robôs e conseguir transferir o comportamento aprendido para um robô real de forma que seu comportamento fique fiel ao aprendido em simulação.FACEPESociety has been undergoing radical changes in recent decades with smart devices continuously emerging in our daily lives. Companies operating in the most broad market areas are increasingly investing in artificial intelligence algorithms. Despite last decade advances, the most modern algorithms are still far from building, generalizing and inferring human knowledge. These limitations often limit the scope in which these algorithms can act on and bring vulnerabilities to them. For machines to really be present in the most diverse environments of everyday life they need to learn to interact with and adapt to the world. Intelligent robots are agents able to infer knowledge from environment observations that guarantees their autonomy to perform the task. Properly controlling your own robotic body is a key feature for any agent who needs to work in an environment. An agent with these characteristics can be applied to several tasks. This dissertation uses machine learning, primarily with the reinforcement learning paradigm, to study how agents behave in dynamic and complex environments to accomplish a common task. The aim is to apply the best technique studied in real robots and participate in a real competition to evaluate the performance of the chosen strategy. This work aims to investigate and contribute to the advance of applied behavioral learning, building a learning environment for reinforcement that is true to reality and analyzing the tradeoff between simulation difficulty and learning speed. Using the environment created, train simulated agents capable of performing well in the robot soccer game and being able to transfer the learned behavior to a real robot guaranteeing that its behaviour is faithful to the simulated.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalRobóticaAprendizagem de MáquinaAprendizagem por reforçoAprendizagem de comportamentos em robôs através de aprendizagem por reforçoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Reniê de Azevedo Delgado.pdfDISSERTAÇÃO Reniê de Azevedo Delgado.pdfapplication/pdf5241659https://repositorio.ufpe.br/bitstream/123456789/40293/1/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf91a437ff9f1649c3e5be41bd7accb366MD51TEXTDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.txtDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.txtExtracted texttext/plain173045https://repositorio.ufpe.br/bitstream/123456789/40293/4/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.txt461cdd6068a0c5d409682ee68660d583MD54THUMBNAILDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.jpgDISSERTAÇÃO Reniê de Azevedo Delgado.pdf.jpgGenerated Thumbnailimage/jpeg1257https://repositorio.ufpe.br/bitstream/123456789/40293/5/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.jpg431f30df4b37d585bb769f2ec13292e3MD55CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/40293/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/40293/3/license.txtbd573a5ca8288eb7272482765f819534MD53123456789/402932021-06-10 02:12:28.13oai:repositorio.ufpe.br:123456789/40293TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-06-10T05:12:28Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
title Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
spellingShingle Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
DELGADO, Reniê de Azevedo
Inteligência computacional
Robótica
Aprendizagem de Máquina
Aprendizagem por reforço
title_short Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
title_full Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
title_fullStr Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
title_full_unstemmed Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
title_sort Aprendizagem de comportamentos em robôs através de aprendizagem por reforço
author DELGADO, Reniê de Azevedo
author_facet DELGADO, Reniê de Azevedo
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5191253800525921
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1931667959910637
dc.contributor.author.fl_str_mv DELGADO, Reniê de Azevedo
dc.contributor.advisor1.fl_str_mv BASSANI, Hansenclever de França
contributor_str_mv BASSANI, Hansenclever de França
dc.subject.por.fl_str_mv Inteligência computacional
Robótica
Aprendizagem de Máquina
Aprendizagem por reforço
topic Inteligência computacional
Robótica
Aprendizagem de Máquina
Aprendizagem por reforço
description A sociedade vem passando por mudanças radicais nas últimas décadas. Cada vez mais, aparelhos inteligentes surgem no nosso dia-a-dia com o intuito de nos trazer comodidades. Empresas que atuam em diversas áreas de mercado tem investido cada vez mais em algoritmos de inteligência artificial. Apesar dos enormes avanços da última década, os algoritmos mais modernos ainda estão longe de construir, generalizar e inferir conhecimentos como humanos. Essas limitações por muitas vezes limitam o escopo que esses algoritmos podem atuar e trazem vulnerabilidades neles. Para que máquinas possam realmente estar presentes nos mais diversos ambientes do cotidiano elas precisam aprender a interagir com o mundo e se adaptar a ele. Robôs inteligentes são agentes que conseguem inferir conhecimentos a partir das observações retiradas do seu ambiente que garantam a autonomia do robô em executar a tarefa. O controle do robô do seu próprio corpo de forma adequada é uma característica fundamental, que deve ser aprendida por qualquer agente que precise atuar em um ambiente. Um agente com essas características pode ser aplicado em diversas tarefas. Esta dissertação utiliza aprendizagem de máquina, prioritariamente com o paradigma de aprendizagem por reforço, para estudar como agentes se comportam em ambientes dinâmicos e complexos para realizar uma tarefa comum a todos. O intuito é, posteriormente, aplicar a melhor técnica estudada em robôs reais e participar de uma competição real para avaliar o desempenho da estratégia aprendida. Este trabalho visa investigar e contribuir para o avanço da área de aprendizagem de comportamentos para o mundo real, construindo um ambiente de aprendizagem por reforço fiel à realidade e analisando sempre o tradeoff entre dificuldade de simulação e velocidade de aprendizagem. Utilizando o ambiente criado treinar agentes simulados capazes de performar bem no jogo de futebol de robôs e conseguir transferir o comportamento aprendido para um robô real de forma que seu comportamento fique fiel ao aprendido em simulação.
publishDate 2019
dc.date.issued.fl_str_mv 2019-08-30
dc.date.accessioned.fl_str_mv 2021-06-09T19:49:48Z
dc.date.available.fl_str_mv 2021-06-09T19:49:48Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DELGADO, Reniê de Azevedo. Aprendizagem de comportamentos em robôs através de aprendizagem por reforço. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/40293
identifier_str_mv DELGADO, Reniê de Azevedo. Aprendizagem de comportamentos em robôs através de aprendizagem por reforço. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2019.
url https://repositorio.ufpe.br/handle/123456789/40293
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/40293/1/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf
https://repositorio.ufpe.br/bitstream/123456789/40293/4/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/40293/5/DISSERTA%c3%87%c3%83O%20Reni%c3%aa%20de%20Azevedo%20Delgado.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/40293/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/40293/3/license.txt
bitstream.checksum.fl_str_mv 91a437ff9f1649c3e5be41bd7accb366
461cdd6068a0c5d409682ee68660d583
431f30df4b37d585bb769f2ec13292e3
e39d27027a6cc9cb039ad269a5db8e34
bd573a5ca8288eb7272482765f819534
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1797780606803771392