Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido

Detalhes bibliográficos
Autor(a) principal: Acuña, Daniel Grimm
Data de Publicação: 2019
Outros Autores: Luz, Henrique Santos da, Klein, Lucas Jurgen
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/8198
Resumo: Este trabalho aborda uma pesquisa exploratória sobre a aplicabilidade de algoritmos de aprendizado por reforço (APR) em um sistema de pêndulo invertido, sendo este um problema clássico de um sistema instável em malha aberta. A pesquisa realizada abordou o estudo e aplicação de algoritmos especificos: Q-Learning e Deep-Q-Network. O trabalho apresenta desde a pesquisa teórica dos algoritmos até a implementação em software dos mesmos. Em uma segunda etapa, desenvolveu-se um protótipo físico do sistema de pêndulo, no qual se empregou o uso de filtros estocásticos para a melhora na qualidade de leitura dos sensores, deixando em aberto a possibilidade de continuidade do desenvolvimento do protótipo em trabalhos futuros.
id UTFPR-12_bfd598ee749c853e2023409cd3dea1e0
oai_identifier_str oai:repositorio.utfpr.edu.br:1/8198
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-11T14:01:30Z2020-11-11T14:01:30Z2019-07-09ACUÑA, Daniel Grimm; LUZ, Henrique Santos da; KLEIN, Lucas Jurgen. Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido. 2019. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação) – Universidade Tecnológica Federal do Paraná, Curitiba, 2019.http://repositorio.utfpr.edu.br/jspui/handle/1/8198Este trabalho aborda uma pesquisa exploratória sobre a aplicabilidade de algoritmos de aprendizado por reforço (APR) em um sistema de pêndulo invertido, sendo este um problema clássico de um sistema instável em malha aberta. A pesquisa realizada abordou o estudo e aplicação de algoritmos especificos: Q-Learning e Deep-Q-Network. O trabalho apresenta desde a pesquisa teórica dos algoritmos até a implementação em software dos mesmos. Em uma segunda etapa, desenvolveu-se um protótipo físico do sistema de pêndulo, no qual se empregou o uso de filtros estocásticos para a melhora na qualidade de leitura dos sensores, deixando em aberto a possibilidade de continuidade do desenvolvimento do protótipo em trabalhos futuros.This work addresses an exploratory research on the applicability of reinforcement learning algorithms (RLA) in an inverted pendulum system, a classic problem of an unstable open loop system. The research carried out, addressed the study and application of some specific algorithms such as Q-Learning and Deep-Q-Networks. The work presents a theoretical research of the algorithms until the software implementation of the same ones. In a second step, a physical prototype of the pendulum system was built, in which stochastic filters were used in order to enhance the sensor reading quality, leaving open a possibility of continuity of the development for future works.porUniversidade Tecnológica Federal do ParanáCuritibaEngenharia de Controle e AutomaçãoUTFPRBrasilCNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLEAlgoritmosControle automáticoKalman, Filtragem deMarkov, Processos deAprendizado por reforçoAlgorithmsAutomatic controlKalman filteringMarkov processesReinforcement learningEstudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertidoReinforcement learning algorithms applicability study on an inverted penduluminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCuritibaAssef, Amauri AmorinAssef, Amauri AmorinBrante, Glauber Gomes de OliveiraFrencl, Victor BaptistaAcuña, Daniel GrimmLuz, Henrique Santos daKlein, Lucas Jurgeninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALCT_COEAU_2019_1_01.pdfapplication/pdf6494783http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/1/CT_COEAU_2019_1_01.pdf0d917ab413ba460de31e8afc6306ab07MD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTCT_COEAU_2019_1_01.pdf.txtExtracted texttext/plain110645http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/3/CT_COEAU_2019_1_01.pdf.txted3142a64f80a692c2a379ed4020e5f0MD53THUMBNAILCT_COEAU_2019_1_01.pdf.jpgGenerated Thumbnailimage/jpeg1379http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/4/CT_COEAU_2019_1_01.pdf.jpg4ca25ba84ee16b91d6c4dfda77a718dbMD541/81982020-11-11 12:01:30.547oai:repositorio.utfpr.edu.br:1/8198TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-11T14:01:30Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
dc.title.alternative.pt_BR.fl_str_mv Reinforcement learning algorithms applicability study on an inverted pendulum
title Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
spellingShingle Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
Acuña, Daniel Grimm
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLE
Algoritmos
Controle automático
Kalman, Filtragem de
Markov, Processos de
Aprendizado por reforço
Algorithms
Automatic control
Kalman filtering
Markov processes
Reinforcement learning
title_short Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
title_full Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
title_fullStr Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
title_full_unstemmed Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
title_sort Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
author Acuña, Daniel Grimm
author_facet Acuña, Daniel Grimm
Luz, Henrique Santos da
Klein, Lucas Jurgen
author_role author
author2 Luz, Henrique Santos da
Klein, Lucas Jurgen
author2_role author
author
dc.contributor.advisor1.fl_str_mv Assef, Amauri Amorin
dc.contributor.referee1.fl_str_mv Assef, Amauri Amorin
dc.contributor.referee2.fl_str_mv Brante, Glauber Gomes de Oliveira
dc.contributor.referee3.fl_str_mv Frencl, Victor Baptista
dc.contributor.author.fl_str_mv Acuña, Daniel Grimm
Luz, Henrique Santos da
Klein, Lucas Jurgen
contributor_str_mv Assef, Amauri Amorin
Assef, Amauri Amorin
Brante, Glauber Gomes de Oliveira
Frencl, Victor Baptista
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLE
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLE
Algoritmos
Controle automático
Kalman, Filtragem de
Markov, Processos de
Aprendizado por reforço
Algorithms
Automatic control
Kalman filtering
Markov processes
Reinforcement learning
dc.subject.por.fl_str_mv Algoritmos
Controle automático
Kalman, Filtragem de
Markov, Processos de
Aprendizado por reforço
Algorithms
Automatic control
Kalman filtering
Markov processes
Reinforcement learning
description Este trabalho aborda uma pesquisa exploratória sobre a aplicabilidade de algoritmos de aprendizado por reforço (APR) em um sistema de pêndulo invertido, sendo este um problema clássico de um sistema instável em malha aberta. A pesquisa realizada abordou o estudo e aplicação de algoritmos especificos: Q-Learning e Deep-Q-Network. O trabalho apresenta desde a pesquisa teórica dos algoritmos até a implementação em software dos mesmos. Em uma segunda etapa, desenvolveu-se um protótipo físico do sistema de pêndulo, no qual se empregou o uso de filtros estocásticos para a melhora na qualidade de leitura dos sensores, deixando em aberto a possibilidade de continuidade do desenvolvimento do protótipo em trabalhos futuros.
publishDate 2019
dc.date.issued.fl_str_mv 2019-07-09
dc.date.accessioned.fl_str_mv 2020-11-11T14:01:30Z
dc.date.available.fl_str_mv 2020-11-11T14:01:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ACUÑA, Daniel Grimm; LUZ, Henrique Santos da; KLEIN, Lucas Jurgen. Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido. 2019. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação) – Universidade Tecnológica Federal do Paraná, Curitiba, 2019.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/8198
identifier_str_mv ACUÑA, Daniel Grimm; LUZ, Henrique Santos da; KLEIN, Lucas Jurgen. Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido. 2019. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação) – Universidade Tecnológica Federal do Paraná, Curitiba, 2019.
url http://repositorio.utfpr.edu.br/jspui/handle/1/8198
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
dc.publisher.program.fl_str_mv Engenharia de Controle e Automação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/1/CT_COEAU_2019_1_01.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/3/CT_COEAU_2019_1_01.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/4/CT_COEAU_2019_1_01.pdf.jpg
bitstream.checksum.fl_str_mv 0d917ab413ba460de31e8afc6306ab07
b9d82215ab23456fa2d8b49c5df1b95b
ed3142a64f80a692c2a379ed4020e5f0
4ca25ba84ee16b91d6c4dfda77a718db
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923255490445312