Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Outros Autores: | , |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/8198 |
Resumo: | Este trabalho aborda uma pesquisa exploratória sobre a aplicabilidade de algoritmos de aprendizado por reforço (APR) em um sistema de pêndulo invertido, sendo este um problema clássico de um sistema instável em malha aberta. A pesquisa realizada abordou o estudo e aplicação de algoritmos especificos: Q-Learning e Deep-Q-Network. O trabalho apresenta desde a pesquisa teórica dos algoritmos até a implementação em software dos mesmos. Em uma segunda etapa, desenvolveu-se um protótipo físico do sistema de pêndulo, no qual se empregou o uso de filtros estocásticos para a melhora na qualidade de leitura dos sensores, deixando em aberto a possibilidade de continuidade do desenvolvimento do protótipo em trabalhos futuros. |
id |
UTFPR-12_bfd598ee749c853e2023409cd3dea1e0 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/8198 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2020-11-11T14:01:30Z2020-11-11T14:01:30Z2019-07-09ACUÑA, Daniel Grimm; LUZ, Henrique Santos da; KLEIN, Lucas Jurgen. Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido. 2019. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação) – Universidade Tecnológica Federal do Paraná, Curitiba, 2019.http://repositorio.utfpr.edu.br/jspui/handle/1/8198Este trabalho aborda uma pesquisa exploratória sobre a aplicabilidade de algoritmos de aprendizado por reforço (APR) em um sistema de pêndulo invertido, sendo este um problema clássico de um sistema instável em malha aberta. A pesquisa realizada abordou o estudo e aplicação de algoritmos especificos: Q-Learning e Deep-Q-Network. O trabalho apresenta desde a pesquisa teórica dos algoritmos até a implementação em software dos mesmos. Em uma segunda etapa, desenvolveu-se um protótipo físico do sistema de pêndulo, no qual se empregou o uso de filtros estocásticos para a melhora na qualidade de leitura dos sensores, deixando em aberto a possibilidade de continuidade do desenvolvimento do protótipo em trabalhos futuros.This work addresses an exploratory research on the applicability of reinforcement learning algorithms (RLA) in an inverted pendulum system, a classic problem of an unstable open loop system. The research carried out, addressed the study and application of some specific algorithms such as Q-Learning and Deep-Q-Networks. The work presents a theoretical research of the algorithms until the software implementation of the same ones. In a second step, a physical prototype of the pendulum system was built, in which stochastic filters were used in order to enhance the sensor reading quality, leaving open a possibility of continuity of the development for future works.porUniversidade Tecnológica Federal do ParanáCuritibaEngenharia de Controle e AutomaçãoUTFPRBrasilCNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLEAlgoritmosControle automáticoKalman, Filtragem deMarkov, Processos deAprendizado por reforçoAlgorithmsAutomatic controlKalman filteringMarkov processesReinforcement learningEstudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertidoReinforcement learning algorithms applicability study on an inverted penduluminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCuritibaAssef, Amauri AmorinAssef, Amauri AmorinBrante, Glauber Gomes de OliveiraFrencl, Victor BaptistaAcuña, Daniel GrimmLuz, Henrique Santos daKlein, Lucas Jurgeninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALCT_COEAU_2019_1_01.pdfapplication/pdf6494783http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/1/CT_COEAU_2019_1_01.pdf0d917ab413ba460de31e8afc6306ab07MD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTCT_COEAU_2019_1_01.pdf.txtExtracted texttext/plain110645http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/3/CT_COEAU_2019_1_01.pdf.txted3142a64f80a692c2a379ed4020e5f0MD53THUMBNAILCT_COEAU_2019_1_01.pdf.jpgGenerated Thumbnailimage/jpeg1379http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/4/CT_COEAU_2019_1_01.pdf.jpg4ca25ba84ee16b91d6c4dfda77a718dbMD541/81982020-11-11 12:01:30.547oai:repositorio.utfpr.edu.br:1/8198TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-11T14:01:30Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido |
dc.title.alternative.pt_BR.fl_str_mv |
Reinforcement learning algorithms applicability study on an inverted pendulum |
title |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido |
spellingShingle |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido Acuña, Daniel Grimm CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLE Algoritmos Controle automático Kalman, Filtragem de Markov, Processos de Aprendizado por reforço Algorithms Automatic control Kalman filtering Markov processes Reinforcement learning |
title_short |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido |
title_full |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido |
title_fullStr |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido |
title_full_unstemmed |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido |
title_sort |
Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido |
author |
Acuña, Daniel Grimm |
author_facet |
Acuña, Daniel Grimm Luz, Henrique Santos da Klein, Lucas Jurgen |
author_role |
author |
author2 |
Luz, Henrique Santos da Klein, Lucas Jurgen |
author2_role |
author author |
dc.contributor.advisor1.fl_str_mv |
Assef, Amauri Amorin |
dc.contributor.referee1.fl_str_mv |
Assef, Amauri Amorin |
dc.contributor.referee2.fl_str_mv |
Brante, Glauber Gomes de Oliveira |
dc.contributor.referee3.fl_str_mv |
Frencl, Victor Baptista |
dc.contributor.author.fl_str_mv |
Acuña, Daniel Grimm Luz, Henrique Santos da Klein, Lucas Jurgen |
contributor_str_mv |
Assef, Amauri Amorin Assef, Amauri Amorin Brante, Glauber Gomes de Oliveira Frencl, Victor Baptista |
dc.subject.cnpq.fl_str_mv |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLE |
topic |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::SISTEMAS ELETRONICOS DE MEDIDA E DE CONTROLE Algoritmos Controle automático Kalman, Filtragem de Markov, Processos de Aprendizado por reforço Algorithms Automatic control Kalman filtering Markov processes Reinforcement learning |
dc.subject.por.fl_str_mv |
Algoritmos Controle automático Kalman, Filtragem de Markov, Processos de Aprendizado por reforço Algorithms Automatic control Kalman filtering Markov processes Reinforcement learning |
description |
Este trabalho aborda uma pesquisa exploratória sobre a aplicabilidade de algoritmos de aprendizado por reforço (APR) em um sistema de pêndulo invertido, sendo este um problema clássico de um sistema instável em malha aberta. A pesquisa realizada abordou o estudo e aplicação de algoritmos especificos: Q-Learning e Deep-Q-Network. O trabalho apresenta desde a pesquisa teórica dos algoritmos até a implementação em software dos mesmos. Em uma segunda etapa, desenvolveu-se um protótipo físico do sistema de pêndulo, no qual se empregou o uso de filtros estocásticos para a melhora na qualidade de leitura dos sensores, deixando em aberto a possibilidade de continuidade do desenvolvimento do protótipo em trabalhos futuros. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-07-09 |
dc.date.accessioned.fl_str_mv |
2020-11-11T14:01:30Z |
dc.date.available.fl_str_mv |
2020-11-11T14:01:30Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ACUÑA, Daniel Grimm; LUZ, Henrique Santos da; KLEIN, Lucas Jurgen. Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido. 2019. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação) – Universidade Tecnológica Federal do Paraná, Curitiba, 2019. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/8198 |
identifier_str_mv |
ACUÑA, Daniel Grimm; LUZ, Henrique Santos da; KLEIN, Lucas Jurgen. Estudo da aplicabilidade de algoritmos de aprendizado por reforço em um pêndulo invertido. 2019. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação) – Universidade Tecnológica Federal do Paraná, Curitiba, 2019. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/8198 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Curitiba |
dc.publisher.program.fl_str_mv |
Engenharia de Controle e Automação |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Curitiba |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/1/CT_COEAU_2019_1_01.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/3/CT_COEAU_2019_1_01.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/8198/4/CT_COEAU_2019_1_01.pdf.jpg |
bitstream.checksum.fl_str_mv |
0d917ab413ba460de31e8afc6306ab07 b9d82215ab23456fa2d8b49c5df1b95b ed3142a64f80a692c2a379ed4020e5f0 4ca25ba84ee16b91d6c4dfda77a718db |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805923255490445312 |