Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido

Detalhes bibliográficos
Autor(a) principal: Krul, Alexandre Mendonça
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFAM
Texto Completo: http://riu.ufam.edu.br/handle/prefix/5849
Resumo: This work aims to utilize some Machine Learning algorithms to solve the inverted pendulum problem with one degree of freedom and compare the outcomes with the pole placement method. In this way, three reinforcement learning algorithms were implemented in python: HillClimbing with adaptive noise scaling, REINFORCE and DeepQNetworks and their results were compared with the state space pole placement method, also implemented in this work. The results showed that all the methodwere able to balance the pendulum. The ITAE errors with relation to the vertical angular position for the methods HillClimbing, REINFORCE, DeepQNetworks and Pole Placement were 410, 55, 50 and 52, respectively.
id UFAM-1_6536b2b645bf5d3de3f467d1b75781c8
oai_identifier_str oai:localhost:prefix/5849
network_acronym_str UFAM-1
network_name_str Repositório Institucional da UFAM
repository_id_str
spelling Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertidoReinforcement learning as a control technique for the inverted pendulum problemControle de sistemas dinâmicosAprendizado de máquinasPêndulo invertidoAprendizado por reforçoENGENHARIASAlocação de PolosMachine learningLinguagem computacionalDeepQNetworksThis work aims to utilize some Machine Learning algorithms to solve the inverted pendulum problem with one degree of freedom and compare the outcomes with the pole placement method. In this way, three reinforcement learning algorithms were implemented in python: HillClimbing with adaptive noise scaling, REINFORCE and DeepQNetworks and their results were compared with the state space pole placement method, also implemented in this work. The results showed that all the methodwere able to balance the pendulum. The ITAE errors with relation to the vertical angular position for the methods HillClimbing, REINFORCE, DeepQNetworks and Pole Placement were 410, 55, 50 and 52, respectively.Neste trabalho procura-se utilizar algoritmos de Machine Learning para resolver o problema do pêndulo invertido com um grau de liberdade e comparar os resultados com a técnica de alocação de polos. Com esse objetivo, foram implementados três algoritmos de aprendizagem por reforço, HillClimbing com escala adaptativa de ruído, REINFORCE e DeepQNetworks em linguagem computacional python e seus resultados foram comparados entre si e com o método de controle em espaço de estados por alocação de polos. Foi possível observar que todos osmétodos utilizados conseguiram atingir o objetivo de equilibrar o pêndulo. Os erros ITAE em relação à posição angular vertical para os métodos HillClimbing, REINFORCE, DeepQNetworks e Alocação de Polos foram de 410, 55, 50 e 52, respectivamente.3Alguns dados podem ser guardados no perfil do usuário e automatizados no preenchimento, lattes, orcid, etc...NãoBrasilDepartamento de Engenharia Mecânica da Faculdade de TecnologiaManausEngenharia Mecânica - Bacharelado - ManausChui, Danilo de Santanahttp://lattes.cnpq.br/5006940841845349Silva Neto, Gustavo Cunha dahttp://lattes.cnpq.br/9570264281584476Martins, Paulo Roberto Oliveirahttp://lattes.cnpq.br/9912985025618548https://orcid.org/0000-0002-0705-1949https://orcid.org/0000-0002-0705-1949https://orcid.org/0000-0002-1024-6560https://orcid.org/0000-0002-1024-6560Krul, Alexandre Mendonça2021-02-17T17:43:30Z2021-01-302021-02-17T17:43:30Z2021-01-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://riu.ufam.edu.br/handle/prefix/5849porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2021-02-17T17:44:46Zoai:localhost:prefix/5849Repositório InstitucionalPUBhttp://riu.ufam.edu.br/oai/requestopendoar:2021-02-17T17:44:46Repositório Institucional da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
Reinforcement learning as a control technique for the inverted pendulum problem
title Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
spellingShingle Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
Krul, Alexandre Mendonça
Controle de sistemas dinâmicos
Aprendizado de máquinas
Pêndulo invertido
Aprendizado por reforço
ENGENHARIAS
Alocação de Polos
Machine learning
Linguagem computacional
DeepQNetworks
title_short Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
title_full Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
title_fullStr Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
title_full_unstemmed Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
title_sort Aprendizagem por reforço como técnica de controle para o problema do pêndulo invertido
author Krul, Alexandre Mendonça
author_facet Krul, Alexandre Mendonça
author_role author
dc.contributor.none.fl_str_mv Chui, Danilo de Santana
http://lattes.cnpq.br/5006940841845349
Silva Neto, Gustavo Cunha da
http://lattes.cnpq.br/9570264281584476
Martins, Paulo Roberto Oliveira
http://lattes.cnpq.br/9912985025618548
https://orcid.org/0000-0002-0705-1949
https://orcid.org/0000-0002-0705-1949
https://orcid.org/0000-0002-1024-6560
https://orcid.org/0000-0002-1024-6560
dc.contributor.author.fl_str_mv Krul, Alexandre Mendonça
dc.subject.por.fl_str_mv Controle de sistemas dinâmicos
Aprendizado de máquinas
Pêndulo invertido
Aprendizado por reforço
ENGENHARIAS
Alocação de Polos
Machine learning
Linguagem computacional
DeepQNetworks
topic Controle de sistemas dinâmicos
Aprendizado de máquinas
Pêndulo invertido
Aprendizado por reforço
ENGENHARIAS
Alocação de Polos
Machine learning
Linguagem computacional
DeepQNetworks
description This work aims to utilize some Machine Learning algorithms to solve the inverted pendulum problem with one degree of freedom and compare the outcomes with the pole placement method. In this way, three reinforcement learning algorithms were implemented in python: HillClimbing with adaptive noise scaling, REINFORCE and DeepQNetworks and their results were compared with the state space pole placement method, also implemented in this work. The results showed that all the methodwere able to balance the pendulum. The ITAE errors with relation to the vertical angular position for the methods HillClimbing, REINFORCE, DeepQNetworks and Pole Placement were 410, 55, 50 and 52, respectively.
publishDate 2021
dc.date.none.fl_str_mv 2021-02-17T17:43:30Z
2021-01-30
2021-02-17T17:43:30Z
2021-01-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://riu.ufam.edu.br/handle/prefix/5849
url http://riu.ufam.edu.br/handle/prefix/5849
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Brasil
Departamento de Engenharia Mecânica da Faculdade de Tecnologia
Manaus
Engenharia Mecânica - Bacharelado - Manaus
publisher.none.fl_str_mv Brasil
Departamento de Engenharia Mecânica da Faculdade de Tecnologia
Manaus
Engenharia Mecânica - Bacharelado - Manaus
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFAM
instname:Universidade Federal do Amazonas (UFAM)
instacron:UFAM
instname_str Universidade Federal do Amazonas (UFAM)
instacron_str UFAM
institution UFAM
reponame_str Repositório Institucional da UFAM
collection Repositório Institucional da UFAM
repository.name.fl_str_mv Repositório Institucional da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv
_version_ 1813274310995869696