O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa

Detalhes bibliográficos
Autor(a) principal: Komaki, Eduardo Takeo
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/30671
Resumo: Em 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento
id UFF-2_c335e9cdad0a82aafefed088b8231045
oai_identifier_str oai:app.uff.br:1/30671
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasaAlphaZeroAprendizado por reforçoTabula rasaAprendizado de máquinaAlgoritmos tabula rasaInteligência artificialEm 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento85 p.Moratori, PatrickKohwalter, Troy CostaClua, Esteban Walter GonzalezKomaki, Eduardo Takeo2023-09-29T18:19:25Z2023-09-29T18:19:25Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfKOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020.http://app.uff.br/riuff/handle/1/30671CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-29T18:19:29Zoai:app.uff.br:1/30671Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-09-29T18:19:29Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
spellingShingle O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
Komaki, Eduardo Takeo
AlphaZero
Aprendizado por reforço
Tabula rasa
Aprendizado de máquina
Algoritmos tabula rasa
Inteligência artificial
title_short O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_full O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_fullStr O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_full_unstemmed O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_sort O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
author Komaki, Eduardo Takeo
author_facet Komaki, Eduardo Takeo
author_role author
dc.contributor.none.fl_str_mv Moratori, Patrick
Kohwalter, Troy Costa
Clua, Esteban Walter Gonzalez
dc.contributor.author.fl_str_mv Komaki, Eduardo Takeo
dc.subject.por.fl_str_mv AlphaZero
Aprendizado por reforço
Tabula rasa
Aprendizado de máquina
Algoritmos tabula rasa
Inteligência artificial
topic AlphaZero
Aprendizado por reforço
Tabula rasa
Aprendizado de máquina
Algoritmos tabula rasa
Inteligência artificial
description Em 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento
publishDate 2023
dc.date.none.fl_str_mv 2023-09-29T18:19:25Z
2023-09-29T18:19:25Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv KOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020.
http://app.uff.br/riuff/handle/1/30671
identifier_str_mv KOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020.
url http://app.uff.br/riuff/handle/1/30671
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1807838682363723776