O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/30671 |
Resumo: | Em 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento |
id |
UFF-2_c335e9cdad0a82aafefed088b8231045 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/30671 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasaAlphaZeroAprendizado por reforçoTabula rasaAprendizado de máquinaAlgoritmos tabula rasaInteligência artificialEm 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento85 p.Moratori, PatrickKohwalter, Troy CostaClua, Esteban Walter GonzalezKomaki, Eduardo Takeo2023-09-29T18:19:25Z2023-09-29T18:19:25Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfKOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020.http://app.uff.br/riuff/handle/1/30671CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-29T18:19:29Zoai:app.uff.br:1/30671Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:46:46.654923Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa |
title |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa |
spellingShingle |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa Komaki, Eduardo Takeo AlphaZero Aprendizado por reforço Tabula rasa Aprendizado de máquina Algoritmos tabula rasa Inteligência artificial |
title_short |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa |
title_full |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa |
title_fullStr |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa |
title_full_unstemmed |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa |
title_sort |
O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa |
author |
Komaki, Eduardo Takeo |
author_facet |
Komaki, Eduardo Takeo |
author_role |
author |
dc.contributor.none.fl_str_mv |
Moratori, Patrick Kohwalter, Troy Costa Clua, Esteban Walter Gonzalez |
dc.contributor.author.fl_str_mv |
Komaki, Eduardo Takeo |
dc.subject.por.fl_str_mv |
AlphaZero Aprendizado por reforço Tabula rasa Aprendizado de máquina Algoritmos tabula rasa Inteligência artificial |
topic |
AlphaZero Aprendizado por reforço Tabula rasa Aprendizado de máquina Algoritmos tabula rasa Inteligência artificial |
description |
Em 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09-29T18:19:25Z 2023-09-29T18:19:25Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
KOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020. http://app.uff.br/riuff/handle/1/30671 |
identifier_str_mv |
KOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020. |
url |
http://app.uff.br/riuff/handle/1/30671 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823567251177472 |