O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa

Komaki, Eduardo Takeo

O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa

Detalhes bibliográficos
Autor(a) principal:	Komaki, Eduardo Takeo
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo:	http://app.uff.br/riuff/handle/1/30671
Resumo:	Em 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento

Metadados do item

id	UFF-2_c335e9cdad0a82aafefed088b8231045
oai_identifier_str	oai:app.uff.br:1/30671
network_acronym_str	UFF-2
network_name_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str	2120
spelling	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasaAlphaZeroAprendizado por reforçoTabula rasaAprendizado de máquinaAlgoritmos tabula rasaInteligência artificialEm 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento85 p.Moratori, PatrickKohwalter, Troy CostaClua, Esteban Walter GonzalezKomaki, Eduardo Takeo2023-09-29T18:19:25Z2023-09-29T18:19:25Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfKOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020.http://app.uff.br/riuff/handle/1/30671CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-29T18:19:29Zoai:app.uff.br:1/30671Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-09-29T18:19:29Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
spellingShingle	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa Komaki, Eduardo Takeo AlphaZero Aprendizado por reforço Tabula rasa Aprendizado de máquina Algoritmos tabula rasa Inteligência artificial
title_short	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_full	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_fullStr	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_full_unstemmed	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
title_sort	O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa
author	Komaki, Eduardo Takeo
author_facet	Komaki, Eduardo Takeo
author_role	author
dc.contributor.none.fl_str_mv	Moratori, Patrick Kohwalter, Troy Costa Clua, Esteban Walter Gonzalez
dc.contributor.author.fl_str_mv	Komaki, Eduardo Takeo
dc.subject.por.fl_str_mv	AlphaZero Aprendizado por reforço Tabula rasa Aprendizado de máquina Algoritmos tabula rasa Inteligência artificial
topic	AlphaZero Aprendizado por reforço Tabula rasa Aprendizado de máquina Algoritmos tabula rasa Inteligência artificial
description	Em 2018 foram publicados os resultados de um novo programa chamado AlphaZero que apresentou resultados surpreendentes em 3 diferentes jogos e adquiriu esta competência como tabula rasa, ou seja, foram capazes de aprender de forma autônoma, sem orientação prévia de especialistas. Este estudo objetivou compreender o funcionamento da nova abordagem de aprendizado por reforço (reinforcement learning – RL) empregada neste artefato, com vistas a identificar formas de auxiliar no aperfeiçoamento do aprendizado de máquina (machine learning - ML) e seus algoritmos tabula rasa. Para consecução deste desígnio foram descritas a evolução do aprendizado profundo (deep learning – DL) e do aprendizado por reforço (reinforcement learning – RL) dentro do contexto do aprendizado de máquina (machine learning - ML). Ademais, foi também descrito o funcionamento do AlphaZero dentro da conjuntura de sua própria evolução e de algoritmos congêneres. Além disso, foram apontados os aspectos que permitiram que este artefato obtivesse sua performance quase sem concurso de ajuda humana. Para tanto, foi utilizado como método para angariar subsídios a pesquisa bibliográfica e de artigos científicos contemporâneos àquele dispositivo. De modo geral, neste estudo, foi exequível constatar aspectos que permitiram a estratégia de aprendizagem do AlphaZero fosse efetiva na obtenção de resultados auspiciosos nos desafios propostos e realizou isto sem ajuda humana. Outrossim, é importante dizer que as mesmas abordagens identificadas podem ser replicáveis a outros contextos e domínios. Destaque-se ainda que esta monografia pretende ser um auxílio na compreensão dos mecanismos que permitiram os promissores desfechos do mencionado dispositivo. Ao longo do presente manuscrito e através da compreensão da estratégia de aprendizado por reforço (reinforcement learning – RL) daquele artefato, foi possível apontar os aspectos que permitiram a alta performance e a aquisição da expertise como tabula rasa. Espera-se que o presente esforço sirva de incentivo para outras iniciativas de aclarar melhor tão instigante área do conhecimento
publishDate	2023
dc.date.none.fl_str_mv	2023-09-29T18:19:25Z 2023-09-29T18:19:25Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	KOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020. http://app.uff.br/riuff/handle/1/30671
identifier_str_mv	KOMAKI, Eduardo Takeo. O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa. 2020. 85 f. Trabalho de Conclusão de Curso (Graduação em Tecnologia em Sistemas de Computação) - Instituto de Computação, Universidade Federal Fluminense, Niterói, 2020.
url	http://app.uff.br/riuff/handle/1/30671
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	CC-BY-SA info:eu-repo/semantics/openAccess
rights_invalid_str_mv	CC-BY-SA
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF
instname_str	Universidade Federal Fluminense (UFF)
instacron_str	UFF
institution	UFF
reponame_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv	Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv	riuff@id.uff.br
_version_	1825433208693456896

O aprendizado por reforço no alphazero: uma forma para alcançar algoritmos tabula rasa

Registros relacionados