Aplicando modelos de aprendizado por reforço profundo em um jogo adversário
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/14791 |
Resumo: | Este trabalho tem como objetivo explorar a área de aprendizado por reforço profundo, que tem apresentado grandes evoluções nos últimos anos e é considerada por diversos pesquisadores a área mais próxima da chamada Inteligência Artificial Geral ou Inteligência Artificial Forte. Uma variação do jogo da velha é apresentada e um modelo é proposto para o treinamento de um agente inteligente capaz de jogar este jogo, de tal forma que as ações do agente combinam uma parte numérica com uma parte categórica. Para isto, este trabalho introduz grande parte da modelagem encontrada na área de Aprendizado por Reforço Profundo. São exploradas diversas configurações para o treinamento deste agente a fim de validar a que apresenta o melhor desempenho no jogo. A pontuação é calculada com base em partidas contra um agente proposto ao longo do trabalho que age em partes de forma aleatória e em partes de forma inteligente. Por fim, são apresentados os resultados obtidos nos experimentos, desafios encontrados e propostas de melhoria para trabalhos futuros. |
id |
UFRJ_0cfc91df59c3359eaf98df8c46b2e616 |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/14791 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Montalvão, Tiago Carvalho Gomeshttp://lattes.cnpq.br/9931198850020140http://lattes.cnpq.br/3988000608743699Silva, João Carlos Pereira dahttp://lattes.cnpq.br/9413102524215939Caarls, Wouterhttp://lattes.cnpq.br/1164394299894445Menasché, Daniel Sadoc2021-08-16T22:54:00Z2023-11-30T03:04:23Z2021-06-17http://hdl.handle.net/11422/14791Submitted by Elaine Almeida (elaine.almeida@nce.ufrj.br) on 2021-08-16T22:54:00Z No. of bitstreams: 1 TCGMontalvao.pdf: 898243 bytes, checksum: 08bdbe5d96e73907fcfd7508ccd49976 (MD5)Made available in DSpace on 2021-08-16T22:54:00Z (GMT). No. of bitstreams: 1 TCGMontalvao.pdf: 898243 bytes, checksum: 08bdbe5d96e73907fcfd7508ccd49976 (MD5) Previous issue date: 2021-06-17Este trabalho tem como objetivo explorar a área de aprendizado por reforço profundo, que tem apresentado grandes evoluções nos últimos anos e é considerada por diversos pesquisadores a área mais próxima da chamada Inteligência Artificial Geral ou Inteligência Artificial Forte. Uma variação do jogo da velha é apresentada e um modelo é proposto para o treinamento de um agente inteligente capaz de jogar este jogo, de tal forma que as ações do agente combinam uma parte numérica com uma parte categórica. Para isto, este trabalho introduz grande parte da modelagem encontrada na área de Aprendizado por Reforço Profundo. São exploradas diversas configurações para o treinamento deste agente a fim de validar a que apresenta o melhor desempenho no jogo. A pontuação é calculada com base em partidas contra um agente proposto ao longo do trabalho que age em partes de forma aleatória e em partes de forma inteligente. Por fim, são apresentados os resultados obtidos nos experimentos, desafios encontrados e propostas de melhoria para trabalhos futuros.porUniversidade Federal do Rio de JaneiroUFRJBrasilInstituto de ComputaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::LOGICAS E SEMANTICA DE PROGRAMASAprendizado por reforçoAprendizado computacionalInteligência artificialRedes neuraisAplicando modelos de aprendizado por reforço profundo em um jogo adversárioinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJLICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/14791/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD52ORIGINALTCGMontalvao.pdfTCGMontalvao.pdfapplication/pdf898243http://pantheon.ufrj.br:80/bitstream/11422/14791/1/TCGMontalvao.pdf08bdbe5d96e73907fcfd7508ccd49976MD5111422/147912023-11-30 00:04:23.101oai:pantheon.ufrj.br:11422/14791TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:04:23Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.pt_BR.fl_str_mv |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário |
title |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário |
spellingShingle |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário Montalvão, Tiago Carvalho Gomes CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::LOGICAS E SEMANTICA DE PROGRAMAS Aprendizado por reforço Aprendizado computacional Inteligência artificial Redes neurais |
title_short |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário |
title_full |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário |
title_fullStr |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário |
title_full_unstemmed |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário |
title_sort |
Aplicando modelos de aprendizado por reforço profundo em um jogo adversário |
author |
Montalvão, Tiago Carvalho Gomes |
author_facet |
Montalvão, Tiago Carvalho Gomes |
author_role |
author |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9931198850020140 |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3988000608743699 |
dc.contributor.author.fl_str_mv |
Montalvão, Tiago Carvalho Gomes |
dc.contributor.referee1.fl_str_mv |
Silva, João Carlos Pereira da |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/9413102524215939 |
dc.contributor.referee2.fl_str_mv |
Caarls, Wouter |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/1164394299894445 |
dc.contributor.advisor1.fl_str_mv |
Menasché, Daniel Sadoc |
contributor_str_mv |
Silva, João Carlos Pereira da Caarls, Wouter Menasché, Daniel Sadoc |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::LOGICAS E SEMANTICA DE PROGRAMAS |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::LOGICAS E SEMANTICA DE PROGRAMAS Aprendizado por reforço Aprendizado computacional Inteligência artificial Redes neurais |
dc.subject.por.fl_str_mv |
Aprendizado por reforço Aprendizado computacional Inteligência artificial Redes neurais |
description |
Este trabalho tem como objetivo explorar a área de aprendizado por reforço profundo, que tem apresentado grandes evoluções nos últimos anos e é considerada por diversos pesquisadores a área mais próxima da chamada Inteligência Artificial Geral ou Inteligência Artificial Forte. Uma variação do jogo da velha é apresentada e um modelo é proposto para o treinamento de um agente inteligente capaz de jogar este jogo, de tal forma que as ações do agente combinam uma parte numérica com uma parte categórica. Para isto, este trabalho introduz grande parte da modelagem encontrada na área de Aprendizado por Reforço Profundo. São exploradas diversas configurações para o treinamento deste agente a fim de validar a que apresenta o melhor desempenho no jogo. A pontuação é calculada com base em partidas contra um agente proposto ao longo do trabalho que age em partes de forma aleatória e em partes de forma inteligente. Por fim, são apresentados os resultados obtidos nos experimentos, desafios encontrados e propostas de melhoria para trabalhos futuros. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-08-16T22:54:00Z |
dc.date.issued.fl_str_mv |
2021-06-17 |
dc.date.available.fl_str_mv |
2023-11-30T03:04:23Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/14791 |
url |
http://hdl.handle.net/11422/14791 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro |
dc.publisher.initials.fl_str_mv |
UFRJ |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto de Computação |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
bitstream.url.fl_str_mv |
http://pantheon.ufrj.br:80/bitstream/11422/14791/2/license.txt http://pantheon.ufrj.br:80/bitstream/11422/14791/1/TCGMontalvao.pdf |
bitstream.checksum.fl_str_mv |
dd32849f2bfb22da963c3aac6e26e255 08bdbe5d96e73907fcfd7508ccd49976 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
|
_version_ |
1784097211940864000 |