Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos

Colombo, Gabriel

Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos

Detalhes bibliográficos
Autor(a) principal:	Colombo, Gabriel
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo:	http://repositorio.utfpr.edu.br/jspui/handle/1/29123
Resumo:	A aprendizagem por reforço surgiu na década de 80 e compõe uma das três grandes áreas de aprendizagem de máquinas, sendo as outras duas a aprendizagem supervisionada e a não supervisionada. Os problemas de reforço possuem características peculiares, como a troca de informação que ocorre entre o agente e o ambiente em que ele está inserido, além disso, todos os problemas de aprendizagem por reforço são focados em objetivos e utilizam recompensas como estímulos para a aprendizagem. Outra particularidade da aprendizagem por reforço é que ela não precisa de informações prévias sobre o ambiente, pois é possível coletar os dados a partir das interações, utilizando técnicas de tentativa e erro. Apesar de ter surgido na década de 80, a aprendizagem por reforço voltou a ganhar popularidade recentemente com o avanço das redes neurais e o surgimento das redes neurais profundas, pois o fato de elas conseguirem encontrar aproximações de funções, tornou possível solucionar problemas com infinitos estados, que são mais semelhantes aos problemas existentes no mundo real. Uma grande ambição da aprendizagem por reforço é criar um algoritmo que possa ser generalizado e consiga se adaptar a diversos ambientes. Nesse sentido, esse trabalho tem o objetivo de avaliar o algoritmo Deep Q-Learning em 5 ambientes com estados contínuos e analisar tanto o seu desempenho quanto sua capacidade de adaptação para diferentes ambientes.

Metadados do item

id	UTFPR-12_14a6fa2d6e76dde8c25d644ff261a35e
oai_identifier_str	oai:repositorio.utfpr.edu.br:1/29123
network_acronym_str	UTFPR-12
network_name_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling	2022-07-28T13:09:49Z2022-07-28T13:09:49Z2022-06-24COLOMBO, Gabriel. Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/29123A aprendizagem por reforço surgiu na década de 80 e compõe uma das três grandes áreas de aprendizagem de máquinas, sendo as outras duas a aprendizagem supervisionada e a não supervisionada. Os problemas de reforço possuem características peculiares, como a troca de informação que ocorre entre o agente e o ambiente em que ele está inserido, além disso, todos os problemas de aprendizagem por reforço são focados em objetivos e utilizam recompensas como estímulos para a aprendizagem. Outra particularidade da aprendizagem por reforço é que ela não precisa de informações prévias sobre o ambiente, pois é possível coletar os dados a partir das interações, utilizando técnicas de tentativa e erro. Apesar de ter surgido na década de 80, a aprendizagem por reforço voltou a ganhar popularidade recentemente com o avanço das redes neurais e o surgimento das redes neurais profundas, pois o fato de elas conseguirem encontrar aproximações de funções, tornou possível solucionar problemas com infinitos estados, que são mais semelhantes aos problemas existentes no mundo real. Uma grande ambição da aprendizagem por reforço é criar um algoritmo que possa ser generalizado e consiga se adaptar a diversos ambientes. Nesse sentido, esse trabalho tem o objetivo de avaliar o algoritmo Deep Q-Learning em 5 ambientes com estados contínuos e analisar tanto o seu desempenho quanto sua capacidade de adaptação para diferentes ambientes.Reinforcement learning emerged in the 1980s and is one of three main areas of machine learning, the other two being supervised and unsupervised learning. Reinforcement problems have unique characteristics, such as the exchange of information between the agent and the environment in which it is inserted. In addition, all reinforcement learning problems are based on objectives and make use of rewards as stimulus for learning. Another particularity of reinforcement learning is that it does not need prior information about the environment, as it is possible to collect data from interactions, using trial and error techniques. Although it emerged in the 1980s, reinforcement learning has recently gained popularity with the advancement of neural networks and the emergence of deep neural networks, since the fact that they can find function approximations has made it possible to solve problems with infinite states, which are more similar to problems in the real world. A major ambition of reinforcement learning is to create an algorithm that can be generalized and adapted to various environments. In this sense, this work aims to evaluate the Deep Q-Learning algorithm on 5 continuous state environments and to analyze both its performance and its adaptation capacity for different environments.porUniversidade Tecnológica Federal do ParanáPato BrancoEngenharia de ComputaçãoUTFPRBrasilDepartamento Acadêmico de Informáticahttps://creativecommons.org/licenses/by-sa/4.0/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAprendizado de máquinasAprendizado do computadorInteligência artificialRedes neurais (Computação)Machine learningNeural networks (Computer science)Artificial intelligenceNeural networks (Computer science)Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuosComparison of performance of the Deep Q-Learning algorithm in simulated environments with continuous statesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPato BrancoCasanova, DalcimarCasanova, DalcimarFavarim, FábioBarbosa, Marco Antonio de CastroColombo, Gabrielreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALaprendizagemreforcotreinamentoagente.pdfaprendizagemreforcotreinamentoagente.pdfapplication/pdf3383801http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/1/aprendizagemreforcotreinamentoagente.pdf34cbc290eed7eac00004e9ae5f25eddbMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTaprendizagemreforcotreinamentoagente.pdf.txtaprendizagemreforcotreinamentoagente.pdf.txtExtracted texttext/plain107340http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/3/aprendizagemreforcotreinamentoagente.pdf.txt98413b23dd4e4d9c7300dfca6896f361MD53THUMBNAILaprendizagemreforcotreinamentoagente.pdf.jpgaprendizagemreforcotreinamentoagente.pdf.jpgGenerated Thumbnailimage/jpeg1242http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/4/aprendizagemreforcotreinamentoagente.pdf.jpga27928c93593feedfb9662d20b1710fcMD541/291232022-07-29 03:06:18.717oai:repositorio.utfpr.edu.br:1/29123TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-07-29T06:06:18Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos
dc.title.alternative.pt_BR.fl_str_mv	Comparison of performance of the Deep Q-Learning algorithm in simulated environments with continuous states
title	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos
spellingShingle	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos Colombo, Gabriel CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Aprendizado de máquinas Aprendizado do computador Inteligência artificial Redes neurais (Computação) Machine learning Neural networks (Computer science) Artificial intelligence Neural networks (Computer science)
title_short	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos
title_full	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos
title_fullStr	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos
title_full_unstemmed	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos
title_sort	Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos
author	Colombo, Gabriel
author_facet	Colombo, Gabriel
author_role	author
dc.contributor.advisor1.fl_str_mv	Casanova, Dalcimar
dc.contributor.referee1.fl_str_mv	Casanova, Dalcimar
dc.contributor.referee2.fl_str_mv	Favarim, Fábio
dc.contributor.referee3.fl_str_mv	Barbosa, Marco Antonio de Castro
dc.contributor.author.fl_str_mv	Colombo, Gabriel
contributor_str_mv	Casanova, Dalcimar Casanova, Dalcimar Favarim, Fábio Barbosa, Marco Antonio de Castro
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Aprendizado de máquinas Aprendizado do computador Inteligência artificial Redes neurais (Computação) Machine learning Neural networks (Computer science) Artificial intelligence Neural networks (Computer science)
dc.subject.por.fl_str_mv	Aprendizado de máquinas Aprendizado do computador Inteligência artificial Redes neurais (Computação) Machine learning Neural networks (Computer science) Artificial intelligence Neural networks (Computer science)
description	A aprendizagem por reforço surgiu na década de 80 e compõe uma das três grandes áreas de aprendizagem de máquinas, sendo as outras duas a aprendizagem supervisionada e a não supervisionada. Os problemas de reforço possuem características peculiares, como a troca de informação que ocorre entre o agente e o ambiente em que ele está inserido, além disso, todos os problemas de aprendizagem por reforço são focados em objetivos e utilizam recompensas como estímulos para a aprendizagem. Outra particularidade da aprendizagem por reforço é que ela não precisa de informações prévias sobre o ambiente, pois é possível coletar os dados a partir das interações, utilizando técnicas de tentativa e erro. Apesar de ter surgido na década de 80, a aprendizagem por reforço voltou a ganhar popularidade recentemente com o avanço das redes neurais e o surgimento das redes neurais profundas, pois o fato de elas conseguirem encontrar aproximações de funções, tornou possível solucionar problemas com infinitos estados, que são mais semelhantes aos problemas existentes no mundo real. Uma grande ambição da aprendizagem por reforço é criar um algoritmo que possa ser generalizado e consiga se adaptar a diversos ambientes. Nesse sentido, esse trabalho tem o objetivo de avaliar o algoritmo Deep Q-Learning em 5 ambientes com estados contínuos e analisar tanto o seu desempenho quanto sua capacidade de adaptação para diferentes ambientes.
publishDate	2022
dc.date.accessioned.fl_str_mv	2022-07-28T13:09:49Z
dc.date.available.fl_str_mv	2022-07-28T13:09:49Z
dc.date.issued.fl_str_mv	2022-06-24
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	COLOMBO, Gabriel. Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.
dc.identifier.uri.fl_str_mv	http://repositorio.utfpr.edu.br/jspui/handle/1/29123
identifier_str_mv	COLOMBO, Gabriel. Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.
url	http://repositorio.utfpr.edu.br/jspui/handle/1/29123
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	https://creativecommons.org/licenses/by-sa/4.0/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-sa/4.0/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Pato Branco
dc.publisher.program.fl_str_mv	Engenharia de Computação
dc.publisher.initials.fl_str_mv	UTFPR
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Departamento Acadêmico de Informática
publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Pato Branco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR
instname_str	Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str	UTFPR
institution	UTFPR
reponame_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv	http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/1/aprendizagemreforcotreinamentoagente.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/3/aprendizagemreforcotreinamentoagente.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/29123/4/aprendizagemreforcotreinamentoagente.pdf.jpg
bitstream.checksum.fl_str_mv	34cbc290eed7eac00004e9ae5f25eddb b9d82215ab23456fa2d8b49c5df1b95b 98413b23dd4e4d9c7300dfca6896f361 a27928c93593feedfb9662d20b1710fc
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_	1805922982003998720

Comparação de desempenho do algoritmo Deep Q-Learning em ambientes simulados com estados contínuos

Registros relacionados