A reinforcement learning application to an assembly decision-making problem

Neves, Miguel António Silva

A reinforcement learning application to an assembly decision-making problem

Detalhes bibliográficos
Autor(a) principal:	Neves, Miguel António Silva
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10316/92192
Resumo:	Dissertação de Mestrado Integrado em Engenharia Mecânica apresentada à Faculdade de Ciências e Tecnologia

Metadados do item

id	RCAP_73fb02b52be1155352139729fb46446f
oai_identifier_str	oai:estudogeral.uc.pt:10316/92192
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	A reinforcement learning application to an assembly decision-making problemAplicação de reinforcement learning num problema de tomada de decisãoReinforcement learningQ-LearningSequência de MontagemOtimizaçãoReinforcement learningQ-LearningAssembly SequenceOptimizationDissertação de Mestrado Integrado em Engenharia Mecânica apresentada à Faculdade de Ciências e TecnologiaReinforcement learning é uma metodologia com grande potencial de aplicabilidade em problemas de tomada de decisões na manufatura devido à reduzida necessidade prévia de dados, isto é, o sistema aprende durante a real operação. Esta dissertação foca-se na implementação dum algoritmo de reinforcement learning num problema de tomada de decisões na montagem de um avião, pertencente ao dataset de objetos e benchmark de Yale-CMU-Berkeley, com o objetivo de identificar a eficácia da abordagem proposta na otimização dos tempos de montagem. Existem inúmeros algoritmos de reinforcement learning, tendo sido o algoritmo Q-Learning o escolhido para o trabalho desta dissertação. Este algoritmo baseia-se na aprendizagem duma matriz de Q-values, conhecida como Q-table, através de sucessivas interações com o ambiente de forma a determinar a state-action policy que maximiza as rewards acumuladas e formalizada como um Markov Decision Process (MDP). Esta implementação foi conseguida em três cenários distintos, com um nível de complexidade crescente. No primeiro cenário, o reinforcement learning agent apenas poderia distinguir entre sequencias de montagem possíveis ou impossíveis. Num segundo cenário os tempos médios de duração das ações foram adicionados com a consequência de diferentes sequências de montagem corresponderem a diferentes soluções com valores de rewards acumuladas. Este cenário permitiu uma primeira otimização dos parâmetros e rewards do algoritmo. Por fim, no terceiro cenário os tempos médios das ações foram medidos com as respetivas variações, o que tornou a distribuição de rewards acumuladas mais dispersas. Este cenário permitiu uma nova otimização dos parâmetros e rewards do algoritmo. O algoritmo implementado, após a sua otimização, apresentou resultados promissores ao aprender a sequência de montagem ótima 95.83% das vezes.Reinforcement learning is a methodology with great potential of applicability in manufacturing decision-making problems due to the reduced need of previous training data, i.e., the system learns along time with actual operation. This dissertation focuses on the implementation of a reinforcement learning algorithm in an assembly decision-making problem of an airplane, from the Yale-CMU-Berkeley Object and Benchmark Dataset, aiming to identify the effectiveness of the proposed approach in the assembly time optimization. There are numerous types of reinforcement learning algorithms, with Q-Learning being the algorithm chosen for this dissertation. This algorithm is based on the learning of a matrix of Q-values (Q-table) from the successive interactions with the environment to find an optimal state-action policy that maximizes the accumulated reward, formalized as a Markov Decision Process (MDP). This implementation was achieved in three scenarios with increasing complexity. In the first scenario, the reinforcement learning agent could only distinguish between feasible and impossible assembly sequences. In a second scenario the actions’ average time were included so that different assembly sequences corresponded to solutions with diverse accumulated rewards. This scenario allowed an initial optimization of the algorithm’s parameters and rewards. Finally, in the last scenario, the tasks’ average time were measured with the corresponding time variances, so that the assembly sequences would have a larger distribution on accumulated rewards. This last scenario allowed the further optimization of the algorithm’s parameters and rewards. The implemented algorithm, after optimization, achieved very promising results by learning the optimal assembly sequence 95.83% of the times.2020-10-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/92192http://hdl.handle.net/10316/92192TID:202554236engNeves, Miguel António Silvainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T04:54:50Zoai:estudogeral.uc.pt:10316/92192Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:11:21.275038Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	A reinforcement learning application to an assembly decision-making problem Aplicação de reinforcement learning num problema de tomada de decisão
title	A reinforcement learning application to an assembly decision-making problem
spellingShingle	A reinforcement learning application to an assembly decision-making problem Neves, Miguel António Silva Reinforcement learning Q-Learning Sequência de Montagem Otimização Reinforcement learning Q-Learning Assembly Sequence Optimization
title_short	A reinforcement learning application to an assembly decision-making problem
title_full	A reinforcement learning application to an assembly decision-making problem
title_fullStr	A reinforcement learning application to an assembly decision-making problem
title_full_unstemmed	A reinforcement learning application to an assembly decision-making problem
title_sort	A reinforcement learning application to an assembly decision-making problem
author	Neves, Miguel António Silva
author_facet	Neves, Miguel António Silva
author_role	author
dc.contributor.author.fl_str_mv	Neves, Miguel António Silva
dc.subject.por.fl_str_mv	Reinforcement learning Q-Learning Sequência de Montagem Otimização Reinforcement learning Q-Learning Assembly Sequence Optimization
topic	Reinforcement learning Q-Learning Sequência de Montagem Otimização Reinforcement learning Q-Learning Assembly Sequence Optimization
description	Dissertação de Mestrado Integrado em Engenharia Mecânica apresentada à Faculdade de Ciências e Tecnologia
publishDate	2020
dc.date.none.fl_str_mv	2020-10-07
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10316/92192 http://hdl.handle.net/10316/92192 TID:202554236
url	http://hdl.handle.net/10316/92192
identifier_str_mv	TID:202554236
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134010205536256

A reinforcement learning application to an assembly decision-making problem

Registros relacionados