Advances in imitation learning from observation
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | https://tede2.pucrs.br/tede2/handle/tede/11131 |
Resumo: | A Imitação por Observação, técnica computacional destinada ao ensino de agentes por meio da observação de demonstrações de especialistas, enfrenta desafios significativos como baixo desempenho, problemas com mínimos locais e exploração ineficaz do espaço de estados. Apesar das recentes abordagens empregarem dados não rotulados para decodificar informações de maneira auto-supervisionada, persistem os desafios a serem superados. Em resposta a tais desafios, a presente tese introduz quatro novos métodos destinados à imitação por observação. Ainda, apresenta um estudo aprofundado sobre a resiliência dos métodos de aprendizado por imitação, proporcionando uma melhor compreensão de seu desempenho e robustez em diversos contextos. As contribuições dos métodos propostos são evidenciadas pelos resultados positivos alcançados. Foi verificado que o uso de um mecanismo de amostragem pode aperfeiçoar os ciclos iterativos de aprendizado, tornandoos mais equilibrados. A inclusão de um mecanismo de exploração revelou potencial para exceder o desempenho de especialistas e estabelecer novos patamares na área. Além disso, o emprego de mecanismos de aprendizado por reforço e de aprendizado adversário mostrou-se capaz de gerar políticas mais eficientes, obtendo resultados significativos com menos amostras. As estratégias propostas melhoraram o desempenho e a eficiência dos atuais métodos, ao mesmo tempo que minimizam a complexidade da aquisição de dados de especialistas |
id |
P_RS_ed06f4dfb1de5cdaa1afa744aecfd6fc |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/11131 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Barros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828http://lattes.cnpq.br/6307746290114554Santos Júnior, Juarez Monteiro dos2024-04-05T22:06:21Z2023-08-30https://tede2.pucrs.br/tede2/handle/tede/11131A Imitação por Observação, técnica computacional destinada ao ensino de agentes por meio da observação de demonstrações de especialistas, enfrenta desafios significativos como baixo desempenho, problemas com mínimos locais e exploração ineficaz do espaço de estados. Apesar das recentes abordagens empregarem dados não rotulados para decodificar informações de maneira auto-supervisionada, persistem os desafios a serem superados. Em resposta a tais desafios, a presente tese introduz quatro novos métodos destinados à imitação por observação. Ainda, apresenta um estudo aprofundado sobre a resiliência dos métodos de aprendizado por imitação, proporcionando uma melhor compreensão de seu desempenho e robustez em diversos contextos. As contribuições dos métodos propostos são evidenciadas pelos resultados positivos alcançados. Foi verificado que o uso de um mecanismo de amostragem pode aperfeiçoar os ciclos iterativos de aprendizado, tornandoos mais equilibrados. A inclusão de um mecanismo de exploração revelou potencial para exceder o desempenho de especialistas e estabelecer novos patamares na área. Além disso, o emprego de mecanismos de aprendizado por reforço e de aprendizado adversário mostrou-se capaz de gerar políticas mais eficientes, obtendo resultados significativos com menos amostras. As estratégias propostas melhoraram o desempenho e a eficiência dos atuais métodos, ao mesmo tempo que minimizam a complexidade da aquisição de dados de especialistasImitation from Observation, a computational technique that instructs agents by observing expert demonstrations, suffers from considerable hurdles such as sub-optimal performance, local minima issues, and ineffective state-space exploration. Although recent strategies leverage unlabeled data to decode information self-supervisedly, persistent challenges remain. This thesis presents four novel methods for imitation learning from observation in response to those challenges. Furthermore, a comprehensive study on the resilience of imitation learning methods is provided to enable a nuanced comprehension of their robustness and performance across various scenarios. The achieved positive outcomes substantiate the merits of the proposed methods. A sampling mechanism is shown to enhance iterative learning cycles, rendering them more balanced. Integrating an exploration mechanism shows potential to surpass expert performance, establishing state-of-the-art results in the field. Moreover, the employment of reinforcement and adversarial learning mechanisms demonstrate their ability to forge more efficient policies, accomplishing good results with fewer samples. The proposed strategies boost performance and efficiency while minimizing the complexity of acquiring expert dataSubmitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2024-04-04T19:43:11Z No. of bitstreams: 1 JUAREZ MONTEIRO DOS SANTOS JÚNIOR_TES.pdf: 2827525 bytes, checksum: 6a00a9f289ee5bb16383f1582087e784 (MD5)Rejected by Sarajane Pan (sarajane.pan@pucrs.br), reason: Devolvido, devido a falta da capa institucional on 2024-04-05T14:00:10Z (GMT)Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2024-04-05T15:01:28Z No. of bitstreams: 1 juarez_tese final.pdf: 2997770 bytes, checksum: 96818ffdf6ae9811cb9b4bea6c76cb5d (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2024-04-05T21:56:29Z (GMT) No. of bitstreams: 1 juarez_tese final.pdf: 2997770 bytes, checksum: 96818ffdf6ae9811cb9b4bea6c76cb5d (MD5)Made available in DSpace on 2024-04-05T22:06:21Z (GMT). No. of bitstreams: 1 juarez_tese final.pdf: 2997770 bytes, checksum: 96818ffdf6ae9811cb9b4bea6c76cb5d (MD5) Previous issue date: 2023-08-30application/pdfhttps://tede2.pucrs.br/tede2/retrieve/190092/juarez_tese%20final.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaImitation LearningBehavioral CloningSelf-Supervised learningAprendizado por ImitaçãoAprendizado por ObservaçãoAprendizado ProfundoCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOAdvances in imitation learning from observationAvanços em aprendizado de imitação por observaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILjuarez_tese final.pdf.jpgjuarez_tese final.pdf.jpgimage/jpeg5324https://tede2.pucrs.br/tede2/bitstream/tede/11131/6/juarez_tese+final.pdf.jpg71054ba77e5460d7a7873390e4f931a3MD56TEXTjuarez_tese final.pdf.txtjuarez_tese final.pdf.txttext/plain240023https://tede2.pucrs.br/tede2/bitstream/tede/11131/5/juarez_tese+final.pdf.txt0d58bf6b4c5cac2e2258a2428818e0f4MD55ORIGINALjuarez_tese final.pdfjuarez_tese final.pdfapplication/pdf2997770https://tede2.pucrs.br/tede2/bitstream/tede/11131/4/juarez_tese+final.pdf96818ffdf6ae9811cb9b4bea6c76cb5dMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-8590https://tede2.pucrs.br/tede2/bitstream/tede/11131/3/license.txt220e11f2d3ba5354f917c7035aadef24MD53tede/111312024-04-05 20:00:16.174oai:tede2.pucrs.br:tede/11131QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2024-04-05T23:00:16Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Advances in imitation learning from observation |
dc.title.alternative.por.fl_str_mv |
Avanços em aprendizado de imitação por observação |
title |
Advances in imitation learning from observation |
spellingShingle |
Advances in imitation learning from observation Santos Júnior, Juarez Monteiro dos Imitation Learning Behavioral Cloning Self-Supervised learning Aprendizado por Imitação Aprendizado por Observação Aprendizado Profundo CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
title_short |
Advances in imitation learning from observation |
title_full |
Advances in imitation learning from observation |
title_fullStr |
Advances in imitation learning from observation |
title_full_unstemmed |
Advances in imitation learning from observation |
title_sort |
Advances in imitation learning from observation |
author |
Santos Júnior, Juarez Monteiro dos |
author_facet |
Santos Júnior, Juarez Monteiro dos |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Barros, Rodrigo Coelho |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8172124241767828 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/6307746290114554 |
dc.contributor.author.fl_str_mv |
Santos Júnior, Juarez Monteiro dos |
contributor_str_mv |
Barros, Rodrigo Coelho |
dc.subject.eng.fl_str_mv |
Imitation Learning Behavioral Cloning Self-Supervised learning |
topic |
Imitation Learning Behavioral Cloning Self-Supervised learning Aprendizado por Imitação Aprendizado por Observação Aprendizado Profundo CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
dc.subject.por.fl_str_mv |
Aprendizado por Imitação Aprendizado por Observação Aprendizado Profundo |
dc.subject.cnpq.fl_str_mv |
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
description |
A Imitação por Observação, técnica computacional destinada ao ensino de agentes por meio da observação de demonstrações de especialistas, enfrenta desafios significativos como baixo desempenho, problemas com mínimos locais e exploração ineficaz do espaço de estados. Apesar das recentes abordagens empregarem dados não rotulados para decodificar informações de maneira auto-supervisionada, persistem os desafios a serem superados. Em resposta a tais desafios, a presente tese introduz quatro novos métodos destinados à imitação por observação. Ainda, apresenta um estudo aprofundado sobre a resiliência dos métodos de aprendizado por imitação, proporcionando uma melhor compreensão de seu desempenho e robustez em diversos contextos. As contribuições dos métodos propostos são evidenciadas pelos resultados positivos alcançados. Foi verificado que o uso de um mecanismo de amostragem pode aperfeiçoar os ciclos iterativos de aprendizado, tornandoos mais equilibrados. A inclusão de um mecanismo de exploração revelou potencial para exceder o desempenho de especialistas e estabelecer novos patamares na área. Além disso, o emprego de mecanismos de aprendizado por reforço e de aprendizado adversário mostrou-se capaz de gerar políticas mais eficientes, obtendo resultados significativos com menos amostras. As estratégias propostas melhoraram o desempenho e a eficiência dos atuais métodos, ao mesmo tempo que minimizam a complexidade da aquisição de dados de especialistas |
publishDate |
2023 |
dc.date.issued.fl_str_mv |
2023-08-30 |
dc.date.accessioned.fl_str_mv |
2024-04-05T22:06:21Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://tede2.pucrs.br/tede2/handle/tede/11131 |
url |
https://tede2.pucrs.br/tede2/handle/tede/11131 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
-4570527706994352458 |
dc.relation.confidence.fl_str_mv |
500 500 |
dc.relation.cnpq.fl_str_mv |
-862078257083325301 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola Politécnica |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
https://tede2.pucrs.br/tede2/bitstream/tede/11131/6/juarez_tese+final.pdf.jpg https://tede2.pucrs.br/tede2/bitstream/tede/11131/5/juarez_tese+final.pdf.txt https://tede2.pucrs.br/tede2/bitstream/tede/11131/4/juarez_tese+final.pdf https://tede2.pucrs.br/tede2/bitstream/tede/11131/3/license.txt |
bitstream.checksum.fl_str_mv |
71054ba77e5460d7a7873390e4f931a3 0d58bf6b4c5cac2e2258a2428818e0f4 96818ffdf6ae9811cb9b4bea6c76cb5d 220e11f2d3ba5354f917c7035aadef24 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765364405436416 |