Advances in imitation learning from observation

Detalhes bibliográficos
Autor(a) principal: Santos Júnior, Juarez Monteiro dos
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: https://tede2.pucrs.br/tede2/handle/tede/11131
Resumo: A Imitação por Observação, técnica computacional destinada ao ensino de agentes por meio da observação de demonstrações de especialistas, enfrenta desafios significativos como baixo desempenho, problemas com mínimos locais e exploração ineficaz do espaço de estados. Apesar das recentes abordagens empregarem dados não rotulados para decodificar informações de maneira auto-supervisionada, persistem os desafios a serem superados. Em resposta a tais desafios, a presente tese introduz quatro novos métodos destinados à imitação por observação. Ainda, apresenta um estudo aprofundado sobre a resiliência dos métodos de aprendizado por imitação, proporcionando uma melhor compreensão de seu desempenho e robustez em diversos contextos. As contribuições dos métodos propostos são evidenciadas pelos resultados positivos alcançados. Foi verificado que o uso de um mecanismo de amostragem pode aperfeiçoar os ciclos iterativos de aprendizado, tornandoos mais equilibrados. A inclusão de um mecanismo de exploração revelou potencial para exceder o desempenho de especialistas e estabelecer novos patamares na área. Além disso, o emprego de mecanismos de aprendizado por reforço e de aprendizado adversário mostrou-se capaz de gerar políticas mais eficientes, obtendo resultados significativos com menos amostras. As estratégias propostas melhoraram o desempenho e a eficiência dos atuais métodos, ao mesmo tempo que minimizam a complexidade da aquisição de dados de especialistas
id P_RS_ed06f4dfb1de5cdaa1afa744aecfd6fc
oai_identifier_str oai:tede2.pucrs.br:tede/11131
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Barros, Rodrigo Coelhohttp://lattes.cnpq.br/8172124241767828http://lattes.cnpq.br/6307746290114554Santos Júnior, Juarez Monteiro dos2024-04-05T22:06:21Z2023-08-30https://tede2.pucrs.br/tede2/handle/tede/11131A Imitação por Observação, técnica computacional destinada ao ensino de agentes por meio da observação de demonstrações de especialistas, enfrenta desafios significativos como baixo desempenho, problemas com mínimos locais e exploração ineficaz do espaço de estados. Apesar das recentes abordagens empregarem dados não rotulados para decodificar informações de maneira auto-supervisionada, persistem os desafios a serem superados. Em resposta a tais desafios, a presente tese introduz quatro novos métodos destinados à imitação por observação. Ainda, apresenta um estudo aprofundado sobre a resiliência dos métodos de aprendizado por imitação, proporcionando uma melhor compreensão de seu desempenho e robustez em diversos contextos. As contribuições dos métodos propostos são evidenciadas pelos resultados positivos alcançados. Foi verificado que o uso de um mecanismo de amostragem pode aperfeiçoar os ciclos iterativos de aprendizado, tornandoos mais equilibrados. A inclusão de um mecanismo de exploração revelou potencial para exceder o desempenho de especialistas e estabelecer novos patamares na área. Além disso, o emprego de mecanismos de aprendizado por reforço e de aprendizado adversário mostrou-se capaz de gerar políticas mais eficientes, obtendo resultados significativos com menos amostras. As estratégias propostas melhoraram o desempenho e a eficiência dos atuais métodos, ao mesmo tempo que minimizam a complexidade da aquisição de dados de especialistasImitation from Observation, a computational technique that instructs agents by observing expert demonstrations, suffers from considerable hurdles such as sub-optimal performance, local minima issues, and ineffective state-space exploration. Although recent strategies leverage unlabeled data to decode information self-supervisedly, persistent challenges remain. This thesis presents four novel methods for imitation learning from observation in response to those challenges. Furthermore, a comprehensive study on the resilience of imitation learning methods is provided to enable a nuanced comprehension of their robustness and performance across various scenarios. The achieved positive outcomes substantiate the merits of the proposed methods. A sampling mechanism is shown to enhance iterative learning cycles, rendering them more balanced. Integrating an exploration mechanism shows potential to surpass expert performance, establishing state-of-the-art results in the field. Moreover, the employment of reinforcement and adversarial learning mechanisms demonstrate their ability to forge more efficient policies, accomplishing good results with fewer samples. The proposed strategies boost performance and efficiency while minimizing the complexity of acquiring expert dataSubmitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2024-04-04T19:43:11Z No. of bitstreams: 1 JUAREZ MONTEIRO DOS SANTOS JÚNIOR_TES.pdf: 2827525 bytes, checksum: 6a00a9f289ee5bb16383f1582087e784 (MD5)Rejected by Sarajane Pan (sarajane.pan@pucrs.br), reason: Devolvido, devido a falta da capa institucional on 2024-04-05T14:00:10Z (GMT)Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2024-04-05T15:01:28Z No. of bitstreams: 1 juarez_tese final.pdf: 2997770 bytes, checksum: 96818ffdf6ae9811cb9b4bea6c76cb5d (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2024-04-05T21:56:29Z (GMT) No. of bitstreams: 1 juarez_tese final.pdf: 2997770 bytes, checksum: 96818ffdf6ae9811cb9b4bea6c76cb5d (MD5)Made available in DSpace on 2024-04-05T22:06:21Z (GMT). No. of bitstreams: 1 juarez_tese final.pdf: 2997770 bytes, checksum: 96818ffdf6ae9811cb9b4bea6c76cb5d (MD5) Previous issue date: 2023-08-30application/pdfhttps://tede2.pucrs.br/tede2/retrieve/190092/juarez_tese%20final.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaImitation LearningBehavioral CloningSelf-Supervised learningAprendizado por ImitaçãoAprendizado por ObservaçãoAprendizado ProfundoCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOAdvances in imitation learning from observationAvanços em aprendizado de imitação por observaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILjuarez_tese final.pdf.jpgjuarez_tese final.pdf.jpgimage/jpeg5324https://tede2.pucrs.br/tede2/bitstream/tede/11131/6/juarez_tese+final.pdf.jpg71054ba77e5460d7a7873390e4f931a3MD56TEXTjuarez_tese final.pdf.txtjuarez_tese final.pdf.txttext/plain240023https://tede2.pucrs.br/tede2/bitstream/tede/11131/5/juarez_tese+final.pdf.txt0d58bf6b4c5cac2e2258a2428818e0f4MD55ORIGINALjuarez_tese final.pdfjuarez_tese final.pdfapplication/pdf2997770https://tede2.pucrs.br/tede2/bitstream/tede/11131/4/juarez_tese+final.pdf96818ffdf6ae9811cb9b4bea6c76cb5dMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-8590https://tede2.pucrs.br/tede2/bitstream/tede/11131/3/license.txt220e11f2d3ba5354f917c7035aadef24MD53tede/111312024-04-05 20:00:16.174oai:tede2.pucrs.br:tede/11131QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2024-04-05T23:00:16Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Advances in imitation learning from observation
dc.title.alternative.por.fl_str_mv Avanços em aprendizado de imitação por observação
title Advances in imitation learning from observation
spellingShingle Advances in imitation learning from observation
Santos Júnior, Juarez Monteiro dos
Imitation Learning
Behavioral Cloning
Self-Supervised learning
Aprendizado por Imitação
Aprendizado por Observação
Aprendizado Profundo
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Advances in imitation learning from observation
title_full Advances in imitation learning from observation
title_fullStr Advances in imitation learning from observation
title_full_unstemmed Advances in imitation learning from observation
title_sort Advances in imitation learning from observation
author Santos Júnior, Juarez Monteiro dos
author_facet Santos Júnior, Juarez Monteiro dos
author_role author
dc.contributor.advisor1.fl_str_mv Barros, Rodrigo Coelho
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8172124241767828
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6307746290114554
dc.contributor.author.fl_str_mv Santos Júnior, Juarez Monteiro dos
contributor_str_mv Barros, Rodrigo Coelho
dc.subject.eng.fl_str_mv Imitation Learning
Behavioral Cloning
Self-Supervised learning
topic Imitation Learning
Behavioral Cloning
Self-Supervised learning
Aprendizado por Imitação
Aprendizado por Observação
Aprendizado Profundo
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv Aprendizado por Imitação
Aprendizado por Observação
Aprendizado Profundo
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description A Imitação por Observação, técnica computacional destinada ao ensino de agentes por meio da observação de demonstrações de especialistas, enfrenta desafios significativos como baixo desempenho, problemas com mínimos locais e exploração ineficaz do espaço de estados. Apesar das recentes abordagens empregarem dados não rotulados para decodificar informações de maneira auto-supervisionada, persistem os desafios a serem superados. Em resposta a tais desafios, a presente tese introduz quatro novos métodos destinados à imitação por observação. Ainda, apresenta um estudo aprofundado sobre a resiliência dos métodos de aprendizado por imitação, proporcionando uma melhor compreensão de seu desempenho e robustez em diversos contextos. As contribuições dos métodos propostos são evidenciadas pelos resultados positivos alcançados. Foi verificado que o uso de um mecanismo de amostragem pode aperfeiçoar os ciclos iterativos de aprendizado, tornandoos mais equilibrados. A inclusão de um mecanismo de exploração revelou potencial para exceder o desempenho de especialistas e estabelecer novos patamares na área. Além disso, o emprego de mecanismos de aprendizado por reforço e de aprendizado adversário mostrou-se capaz de gerar políticas mais eficientes, obtendo resultados significativos com menos amostras. As estratégias propostas melhoraram o desempenho e a eficiência dos atuais métodos, ao mesmo tempo que minimizam a complexidade da aquisição de dados de especialistas
publishDate 2023
dc.date.issued.fl_str_mv 2023-08-30
dc.date.accessioned.fl_str_mv 2024-04-05T22:06:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://tede2.pucrs.br/tede2/handle/tede/11131
url https://tede2.pucrs.br/tede2/handle/tede/11131
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv -4570527706994352458
dc.relation.confidence.fl_str_mv 500
500
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv https://tede2.pucrs.br/tede2/bitstream/tede/11131/6/juarez_tese+final.pdf.jpg
https://tede2.pucrs.br/tede2/bitstream/tede/11131/5/juarez_tese+final.pdf.txt
https://tede2.pucrs.br/tede2/bitstream/tede/11131/4/juarez_tese+final.pdf
https://tede2.pucrs.br/tede2/bitstream/tede/11131/3/license.txt
bitstream.checksum.fl_str_mv 71054ba77e5460d7a7873390e4f931a3
0d58bf6b4c5cac2e2258a2428818e0f4
96818ffdf6ae9811cb9b4bea6c76cb5d
220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765364405436416