In-Context Reinforcement Learning With Algorithm Distillation

#rl

image-20240629110511032

优化的损失函数

image-20240629111150698

image-20240629111248198

问题

他们的数据长度是否对齐?