我们总说“机器人越来越聪明”,可背后真相是,大多数机器人依然只能“照猫画虎”——靠人类演示来模仿操作,一旦遇到没见过的场景,就“傻眼”。想让机器人真正具备像人一样的学习能力,一直是个技术难题。
最近做了一件非常厉害的事:他们不再让机器人死记硬背,而是教它们“怎么自己学”。这个新方法打破了过去机器人学习的范式束缚,让机器第一次拥有了“自我成长”的能力。
两阶段训练:从“看人做”到“自己练”
传统的机器人训练靠的是“行为克隆”( ),也就是把人类操作录下来,然后让机器人模仿。这种方法有两个严重问题:
数据成本高:得采集成千上万条人类演示,操作精细、标注复杂。泛化能力差:只会做看过的任务,稍微换个场景就不行了。
提出了一个两阶段的后训练框架(Post ):
第二阶段:自我提升(Self-)
机器人开始“自我训练”——用自己生成的轨迹反复练习,不再需要人类演示。它通过“剩余步骤预测”这个机制,自己判断动作是否成功,并据此改进策略。
关键是:这个方法不需要设计复杂的奖励函数,也不用人工监控,机器人可以在真实环境中自己练、自己学、自己进步。
实验验证:从仿真到现实,机器人真的学会了
在两个机器人平台上测试这个方法: 和 Aloha,涵盖了从简单抓取到双臂插入等复杂任务,结果都很惊人。
实验(仿真+现实)
这个平台大概是让机器人根据语言指令摆放不同形状的积木,比如“把红色星形积木放到蓝色方块上”。
实验发现:
换句话说,靠“自己练”带来的提升,比死命喂数据还强。
Aloha 实验(双臂插入)
这是个更难的任务:左手拿套筒,右手拿插销插进去。动作空间更大,模仿数据更少。
结果依然清晰:自我提升明显优于单纯模仿学习,尤其在数据稀缺的情况下,表现更稳、更准。
真正的突破:机器人能“学会没教过的技能”
最让人兴奋的一点是: 的方法不只是让机器人做得更好,而是让它能学会训练时根本没教过的新技能。
他们在一个叫“”的新任务上做了测试——这个任务需要机器人推动香蕉这样的不规则物体,稍微用力不对就会打滑、旋转。
结果是:机器人没看过这种操作演示, 但通过前面的训练,它居然靠自我学习掌握了新技能,完成了任务。
这就是行为泛化,而不仅仅是“换个颜色、换个形状”的语义泛化。这种能力,过去的机器人从未具备。
路还长,但未来已来
当然,这套方法也不是没有问题:
不过, 这次的突破,已经把机器人从“死记硬背”带进了“自主成长”的新阶段。
就像人类学走路、学写字一样——不是靠别人教会我们每一步,而是靠反复尝试、不断自我调整。
今天的机器人,终于也开始走上这条“自己成长”的路。