灵初智能公司近日发布了首个基于强化学习(RL)的端到端具身模型Psi R0。该模型支持双灵巧手协同进行复杂操作,可以将多个技能串联混训,生成具有推理能力的智能体来完成并闭环长程灵巧操作任务,并且在跨物品、跨场景级别上表现出较高的泛化能力。
以电商场景为例, Psi R0能够使用双灵巧手流畅地完成一系列动作,如抓取、扫码、放置、塑料袋打结等,在客户现场可以取代一个完整工位。这是业界首次通过RL训练完成长程灵巧操作任务的具身机器人。
官方表示,Psi R0模型是基于RL训练出来的,使用海量仿真数据训练出双手操作的智能体,并通过双向训练框架串联多技能,在开放环境中率先完成了长程任务,并具备较强的泛化能力和较高的鲁棒性。
这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数,解决了奖励函数设计困难的问题。在后训练阶段,通过少量高质量真机数据对齐进一步提升了长程任务的成功率。
除了转移可行性函数外,双向训练框架中的其他部分也发挥着重要作用。它能够微调技能以提高串联成功率和泛化性,并赋予模型自主切换技能的能力,确保在遭遇操作失败时迅速调整策略以实现高成功率。
评论