小米开源47亿参数具身智能模型Xiaomi-Robotics-0，多项基准评测第一

海是天的倒影

原创

02-12

2026年2月12日，小米机器人团队正式对外开源具身智能视觉语言动作模型Xiaomi-Robotics-0。该模型参数量达47亿，采用MoT混合架构，以多模态视觉语言大模型为基座，融合多层扩散变换器结构，在通用语义理解与精细化动作控制之间实现高效协同。

在Libero、Calvin和SimplerEnv三大主流评测基准上，Xiaomi-Robotics-0在全部标准测试任务及涵盖30种模型的横向对比中均位列第一。模型可在消费级显卡上完成实时推理，无需依赖专业计算设备。

训练过程中，模型同步开展跨模态预训练，完整保留物体检测、视觉问答等基础感知能力。针对传统视觉语言动作模型因推理延迟引发的动作不连贯问题，研发团队引入异步推理机制与Λ形注意力掩码技术，显著提升响应连续性与场景适应性。实际任务验证显示，该模型在积木拆解、毛巾折叠等对精细操作与多感官协同要求较高的复杂场景中，展现出稳定可靠的手眼协调能力。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



小米智能门锁 4 Pro

小米智能门锁 4 Pro

小米E10

小米E10

1686人评分

95%好评

小米全自动智能门锁pro

小米全自动智能门锁pro

1812人评分

95%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具