中关村在线

热点资讯

小米开源47亿参数具身智能模型Xiaomi-Robotics-0,多项基准评测第一

2026年2月12日,小米机器人团队正式对外开源具身智能视觉语言动作模型Xiaomi-Robotics-0。该模型参数量达47亿,采用MoT混合架构,以多模态视觉语言大模型为基座,融合多层扩散变换器结构,在通用语义理解与精细化动作控制之间实现高效协同。

在Libero、Calvin和SimplerEnv三大主流评测基准上,Xiaomi-Robotics-0在全部标准测试任务及涵盖30种模型的横向对比中均位列第一。模型可在消费级显卡上完成实时推理,无需依赖专业计算设备。

训练过程中,模型同步开展跨模态预训练,完整保留物体检测、视觉问答等基础感知能力。针对传统视觉语言动作模型因推理延迟引发的动作不连贯问题,研发团队引入异步推理机制与Λ形注意力掩码技术,显著提升响应连续性与场景适应性。实际任务验证显示,该模型在积木拆解、毛巾折叠等对精细操作与多感官协同要求较高的复杂场景中,展现出稳定可靠的手眼协调能力。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具