从叠衣到清洁这场挑战赛吹响机器人“模型大赛”｜预见AI

2026-04-03 16:12:32　　点击量：

　　跑马拉松、打格斗、踢足球，人形机器人“秀肌肉”之外，还能做什么？近日，智元（AGIBOT）主办的机器人领域赛事——AGIBOT WORLD CHALLENGE @ICRA 2026，正式向全球具身智能极客发出召集令。

　　本届大赛是智元去年赛事的全面升级版本，以“推理-操作”和“世界模型”两大赛道为核心，通过开源全栈开发工具链、聚焦真实场景任务设计，打造全球具身智能领域的竞技与交流平台。

　　围绕赛事升级、技术布局、生态培育等核心问题，智元Genie业务部生态及解决方案总监沈咏剑与南方+等媒体展开交流，解读了本次赛事的设计初衷及对具身智能行业的推动意义。

　　一直以来，行业中就有围绕VLA（Vision-Language-Action，视觉－语言－行动）模型、世界模型的路线讨论。

　　VLA一度被视为具身智能的重要主流路径，即让机器人基于视觉输入和语言指令，直接完成动作生成与执行，即“推理-操作”。

　　但随着机器人开始进入更复杂、更长链条的任务场景，仅仅“看懂指令并做出动作”已不够。机器人还需要理解任务目标、拆解步骤、推演环境变化，并在执行过程中持续调整策略。

　　沈咏剑认为，VLA和世界模型，不是替代关系，更多是两种不同的解题思路。世界模型在技术层面尚未收敛，不管是多模态、大语言模型角度，做的事情是对未来的预测和推演，即通过“看到”现有所有模态的数据，去推演下一个时刻可能会发生什么，更像预先知道或设想未来情况，再做相应任务执行。

　　“世界模型与VLA是相对独立的一条技术路线。长期来看，这两种思路也可能会进一步融合。”沈咏剑说。

　　围绕“推理－操作”赛道，沈咏剑提到，去年的比赛更多是“叠衣服”这类相对明确、固定的任务，机器人基本是“让它做什么，它就做什么”。

　　而在今年，引入世界模型，需要机器人先理解任务、再进行拆解和执行，例如“清洁桌面”这类任务，机器人不仅要完成动作，还要先理解什么才是整洁、清洁，每一步清理要做到什么程度，先做什么后做什么，才能完成整套流程。

　　“我们希望机器人能更好地理解环境，了解不同的场景下应该做什么操作。”沈咏剑说，机器人不光要会做简单的短程操作，还要胜任一些稍长、稍复杂些的任务，因此加入了推理和对任务理解的要求。

　　有意思的是，沈咏剑谈到，很多人认为，叠衣服比挂钩、码放物体要困难很多，但在比赛中发现，每个人解决赛题的思路、方法不太一样，效果比预期更好，反而是那些看起来不是很困难的任务，比如，把一袋零食挂到超市挂钩孔里的任务，却没有特别好的效果。

　　“但无论如何，各家在做算法时，有不同的诀窍和认知。碰撞出来的思维火花非常宝贵。”他说。

　　此次赛事的一个核心目标是，让具身智能机器人在未来2-5年真正走入真实场景解决实际问题。

　　“目前，我们的机器人已经能在仿真环境中完成清洁等工作，真实度很高。做这些任务设计时，也希望大家所有比赛和研究内容，能慢慢不局限于实验室，更多地走入一些真实场景。”沈咏剑说。

　　因此，此次赛题会包含很多不同的类型，比如在工厂里做物料拣选和分拣，物流场景下的包裹分拣，针对商超、服务等不同场景。

　　即便是一个“开门”的单点任务，沈咏剑说，希望机器人能在一些特定、通用场景下，不管碰到什么门都能执行任务。

熊猫体育（中国）-官方网站