作者|黄楠

编辑|袁斯来

6月24日,通用具身智能企业RoboScience机器科学通用具身大模型发布,首次完整披露自研Visics大模型的技术架构VLOA(Vision-Language-Object-Action),并展示了模型在家具拼装、灵巧抓取、动态流水线等多项真实场景的应用。

大语言模型有标准的文本Token,自动驾驶有统一的视觉或点云表征,这些基础格式的确定,让数据和模型可以在不同场景之间复用。但具身智能至今没有一个被行业公认的基础表征单元,其决定了数据如何采、模型从哪学、以及学习后是否能迁移至新场景。

过去两年,行业主流做法是让模型直接学习机器人的关节运动轨迹,即复刻某一个特定硬件在特定任务下的动作坐标。这套逻辑的问题在于,换一台机器人、换一个物体、换一个场景,模型此前所习得能力无法直接迁移复用。它学会的是“夹爪怎么抓起杯子”,而非理解“抓取”这个动作本身,即什么是抓、需要多大的力、物体受力后会怎么反应。