作者:Paul Veradittakit,Pantera Capital合伙人;翻译:比特之家xiaozou
人工智能突破
多模态大语言模型的演进正在为机器人赋予类人“大脑”。传统计算机视觉模型擅长识别物体,却难以转化为具体动作指令。而大语言模型虽能理解文本,却缺乏对物理世界的感知能力。
视觉-语言-行动模型(VLA)将视觉感知、语言理解与实体操作统一于同一计算框架。2025年2月,Figure AI发布的通用人形机器人控制模型Helix,凭借零样本泛化能力和系统1/系统2双架构,成为行业新标杆。该模型无需重复训练即可适应新任务,系统级推理与轻量级响应分离,实现类人思维与实时精准度的平衡。
经济型机器人成为现实
真正改变世界的科技必须具备可普及性。当Unitree G1等机器人售价低于本田雅阁或美国最低年收入3.4万美元时,体力劳动与日常事务由机器人承担的世界已不再遥远。
从仓储走向消费级市场
机器人正从工厂专用设备向家庭场景延伸。人类能完成所有专业机器人的工作,但反之不成立。因此,通用性人形机器人成为研发重点,其应用边界将深入日常生活。
衡量竞争力的核心指标是每小时综合成本——包括训练、充电、任务执行与购置成本之和,除以运行时长。该值需低于行业平均工资才具商业可行性。
进入仓储领域需每小时综合成本低于31.39美元;在私立教育与健康服务等最大消费市场,则需控制在35.18美元以下。当前技术正朝着更廉价、高效、通用的方向加速演进。
电池优化
电池仍是用户友好型机器人的核心瓶颈。波士顿动力Spot续航仅90分钟,Unitree G1约2小时。频繁手动充电阻碍普及,因此自主对接充电设施成为关键。
目前有两种主流模式:电池更换与感应充电。前者通过快速替换耗尽电池组实现持续作业,适用于野外或工业场景;后者采用无线供电,虽充电慢,但支持全自动化流程。
延迟优化
低延迟分为环境感知与远程操控两类。感知延迟低于50毫秒,相当于人类反射速度,否则动作将显得迟钝。
空间定位后,轻量级神经网络标记障碍物与目标,规划系统立即生成电机指令。90%决策必须通过单一视觉-语言-行动网络在本地完成。
全自主机器人要求VLA模型延迟低于50毫秒;远程操控则要求端到端信号延迟不超过50毫秒。若视觉与文本输入分由不同模型处理,整体延迟将严重超标。
数据收集优化
高质量数据来源有三:现实世界视频、合成数据与远程操控。现实数据缺失力反馈与材料形变信息;合成数据忽略摩擦系数等不可预测变量。
远程操控由人类操作员直接控制机器人执行任务,最具潜力,但人力成本高。定制硬件方案如Mecka公司结合主流方法与专用设备,采集多维度人类运动数据,转化为适用于机器人训练的高质量数据集,极大缩短从数据到部署的周期。
加密技术与机器人融合
加密技术可通过激励机制提升机器人网络效率。在对接基础设施、延迟优化与数据采集三大环节中,去中心化物理基础设施网络(DePIN)展现巨大潜力。
DePIN可将充电站建设成本分摊至全球节点运营商,使充电设施如加油站般广泛覆盖,解决中心化网络投资过高的问题。
同时,DePIN聚合地理分散的边缘计算资源,降低远程操控通信延迟。尽管当前项目多聚焦存储与带宽共享,尚未全面应用于机器人控制,但技术路径已清晰。
远程操控数据采集面临人力成本难题。Reborn项目构建全球去中心化操作员网络,以通证激励贡献者,形成无需许可的数据生产体系。参与者既获收益,又参与治理,助力通用人工智能(AGI)机器人训练。
安全始终是核心关切
当大语言模型具备实体行动能力,机器人安全成为社会接纳的关键前提。《终结者》警示了自主武器的风险,而经济安全机制是生态繁荣的基础。
OpenMind开发的FABRIC系统,是一个基于密码学证明的去中心化机器协调层。它允许机器人自主验证身份、地理位置与行为记录,无需依赖中心化中介。
行为约束与身份认证通过链上规则执行,确保任何合规性均可审计。符合标准的机器人获得奖励,违规者则被惩罚或取消资格,建立问责与信任机制。
第三方再质押网络如Symbiotic提供对等安全担保。设定可验证罚没参数(如“施加超过2500牛顿的人类接触力”),质押者提供保证金,违规时赔偿受害者。该模式激励企业重视安全性,并通过资金池保险机制提升消费者接受度。
实施方案示例:
该框架不仅适用于单个机器人,还可扩展为整个网络的完整性保障体系。
OpenAI推动了AI大众化,但其基石早已奠定:云服务降低算力门槛,Huggingface开源模型,Kaggle提供实验平台。这些渐进式创新共同促成AI爆发。
相比之下,机器人开发仍受硬件高成本制约。构建完整机器人需采购电机、传感器、电池等,投入轻易超10万美元,远高于编程开发成本。
现实场景评估体系尚处萌芽。虽然AI有明确损失函数与虚拟测试环境,但真实世界策略无法直接迁移。亟需多样化现实环境中的自主策略评估设施。
当基础架构成熟,人才将大规模涌入。正如开源运动加速AI发展,机器人领域也需类似开放平台。
OpenMind推出的OM1项目,被誉为“机器人版安卓系统”,将原始硬件转化为具备经济意识的可升级智能体。视觉、语言与运动规划模块可即插即用,所有推理步骤以简明英语呈现,操作员无需接触固件即可审计或调整行为。
自然语言推理能力让新一代开发者无缝接入,为引爆机器人革命铺平道路。
教育生态建设
人才密度决定行业轨迹。结构化普惠教育体系至关重要。
OpenMind登陆纳斯达克,标志着智能机器参与金融创新与实体教育的新纪元。其与Robostore联合宣布,在美国K-12公立学校推出首个基于Unitree G1人形机器人的通用教育课程。
该课程设计具备平台无关性,可适配各类机器人形态,为学生提供实践操作机会。这一举措预示未来数年机器人教育资源将迅速丰富,有望比肩当前AI教育水平。
视觉-语言-行动模型(VLA)的创新与规模效应,正在催生经济实惠、高效且通用的人形机器人。随着仓储机器人向消费级市场拓展,安全性、融资模式与评估体系成为关键突破口。
我们坚信,加密技术将在三方面推动行业发展:为机器人安全提供经济担保,优化充电基础设施布局,提升延迟表现与数据采集效率。这不仅是技术跃迁,更是生态重构的起点。