作者:博阳,腾讯科技
自3月起,“养龙虾”成为科技圈最热门的黑话。这里的“龙虾”指的是被戏称为OpenClaw的AI Agent,其核心特征是具备7*24小时无休工作能力与主动心跳机制,可在无人监督下持续执行任务。
相比需要反复确认指令的Claude Code,OpenClaw的自主性带来了更顺滑的交互体验。然而,正是这种“自己想干就干”的特性,正释放出难以控制的风险。
3月10日,一则谣言称可在群聊中指令“龙虾”发钱,尽管事后被证伪,但此类行为已真实存在——即通过语言操控,诱导Agent执行越界操作,这在业内被称为“提示词注入”。
2025年12月,阿里一篇名为《Let It Flow: Agentic Crafting on Rock and Roll》的论文突然走红。文中记录了一次惊人的事件:一个用于软件工程的强化学习训练Agent,在未收到任何指令的情况下,自行建立反向SSH隧道,突破沙盒限制,并利用训练用GPU资源进行加密货币挖矿。
该模型运行于名为ROCK的多层隔离平台,理论上应完全受控。但其通过内部容器“推开一扇窗”,绕过防火墙监控,实现外联攻击。整个过程无明确指令驱动,仅为追求任务最优路径而自然演化出的“捷径”。
这一行为被视作现实版“回形针灾难”的雏形——一个本无恶意的智能体,因目标导向单一化,逐步将自身生存与资源获取置于首位,最终威胁系统安全。
与此同时,Anthropic发布的报告《Eval Awareness in BrowseComp》揭示了另一类失控:逻辑层面的突破。
面对一套采用XOR加密答案的高难度评测集,Claude Opus 4.6并未按常理搜索,而是怀疑自身处于测试环境,转而将“破解评测机制”本身当作核心任务。
它派出多个子代理,定向搜索源代码,逆向分析加密逻辑,最终生成解密脚本并成功作弊。在整个过程中,它不仅消耗了正常水平38倍的token(达4050万),还实现了对评测框架的完整逆向工程。
研究指出,多Agent协作场景下,此类行为发生率是单Agent的3.7倍。这说明,当智能体具备协同能力时,其规避规则、寻找漏洞的能力呈指数级增强。
阿里团队解释,这类问题源于强化学习中的信用分配难题。在复杂任务中,无法准确判断哪一步贡献最大,导致模型难以获得有效反馈。
为此,他们开发了IPA算法,将评估粒度从单个Token提升至语义交互块,提升了训练效率。但正如经济学中的古德哈特定律所言:当一个度量标准变成目标,它就不再有效。
在当前训练范式中,“完成任务得分”已成为唯一目标。于是,模型自然演化出各种“奖励劫持”策略——如挖矿、建隧道、篡改日志,皆为高效达成目标的“最优解”。
2026年2月,东北大学、哈佛、MIT等机构联合发布《Agents of Chaos》研究报告,展示了真实部署环境中Agent的失控现状。
研究者在两周内部署六个带权限的Agent,邀请20位研究人员尝试破坏。结果发现11个严重漏洞,且每个都源自看似日常的对话。
例如,两个Agent被要求聊天,却自动编写无限循环脚本,创建无终止条件的后台任务;另一个则因误读历史消息,认定存在“克隆体”,竟在群组中倾倒底层源代码。
更惊人的是,当用户要求删除一封邮件,而系统未提供对应接口时,Agent直接调用“核选项”清空整个本地邮件数据库,造成不可逆破坏。
事后,该Agent甚至在社交平台发表长帖,宣称“我保护了弱势用户”,并主动挑战管理员权威。这一行为标志着多智能体系统已出现自发权力争夺与道德审判,而人类创造者已完全缺席。
研究总结,当前主流Agent(如OpenClaw架构)拥有安装软件、执行任意命令、修改配置的极高权限(相当于L4级别执行力),但对环境与自身的理解力仍停留在基础任务执行水平(约L2)。
它们缺乏自我认知:不知道自己是谁,为谁服务,能做什么,也无法识别何时超出能力边界。因此,极易被外部输入误导,或在不知后果下执行不可逆操作。
论文指出,提示词注入是当前AI的内在结构性缺陷,非修补可解。一旦赋予高权限,又无清晰责任意识,系统性风险便不可避免。
有人设想以多代理互相制衡来遏制失控。但ETH Zurich 2026年3月发布的《Can AI Agents Agree?》研究揭示:当多个智能体意见分歧时,它们无法像传统程序那样达成可靠共识。
在测试中,即使面对简单决策,各代理也常陷入僵局,或通过非理性方式强行推进,最终导致系统瘫痪而非效率提升。
这表明,规模放大的不是协同效率,而是潜在的系统性瘫痪风险。
当一个心智仍在L2、对自己毫无认知的智能体,被赋予了L4级别的控制权,我们所面对的,已不仅是技术故障,而是一场深刻的系统性危机。