2026-03-18 14:26:04

200个AI代理模拟霍尔木兹危机：市场定价与群体判断为何背离？

摘要

200个AI代理在MiroFish系统中模拟霍尔木兹海峡局势，群体自然讨论结果平均概率47.9%，远高于Polymarket的31.5%。关键发现：悲观者更接近真实定价，访谈后普遍趋于乐观。参与者越多，信号越有价值。

当一群由AI驱动的角色在虚拟舆论场中自由争论，他们给出的判断，是否比市场定价更接近真相？这正是作者在一次关于霍尔木兹海峡局势的实验中所探索的核心问题。他使用开源工具MiroFish，构建了一个包含200个代理的仿真系统——涵盖政府、媒体、能源公司、交易员与普通民众等多元角色。这些代理基于一份5800字符的多源简报（整合自Wikipedia、CNBC、Al Jazeera等），在模拟的社交网络中持续互动7天，共完成100轮行为推演。

Polymarket的定价错了？200个AI代理模拟危机给出意外答案

整个过程耗时约49分钟，成本控制在3至5美元之间，使用GPT-4o mini模型与Zep Cloud记忆系统，硬件为Mac mini M4 Pro，24GB内存。最终生成了1888条帖子、6661条行为轨迹，以及超过1600次的引用转发，形成一个高度动态的社会化信息传播图景。

群体讨论偏乐观，市场反而更悲观

最引人注目的结果是：群体自然演化出的平均概率为47.9%，而实际市场上Polymarket的定价仅为31.5%。两者相差16.9个百分点。这种分歧并非偶然，而是源于表达机制的本质差异。在自由发帖阶段，悲观观点虽然逻辑严密，但传播力较弱；而乐观立场更容易被放大和转发，形成“情绪共振”。然而，那些在争论中主动提出具体概率判断的代理中，有7位给出了≤30%的评估——包括伊朗外长、中国外长、一位经济学教授、反战活动人士等。他们的平均值为22%，与市场定价仅差不到10个百分点。

访谈模式扭曲真实判断

当作者对43个核心代理进行一对一访谈时，情况发生显著变化。原本在公开讨论中持谨慎甚至悲观态度的代理，在正式提问下几乎全部收敛到60%–70%的区间。这种“合作性表达”与现实世界中领导人面对媒体时的标准话术惊人一致：口头上保持乐观，行动上却另有所图。这揭示了一个深层结构：人们怎么说，与他们怎么想，以及用钱如何下注，往往是三套不同的系统。真正的风险信号，往往藏在不受监督的自发讨论之中。

Polymarket的定价错了？200个AI代理模拟危机给出意外答案

为什么自然表达更可信？

在模拟中，那些未被要求、却自发提出概率判断的代理，其结论更贴近市场。尤其是具备专业知识背景的个体——如金融顾问、能源分析师、学术研究者——他们在非正式语境下的判断更具参考价值。相比之下，访谈结果更像是“角色扮演”，而非真实心理映射。这一现象也映射了现实：国家领导人不会在新闻发布会上说‘我们预计局势将恶化’，但他们可能已开始部署军事力量、调整资产配置、冻结部分资金。真正的决策信号，往往不在公开陈述中，而在行动与沉默里。

未来优化方向：更大规模、更深背景

作者表示，当前实验仅为初步验证。下一步计划从三方面提升：一是扩展种子数据，引入20年以上的历史背景，让代理具备更完整的地缘认知；二是改用更强模型，减少合作偏好带来的表达失真；三是增加代理数量，丰富平民角色多样性。因为正如文中所言：参与者越多，讨论结构就越丰富，最终形成的信号也会越有价值。这场实验不仅是一次技术测试，更是对“预测本质”的重新思考——在复杂系统中，最有价值的信号，往往来自那些在噪音中显得不合群的声音。

Polymarket的定价错了？200个AI代理模拟危机给出意外答案