芝加哥大学研究人员近日发布了一项名为“预言竞技场”(Prophet Arena)的新型人工智能基准测试,旨在评估AI系统在真实世界事件预测中的表现。该测试通过让AI模型预测Kalshi和Polymarket等平台上的未决事件结果,涵盖选举、体育赛事及经济指标,首次实现对机器智能与人类集体判断的系统性比较。
与传统依赖历史数据的基准测试不同,Prophet Arena将评估锚定于尚未解决的真实事件,确保无预训练优势、无样本泄露,也无隐藏微调技巧。这一设计使测试环境更接近现实决策场景,真正检验模型在不确定性下的推理能力。
初步结果显示,部分先进AI模型已具备与市场共识相抗衡甚至超越的能力。GPT-5以82.21%的Brier得分位居榜首,体现其在概率估计上的高精度。OpenAI的o3-mini则成为盈利冠军,成功预测多伦多足球俱乐部击败圣地亚哥队,以1美元投注获得9美元回报,其预测概率为30%,远高于市场预期的11%。
在预测2026年前是否出台联邦级AI法规时,市场给出的概率仅为25%。但各模型反应迥异:Qwen 3预测高达75%,GPT-4.1为60%,而Llama 4 Maverick仅给出35%。深思(DeepSeek R1)则频繁做出与主流市场相反的预测,显示出独特的“反向思维”特征,虽具风险,但也揭示了模型间多样化的推断逻辑。
Prophet Arena不仅评估预测结果,还支持用户输入新闻背景信息,观察模型如何调整判断。每项预测均附带详细依据说明,提升透明度与可信度。这种交互机制为机构提供了一个探索人机协同决策的新范式。
随着预测市场本身逐步融入人工智能(如Kalshi与Grok合作、Polymarket生成AI摘要),Prophet Arena标志着机器智能正迈向一个关键转折点。若AI持续在复杂环境中保持稳定高准度预测,其将在投资决策、政策制定与危机预警等领域发挥核心作用,不受情绪干扰,实现纯粹基于事实的理性推演。
平台每日更新事件进展,构建一幅动态演进的图景,持续追踪人工智能是否真能通过连接今日信息,精准预见未来。这项研究不仅关乎技术进步,更触及智能本质的核心命题:机器能否真正理解世界并作出可靠预测?