2025-08-22 09:33:04

AI预测能力挑战群体智慧：芝加哥大学新基准测试引关注

摘要

芝加哥大学推出的Prophet Arena基准测试显示，AI模型在预测真实世界事件方面已能匹敌甚至超越传统预测市场。GPT-5以82.21%的Brier得分领先，o3-mini实现盈利冠军，展现人工智能在不确定性推理与实时决策中的潜力。

芝加哥大学研究人员近日发布了一项名为“预言竞技场”（Prophet Arena）的新型人工智能基准测试，旨在评估AI系统在真实世界事件预测中的表现。该测试通过让AI模型预测Kalshi和Polymarket等平台上的未决事件结果，涵盖选举、体育赛事及经济指标，首次实现对机器智能与人类集体判断的系统性比较。

突破传统：基于未来事件的动态评估

与传统依赖历史数据的基准测试不同，Prophet Arena将评估锚定于尚未解决的真实事件，确保无预训练优势、无样本泄露，也无隐藏微调技巧。这一设计使测试环境更接近现实决策场景，真正检验模型在不确定性下的推理能力。

AI表现亮眼：多模型展现差异化预测能力

初步结果显示，部分先进AI模型已具备与市场共识相抗衡甚至超越的能力。GPT-5以82.21%的Brier得分位居榜首，体现其在概率估计上的高精度。OpenAI的o3-mini则成为盈利冠军，成功预测多伦多足球俱乐部击败圣地亚哥队，以1美元投注获得9美元回报，其预测概率为30%，远高于市场预期的11%。

模型个性差异显著：从共识到反向预测

在预测2026年前是否出台联邦级AI法规时，市场给出的概率仅为25%。但各模型反应迥异：Qwen 3预测高达75%，GPT-4.1为60%，而Llama 4 Maverick仅给出35%。深思（DeepSeek R1）则频繁做出与主流市场相反的预测，显示出独特的“反向思维”特征，虽具风险，但也揭示了模型间多样化的推断逻辑。

人机协作：增强可解释性与决策支持

Prophet Arena不仅评估预测结果，还支持用户输入新闻背景信息，观察模型如何调整判断。每项预测均附带详细依据说明，提升透明度与可信度。这种交互机制为机构提供了一个探索人机协同决策的新范式。

未来展望：重塑风险评估与战略规划

随着预测市场本身逐步融入人工智能（如Kalshi与Grok合作、Polymarket生成AI摘要），Prophet Arena标志着机器智能正迈向一个关键转折点。若AI持续在复杂环境中保持稳定高准度预测，其将在投资决策、政策制定与危机预警等领域发挥核心作用，不受情绪干扰，实现纯粹基于事实的理性推演。

平台每日更新事件进展，构建一幅动态演进的图景，持续追踪人工智能是否真能通过连接今日信息，精准预见未来。这项研究不仅关乎技术进步，更触及智能本质的核心命题：机器能否真正理解世界并作出可靠预测？