2025-07-02 11:06:18
loading...

第三次浏览器战争:AI Agent时代入口之争

摘要
随着大型语言模型崛起,传统搜索模式面临挑战。谷歌为维持默认搜索引擎地位支付200亿美元,而苹果或推出自研AI搜索引发市场震荡。浏览器正从信息展示工具转向AI Agent的系统调用平台,未来胜负关键在于谁能赢得智能体的信任与调用入口。
第三次浏览器战争正在悄然展开。回顾历史,从上世纪90年代的Netscape、微软的IE,再到开源精神的Firefox与谷歌的Chrome,浏览器之争始终是平台控制权与技术范式变迁的核心体现。Chrome凭借更新速度与生态联动夺得霸主地位,而谷歌通过搜索与浏览器的双寡头结构,形成了信息入口的闭环。 但今天,这一格局正在动摇。大型语言模型(LLM)的崛起,使得越来越多用户在搜索结果页实现“零点击”操作,传统的网页点击行为持续减少。同时,苹果有意在Safari中替换默认搜索引擎的传闻,进一步威胁阿尔法贝塔(Google母公司)的利润根基,市场已开始显露出对“搜索正统”的不安。 浏览器本身也正面临角色重塑。它不仅是展示网页的工具,更是数据输入、用户行为、隐私身份等多种能力的集合容器。尽管AI Agent强大,但在完成复杂页面交互、调用本地身份数据、控制网页元素时,仍需依赖浏览器的信任边界与功能沙盒。浏览器正在从人类界面,转变为Agent的系统调用平台。 在本文中,我们探讨了浏览器是否还有存在的必要。我们认为,真正可能打破当前浏览器市场格局的,并非另一个“更好的Chrome”,而是一种新的交互结构——不是信息的展示,而是任务的调用。未来浏览器要为AI Agent设计,不仅能读,还能写和执行。 像Browser Use这样的项目正尝试将页面结构语义化,把可视化界面转化为LLM可调用的结构化文本,实现页面到指令的映射,极大降低交互成本。市面上主流项目已开始试水:Perplexity构建原生浏览器Comet,用AI代替传统搜索结果;Brave结合隐私保护与本地推理,增强搜索与屏蔽功能;而Donut等Crypto原生项目,则瞄准AI与链上资产交互的新入口。这些项目共同特征是:试图重构浏览器的输入端,而非美化其输出层。 对创业者而言,机遇藏在输入、结构与代理的三角关系中。浏览器作为未来Agent调用世界的接口,意味着谁能提供可结构化、可调用、可信任的“能力块”,谁就能成为新一代平台的组成部分。从SEO到AEO(Agent Engine Optimization),从页面流量到任务链调用,产品形态与设计思维都在重构。第三次浏览器战争,发生在“输入”而非“展示”;决定胜负的,不再是谁抓住用户的眼球,而是谁赢得了Agent的信任,获得调用的入口。 浏览器发展简史:在上世纪90年代初,Netscape Navigator横空出世,开启了大众互联网时代。然而微软迅速将其捆绑进Windows系统,凭借分发优势迅速取代其地位。在困境中,原工程师选择开源,催生了Firefox,标志着开源精神的胜利。与此同时,Opera与Safari也相继登场,虽未撼动主流,但技术先行。 2008年,谷歌发布Chrome,基于Chromium与WebKit打造,凭借每六周一次的快速迭代节奏与全平台统一体验,迅速崛起。2011年,Chrome首次超越Firefox;六个月后反超IE,完成从挑战者到主宰者的转变。进入2020年代,Chrome全球市场份额稳定在约65%。 值得注意的是,谷歌搜索与Chrome虽同属Alphabet,但已是两个独立霸权体系。为守住双重垄断,谷歌2022年向苹果支付约200亿美元,以确保Google在Safari中保持默认搜索地位。这笔支出相当于其从Safari流量中获取收入的36%,堪称护城河的“保护费”。 但风向又一次变化。2024年,谷歌搜索市场份额从93%跌至89%,裂痕初现。更具颠覆性的,是关于苹果或将推出自有AI搜索引擎的传闻——若Safari默认搜索改投自家阵营,不仅将改写生态格局,更可能撼动谷歌的利润支柱。市场反应迅速,阿尔法贝塔股价从170美元应声下跌至140美元,反映的不仅是投资者的恐慌,更是对搜索时代未来走向的深度不安。 为什么AI会重塑浏览器?首先需要明确:浏览器这一形态为何仍然存在?是否存在第三种选择?我们认为,存在即无法替代。因为浏览器是通用平台,不仅是读取数据的入口,更是输入数据的通用入口。世界不可能只有信息输入,还必须产生数据并与网站进行交互,因此整合个性化用户信息的浏览器仍将广泛存在。 浏览器是个性化内容的存储场所:多数大型模型托管在云端,会话上下文依赖服务器保存,难以直接调用本机密码、钱包、Cookie等敏感数据;将全部浏览和支付数据送往第三方模型,需重新获得用户授权;欧盟《DMA》与美国州级隐私法均要求数据最小化出境;自动填写验证码、调用摄像头或利用GPU进行WebGPU推理,都必须在浏览器沙盒内完成;数据上下文高度依赖浏览器,包括标签页、Cookie、IndexedDB、Service Worker Cache、Passkey凭据以及扩展数据,都沉淀在浏览器中。 交互形式的深刻变革:过去人们通过输入关键字完成交互——这是浏览器能理解的极限。而现在,用户越来越倾向于使用一整段自然语言描述复杂任务,如“寻找纽约到洛杉矶某个时间段的直飞机票”或“寻找纽约飞上海然后到洛杉矶的机票”。这些行为即使对人类来说也需要耗费大量时间访问多个网站、收集与比较数据。但这些Agentic Tasks(代理任务)正在逐步被AI Agent接管。 这也符合历史演进方向:自动化与智能化。人们渴望解放双手,AI Agent必将深度嵌入浏览器。未来的浏览器必须为全自动化而设计,尤其要考虑:如何兼顾人类阅读体验与AI Agent可解析性,如何在同一个页面上既服务于用户,也服务于代理模型。只有满足这两者的设计,浏览器才能真正成为AI Agent执行任务的稳定载体。 接下来聚焦五个备受关注的项目:Browser Use、Arc(The Browser Company)、Perplexity、Brave及Donut。它们分别代表了AI浏览器的未来演进方向及其在Web3和Crypto场景中的原生结合潜力。 Browser Use构建了一个真正的语义层,其核心在于为下一代浏览器构建语义识别架构。它把传统「DOM=给人看的节点树」重新解码成「语义DOM=给LLM看的指令树」,让代理无需“看片点坐标”就能精准点击、填写与上传。这条路线以“结构化文本→函数调用”取代视觉OCR或坐标Selenium,执行更快、token更省、出错更少。TechCrunch称其为“让AI真正读懂网页的胶水层”,3月完成的1700万美元种子轮正是押注这一底层革新。 HTML渲染后形成标准DOM树;浏览器再派生一棵accessibility tree,为屏幕阅读器提供更丰富的“角色”与“状态”标签。将每个可交互元素抽象为带角色、可见性、坐标、可执行动作等元数据的JSON片段;将整棵页面转译成扁平化“语义节点清单”,供LLM一次性读取;接收LLM输出的高层指令(如click(node_)),回放到真浏览器。官方博客称此过程为“把网站接口变成LLM可解析的structured text”。一旦这套标准被引入W3C,将极大解决浏览器输入问题。 Arc团队在其公开信中表示,ARC浏览器将进入常规维护阶段,团队重心将转向完全面向AI的浏览器DIA。他们预测:网页不会成为主要界面,传统浏览器是为加载网页而建,但越来越多的应用、文章与文件将变为工具调用,由AI聊天界面完成。然而,这一观点显著低估了浏览器的作用。大模型在意图捕捉方面优异,但在信息密度承载能力上仍显不足。当用户需要仪表盘、彭博终端风格记事本或类似Figma的可视化画布时,像素级精度排列的专用网页更具优势。每款产品量身定制的人体工程学设计——图表、拖放功能、热键——并非装饰性浮渣,而是压缩认知的可供性。这些能力是简单对话式交互无法承载的。 因此,真正能够撼动市占率高达66%的Chrome的,注定不会是“下一个Chrome”。要实现颠覆,必须对浏览器的渲染模式进行根本性重塑,使其适配智能时代AI Agent主导下的交互需求,尤其是在输入侧的架构设计上。正因如此,我们更认可Browser Use所采取的技术路径——其关注点在于浏览器底层机制的结构性变革。任何系统一旦实现“原子化”或“模块化”,其衍生出的可编程性与组合性将带来极具破坏力的颠覆潜力。 Perplexity是其推荐系统著称的AI搜索引擎,最新估值达140亿美元,较2024年6月增长近5倍。月均处理搜索查询量超4亿次,2024年9月处理约2.5亿次,同比增长8倍,月活跃用户超3000万。其主要特点为实时总结页面,在获取即时信息方面具优势。今年初,其开始构建原生浏览器Comet,宣称将深度嵌入答案引擎,实现“显示”与“思考”一体化,采用乔布斯式的“整机”思路,将AI任务深埋浏览器底层。 但其仍需解决高搜索成本与边际用户低利润率问题。尽管在AI搜索领域领先,谷歌在2025年I/O大会上宣布对其核心产品进行大规模智能化重塑,推出名为“Project Mariner”的新浏览器标签页体验,集成Overview、Deep Research及未来Agentic功能。因此,仅靠表层功能模仿难以构成根本性威胁。真正可能建立新秩序的,将是底层重构浏览器架构、将大语言模型深度嵌入内核、实现交互方式根本性变革的项目。 Brave是Crypto行业最早期也是最成功的浏览器,基于Chromium架构,兼容Google Store插件。其依靠隐私保护与浏览赚取Tokens的模式吸引用户。截至2025年2月,月活达8270万,日活3560万,市场份额约1%-1.5%。用户规模持续增长,年均复合增长率维持两位数。但其隐私特性需求集中于特定群体,对大众而言尚未成为主流决策因素,因此难以颠覆巨头。其AI助手Leo更像外挂插件,缺乏全面转向AI Agent的明确战略,交互层面革新仍显不足。 Donut是近期Crypto领域在Agentic Browser方向的进展项目,Pre-seed轮融资700万美元,由红杉中国、HackVC与Bitkraft Ventures领投。项目愿景在于实现“探索—决策—加密原生执行”一体化能力。其核心在于结合加密原生的自动化执行路径。正如a16z所预言,未来Agent有望取代搜索引擎成为主要流量入口,创业者将不再围绕Google排序算法竞争,而是争夺由Agent执行带来的访问与转化流量。业界已将这一趋势称为“AEO”(Answer/Agent Engine Optimization)或“ATF”(Agentic Task Fulfilment)——不再优化搜索排名,而是直接服务于能替用户完成下单、订票、写信等任务的智能模型。 给创业者的启示:首先必须承认,浏览器仍是互联网世界最大的未被重构的“总入口”。全球桌面用户约21亿,移动端超43亿,它是数据输入、交互行为、个性化指纹存储的共同载体。这个形态之所以存续,不是因为惯性,而是因为浏览器天然具备双向属性:既是数据“读入口”,也是行为“写出口”。 因此,真正具备颠覆潜力的并非“页面输出”层面的优化。即便能在新标签页中实现类似Google的AI概览功能,本质上仍属于浏览器插件层的迭代,尚未构成范式根本性变革。真正的突破口在于“输入侧”——即如何使AI Agent主动调用你的产品,以完成具体任务。这将成为未来产品能否嵌入Agent生态、获得流量与价值分配的关键。 搜索时代拼“点击”;代理时代拼“调用”。如果你是一名创业者,不妨把产品重新想象成一颗API组件——让智能体不仅能“读懂”它,更能“调用”它。这就要求你在产品设计一开始就考虑三个维度: 一、接口结构标准化:你的产品是“可调用”的吗?信息结构能否标准化并抽象为明确schema?注册、下单按钮、评论提交等关键操作是否可通过语义化DOM结构或JSON映射描述?是否提供状态机使Agent能稳定复现用户行为流程?是否支持脚本化还原?是否有稳定访问的WebHook或API Endpoint? 二、身份与通行:你能帮Agent“越过信任障壁”吗?代理要完成交易、调用支付或资产,需要可信中间层。浏览器天然可读取本地存储、调用钱包、识别验证码、接入双因子验证,这正是它比云端大模型更适合做执行的原因。在Web3场景中尤其如此:调用链上资产接口标准不统一,代理若无“身份”或“签名能力”,将寸步难行。 三、流量机制再理解:未来不是SEO,是AEO/ATF。过去你要争取Google算法青睐;现在你要被AI Agent嵌入任务链。这意味着产品要有清晰任务颗粒度:不是一个“页面”,而是一串“可调用能力单元”;要开始做Agent优化(AEO)或任务调度适配(ATF):注册流程是否可简化为结构化步骤?定价是否可接口拉取?库存是否实时可查?甚至要适配不同LLM框架下的调用语法——OpenAI与Claude对函数调用偏好不一致。 Chrome是通往旧世界的终端,而不是通往新世界的入口。真正有未来的创业项目,不是再造一个浏览器,而是让现有浏览器为Agent服务,为新一代的“指令流”建立桥梁。你要构建的,是Agent调用你世界的“接口语法”;你要争取的,是成为智能体信任链中的一个环节;你要搭建的,是下一个搜索模式里的“API城堡”。如果说Web2是靠UI抓住用户的注意力,那Web3 AI Agent时代,就是靠调用链抓住Agent的执行意图。
声明:文章不代表比特之家观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
币圈快讯
查看更多
热门币种
BTC比特币
105,239.09 USDT
¥755,174.66
+0.76%
ETH以太坊
2,517.54 USDT
¥18,065.36
+0.25%
USDT泰达币
1.00000 USDT
¥7.18
+0.01%
XRP瑞波币
2.15 USDT
¥15.44
+0.13%
BNB币安币
646.71 USDT
¥4,640.66
+0.96%
SOLSolana
145.58 USDT
¥1,044.65
+1.24%
USDC
0.99980 USDT
¥7.17
+0.01%
TRX波场
0.27410 USDT
¥1.97
-0.11%
DOGE狗狗币
0.16830 USDT
¥1.21
-0.18%
ADA艾达币
0.59440 USDT
¥4.27
0%
查看更多
回顶部