AI杂谈:序章

April 8, 2026 1 min read Author: Yu

2022年,程序员们还在为Github Copilot能Tab补全出一个正确的排序算法而欢呼。2025年,随着Cursor的爆火以及Claude Code CLI的横空出世,AI在编程助手乃至更复杂的工程问题方面已经不是以前玩票性质的东西,而是真正可以带来质变的利器,AI Coding,或者说Agentic Engineering(个人觉得这个定义更准确)正在深刻的影响我们的整个社会结构。在时代快速前进的浪潮下,有必要将这其中跌宕起伏的过程记录下来,这也是开启本系列的动机。若干年后人们回望这个时代,也许会充满对新范式的赞美,也许会因为充满虚幻的泡沫而唾弃,我们获得了什么?我们失去了什么?这也许不重要,重要的是这一切已经开始了。在此我想引用法国大革命中那句亦真亦假的对话作为引言的结束:“这是一次叛乱吗?” “不,陛下,这是一次革命。”

由于本文是本系列第一篇,所以没有一个特别具体的核心话题,而是对之前的一些基本情况做个概括,所以各个方向都会说一些(碎碎念见谅)。早在2026年元旦就开始构思这一系列,彼时还处于Gemini、Claude Code、ChatGPT(Codex) 御三家的状态,DeepSeek V4蓄势待发,只可惜文章还没写完,Gemini就因为略显糟糕的表现在编程领域从御三家中出局(虽然Gemini 3.1 Pro在纯推理基准上表现亮眼,但在实际编程任务的意图理解和整体工程能力上仍逊色不少),而DeepSeek V4也未能如期发布。由此暂时形成了Claude Code + Codex双子星、其他一众模型紧跟的格局。由于AI行业一日千里的发展速度,本文数次遭遇以上拖延症发作导致构思没有变化快的情况,遂决定痛定思痛一口气将第一版彻底完成。

在AI一天一个样的情况下,不管是网络安全攻防、逆向与反逆向,还是从idea到产品落地,整个软件工程领域已经进入了一个躁动又加速的模式。AI Coding工具的市场规模已达128亿美元,85%的开发者已在使用AI编程工具,70%的工程师同时使用2到4种AI工具。与此同时,供应链投毒的风险也在显著增加:就在前不久才爆出了axios库投毒,更不用说2026年1月的ClawHavoc事件中,超过1184个恶意Agent Skills被植入ClawHub市场,成为迄今为止针对AI Agent的最大规模供应链投毒事件之一。在本文即将完成之时,传闻中的下一代Claude Mythos已经开启了Glasswing计划————让企业先使用AI分析自身应用和服务的安全漏洞并修补,然后再全量开放给公众使用。AI在安全方面的威力,已经让人嗅到不远的未来网络安全领域激烈的火药味。

Claude Code

如果说2025年是Claude Code横空出世的一年,那么2026年就是它巩固头把交椅的一年。自2025年5月发布以来,Claude Code以终端原生的交互方式迅速征服了开发者社区——没有花哨的GUI,没有臃肿的IDE插件,就是一个跑在终端里的Agent,却做到了最懂代码的AI。2026年3月,Claude Code默认搭载Opus 4.6模型,在SWE-bench Verified上达到80.8%的得分,位居所有AI编程工具之首。比起模型本身,Harness层的质量也是最终用户体验和综合工程能力关键,Claude Code能够反超前东家OpenAI的重要原因就是CLI客户端设计足够优秀,御三家里只有Anthropic的Claude Code客户端没开源,被一致认为是技术护城河的一部分,但比较戏剧化的是在本文发布之前,Claude Code客户端源码因为map文件误上传的原因发生了泄露,目前各路人马已经对其上手分析拆解(想到一个搞笑的问题Anthropic的Glasswing计划他们难道没给自己先体检一下吗(°ー°〃))。在最近的使用中,Opus-4.6版本的Claude Code在重编程任务下表现的似乎不如人意,并且订阅版本额度也不够用,不知道是因为术业有专攻还是偷偷注水的缘故,再加上Anthropic公司那常常被口诛笔伐的鲜明作风,不知道这头把交椅还能坐多久。

Chatgpt

Codex在前期的表现就有些略显失望,在SWE-bench Verified上,Codex的得分约为80%,与Claude Code的80.8%旗鼓相当,这个结果也足够优秀,但OpenAI被屡屡诟病的原因除了主模型那令人难以忍受的对话风格外,还包括有着行业先发优势却没什么建树、行业标准方面屡屡追赶Anthropic、产品线不清晰等问题。OpenAI像是一个起了大早却一直在赶晚集的人——GPT-3打开了AI应用的大门,ChatGPT定义了对话交互的范式,但到了更细分的Agent编码赛道,反而被Anthropic这种后来者逼到墙角,好在5.4版本似乎又追了回来,我不觉得模型本身——况且是来自两家头部厂家的模型有什么夸张的鸿沟,最终问题又得回到围绕模型的Agent调度上来。

对于OpenAI来说还有一个重要节点是Sora的关停。那个曾经让全网惊呼“视频生成元年”的产品,在烧了无数算力、发了几轮样本、吊足了胃口之后却悄然退场,实在有点可惜。它本可以是OpenAI在多模态领域的一张王牌,结果变成了一颗还没炸响就哑火的摔炮。但换个角度看,关停Sora也许是对的——产品线太乱已经成了OpenAI的顽疾,这边搞视频,那边搞编码,主模型版本号还能玩出花来,用户根本分不清该用哪个,更是闹出了轰轰烈烈的keep4o舆论事件。

AI支付

实现AI自主化运行最重要的一点,就是给AI以支配财富的能力,拥有财富就拥有了支配人的能力,而支配人的能力就是事实上的权力。现在的问题是,该让AI拥有这种能力吗?

早前我尝试过给两个AI生成加密钱包并给其私钥,让AI之间尝试在链上模拟交易。区块链这种去中心化方案天然在技术上容易集成,但是预计在商业上却难以广泛实现。且不说当今加密钱包以及稳定币的普及度如何,单是监管和风控问题就足以给应用落地造成极大阻碍。并且为了防止AI被骗去私钥还要进行安全隔离,这就要引入额外的授权机制,比如多签、权限分层、操作限额白名单之类用户光看说明就想卸载APP的东西,对于普通消费者来说过于冗杂。中心化路线的代表是Stripe。2026年3月18日,Stripe正式发布了Machine Payments Protocol(MPP),一个与Tempo联合设计的开放标准,专为AI Agent提供程序化支付方案。春节期间阿里也在生态闭环内进行了“千问订奶茶”活动,这方面的早期商业探索已经轰轰烈烈的开始。

当然,这并不意味着去中心化方案就完全没有用武之地。一个更可能的方向是:中心化和去中心化各管一摊,并行存在。Stripe和支付宝等服务会继续统治那些规规矩矩、监管清晰的主流支付场景——比如你让AI订杯奶茶、买个会员。但在中心化服务难以触及的地方,比如跨境小微结算、无银行账户地区的AI服务交易、或者某些受制裁或敏感行业的夹缝地带,去中心化的AI支付反而能绕过传统金融的壁垒,实现低成本高效率的资金流动。至于这两种模式未来会不会在某个点交汇,就要看监管的容忍度和技术的成熟度了。不过真正让人思考的问题反而不在技术层面。当AI Agent可以自主发现需求、谈判条件、选择供应商、完成支付——这已经不是”自动化”,而是”自治”。欧盟的PSD2和强客户认证框架要求支付必须有明确的人类授权,目前没有机制允许AI Agent被视为等同于人类付款人。法律和监管才是当前最大的瓶颈。AI Agent经济的规模预计到2030年将达到3-5万亿美元,但在此之前,本节最开始提到的那个问题依然等待着被回答。

Clawdbot(OpenClaw)

我自己不用OpenClaw,但不得不说,养龙虾在2026年初的AI应用落地方向写下了浓墨重彩的一笔。比起传统专精于生产力的Coding CLI,OpenClaw在技术上乏善可陈,本文也无意讨论技术问题,而是对背后隐藏的传播学问题很感兴趣。我想到了豆包这个和龙虾的爆火有异曲同工之妙的案例。比起去年过年期间的流量王Deepseek,豆包并没有现象级的新闻来推动,反而时常被人诟病名字“土”、“俗气”,但却一步步拿下了中国大陆市场占有率第一的桂冠。虽然老东家字节以及背靠抖音的流量入口功不可没,但相当重要的一点是AI的人格化:比起一个不知所云的名字+抽象符号化的图标,下沉市场更能接受豆包这种看起来像一个“人”的AI,对于分不清大语言模型和具身机器人概念的普通人来说,上下文、Prompt,乃至Harness和Agent Loop这种概念是苍白的,甚至生产端和消费端也不必那么泾渭分明,足够的人格化和具像化是一般用户能不能初步接受和养成使用AI习惯的关键,而豆包和OpenClaw都不同程度的做到了这一点。OpenClaw上下文管理糟糕?安全性堪忧?工程能力华而不实?的确如此,但OpenClaw直观的调度方式实现了让相当一部分人的AI使用习惯完成了从只能单点式对话的chatbot到读写文件、管理、执行任务的个人助理的改变。

在腾讯为了抢占AI时代的用户入口而整出腾讯大厦楼下排队安装龙虾的活时,我不禁想起了腾讯曾经生不逢时的产品——QQ宠物,2010年前后QQ宠物的最高同时在线人数(PCU)达到了150万,这在当时的互联网渗透率下是非常可观的数字,但随后的衰落以及彻底关停也反映了一个最根本的问题:人们在电脑桌面上长期挂着一个电子宠物程序是为了什么呢?虽然腾讯同时为此构建了庞大的宠物社区和一套社交系统,预设的行为脚本和对话根本撑不起长时间的使用,也无法持续提供足够的情绪价值。如今腾讯手握足量的Infra以及资本支持,来让他们尝试各种AI落地方案,却恰恰缺了曾经拥有的最关键的这一入口。你说龙虾自己能串门能社交?这一点在N年前的QQ宠物就做到了。而当年QQ宠物之所以失败,是因为缺少了LLM驱动的它太死板——行为可预测、对话可穷举、反应可脚本化,你养它几天就知道它下一句要说什么。而今天OpenClaw也好,豆包也好,真正让人上头想体验的原因不只是它们能干活,还有它们那不可预测的真人感。龙虾会自己逛文件夹、自己写代码、自己搞出一些你根本没教过它的操作;豆包可以聊天吵架拌嘴逗闷子。QQ宠物项目的遗迹上,其实一直长着AI Agent最想要的那套社交框架和用户习惯,只是当年那颗大脑还没出生。现在大脑来了,腾讯却忘了自己曾经创造的那只企鹅。