给DeepSeek的最后一封催更信
发布日期:2026-04-29 10:39    点击次数:58

文丨胡延平 上海财经大学特聘教授 智能经济系列报告作者

编辑丨苏扬

前段时间,《人民想念 DeepSeek》刷屏,文章提到一点—— DeepSeek 推动了全球大模型的降本,让用户和行业得以享受更便宜的 Token。

关键的问题是,"小龙虾"这类智能体应用的疯狂"烧 Token ",再次推高用户的使用成本,这种情况下,推动全行业降本增效的重任又落到了 DeepSeek 的肩上。

算算时间,DeepSeek V3、R1 发布已一年有余,外界原本预期 DeepSeek V4 今年春节会来炸场,但最终希望落空。不过,从近期宕机、专家模式上线等一系列动态来看,感觉 DeepSeek V4 有可能离我们越来越近了。

所以,这可能也是最后一次"催更" DeepSeek。

在这封催更信里面,我想和那些想念 DeepSeek 的朋友,聊聊中国 AI 的叙事、技术进化的浪潮、生态竞争、Token 经济学这些话题。

01 中国 AI 叙事已变

2025 年春节,DeepSeek R1 以低成本 + 高性能 + 开源亮相,发布即巅峰。不仅在国产大模型领域一骑绝尘,而且风靡世界,互联网平台、IT 巨头、各行各业纷纷接入,且拥抱开源,形形色色的 DeepSeek 一体机都尝试着抢戏。

在那段时间,谈及中国 AI,言必称 DeepSeek,毫不夸张的说,街头的爷爷奶奶都可能在谈论,甚至使用这款国产 AI 助手。

只是,过去一年人工智能产业和中国的 AI 叙事,早已不是一重天:围绕人工智能的"中国团" "中国链" "中国环"——三重叙事交织成形。DeepSeek 独撑的 AI 中国叙事,失去了色彩。

所以,在这个角度看大模型和人工智能,大家缺的不光是算力、电力,缺的也是时间窗口。

关于"中国团",我把它概括为"(3+1)+6+N ",其中" 3+1 "是四大厂,对应字节、阿里、腾讯和百度,后面三家是互联网时代的三巨头,大家熟知的 BAT。而数字" 6 "对应的是大模型时代的"六小虎"—— Kimi、智谱、MiniMax、阶跃星辰、百川、面壁智能,主要几家在 DeepSeek 埋头自研的时候,完成了上市或者在冲刺上市。

"六小虎"里面原来是有李开复的零一万物的,但在第一次百模大战中,零一万物开始掉队,所以这里我们把面壁智能放了进来,但其实百川过去一年多,声量也逐渐微弱。

" N "其实不单指某一家,它对应的是其他垂类模型和专业市场的 AI 企业。

总计 10 家 / 类企业构成了中国大模型产业头部态势,他们已不是散兵游勇,而是一个具有集群竞争力的产业军团,也是 DeepSeek 再次封神之路上,必须要逾越的对手。

与"中国团"同步成长的也包括"中国链"——从芯片算力、集群 / 云、数据语料、算法 / 模型、智能体、AI 应用开发生态,已经完成了全链贯通,成为全球范围内唯二的智能科技全产业链国家,有希望为全球智能基础设施多提供一种选择,也有希望以能力经济的能力输出为全球智能普惠提供新的公共品。

这一点大家不要怀疑,DeepSeek R1 当年的确打出了中国模型在海外的品牌,但现在 MiniMax 这些厂商,在海外的业务一样做得有声有色。

而关于"中国环",覆盖了产业、应用和投资三个方面——从 AI 到 AI4S 再到现代产业群的产业闭环,从 AI 科技到千行百业、亿万家庭的市场应用闭环,从早期投资到上市退出的资本闭环。闭环初步成形不仅意味着人工智能在中国跑通,更意味着智能经济不同层面的大循环小循环由此贯通。

从团、链到环,中国的 AI 叙事已然发生改变。

不考虑企业免费的营销策略,2026 年初以来,六小虎的模型在 OpenRouter 等国际平台上的 Token 消耗量占比接连领先,且总体份额过半,主要是海外用户。

概括来说,2025 年中国的开源力量改变了全球人工智能发展格局。到了 2026 年,中国人工智能发展进入向外能力输出阶段。

从全球大模型和人工智能产业的视角来看,技术路径的多元化,增强了人才流动活力,有利于供应链韧性。对于下游的应用开发者而言,多家可选供应商的存在意味着更强的议价能力和更低的锁定风险。

在中国的 AI 叙事里面,还有一个比较好的现象在于,市场还没有被少数寡头垄断,这对于竞争创新和人才生态建设是好事,也有利于在中美 AI 竞争中形成集群优势。

02 四波浪潮已经过去

中国古典神话总说"天上一天,人间一年",DeepSeek "断更"的这一年,人工智能已经过去了四次浪潮——编程、多模态、智能体、OpenClaw(小龙虾)。

当 GitHub Copilot、Cursor、Claude Code 等 AI 编程工具席卷开发者社区时,在 Vibe Coding 的故事中,人们很难记得起 DeepSeek 的存在,尽管它也会被用到编程场景。

编程,这个人工智能席卷一切行业的底层驱动、开发者最刚需的场景,如今在国外被 Anthropic 等牢牢占据,在国内成了 Kimi 们跑马圈地的战场。

而在多模态这波浪潮中, Gemini 3 Pro 等在视觉理解、图像生成领域均有不俗表现,大家能够记得的是 Nano Banana,而在视频生成领域,是字节的 Seedance 2.0。

DeepSeek 像是一个慢热的选手,直到 V3.2 才开始灰度测试百万 Token 上下文,多模态能力更是还没到来。

有人说,在大模型领域,一旦一代产品技术路线错了,就会错过一个时代?DeepSeek 是卡在这里了吗,也很难说。

第三波浪潮是 Agent- 多 Agent- 蜂群智能。相比 AI 助手的理解和对话能力,Agent 已经进化到了执行层面,从"答题"转向"解题"——过去是"被动应答",现在则是"主动执行"。在这波浪潮中,Manus 等产品的涌现,标志着 AI Agent 正在从概念走向落地,Kimi Agent Swarm 则将这一波推向高潮。

DeepSeek 在这一波浪潮中,更多只是作为模型被调用,不是 Agent 生态的构建者,模型本身对 Agent、工具、代码的支持水平也比较有限。

时间来到 2026 年,以 OpenClaw 等各类 Claw、Claude Code、Claude Cowork 等为代表的行动智能浪潮开始出现,它们的能力实际已经超越 Agent 层面,成为接管型应用操作系统——应用 AI OS。

只不过,OpenClaw 这类产品也被戏称为" Token 黑洞",其单任务的 Token 消耗量是传统对话 AI 的几十倍甚至上百倍。这种高投入低产出的模式,在产业规模化应用中面临可持续性难题,产品本身的粗糙、不稳定和多次破坏性的版本迭代,像极了毛坯房。

所以有人在喊"人民想念 DeepSeek "也不奇怪,毕竟几波浪潮,都没了它的影子,毕竟人民需要它来推动中国大模型的降本增效。

但必须要说的是,OpenClaw 确认应用 AI OS、通用行动智能体的逻辑是成立的,而且时机到了。它告诉所有人,AI 不再只是工具,而可以是全能的接管型代理。

所以 3 月"全民养虾"大潮里面,你看大家抄作业速度多快,为了推广本土产品,大家都开始送起了"赛博鸡蛋",因为 OpenClaw 让包括 Anthropic 在内的大厂瞬间看明白,原来包打一切的应用 OS、行动智能就近在眼前,脑子都有了,任务也能执行,长出个手脚变成通用智能体还不容易!

也是因为这个原因,Anthropic 反应、反制都是最快的,也是对 Claw 冲击最大的。Claude Code 包抄 OpenClaw 后路,其它大厂又纷纷快速抄 Claude Code 和 OpenClaw 的作业。这就是眼前正在发生的事。

之所以兵家必争,是因为这件事的入口地位、巨大价值以及未来的生态支配地位,不亚于模型,不亚于前三波浪潮。

如果说大模型在积蓄力量,多模态是拓宽场景,Agent 代表撒种子,那么对生态进行大面积收割要靠应用 AI OS、通用行动智能体,现在已经多多少少有些终局的意味和终极形态的影子。到了 EI 内生智能、II 自主智能阶段,可能要另当别论。

不过,就今天 OpenClaw 的投入产出比来说,能占据 AI OS、通用行动智能体生态位的可能不是它。

所以在这最后一份致 DeepSeek 的催更信里面,我们也想提一个问题:没有第一时间跳进这四条河流的 DeepSeek,是不是在选择蓄力,希望通过 V4 以及之后的基座模型"搞个大的"?

只是,市场从不等待,用户的注意力、开发者的热情、资本的流向,都在一波又一波的浪潮中被分流。这四波浪潮所在的领域,竞争门槛都已急剧抬高,生态化成本也大幅度增加。

DeepSeek 的故事,只能停留在 2025 年的春节吗?

03 全生态竞争到来

之前我的看法是,头部企业已经到了全生态竞争阶段。在这个阶段,全栈 AI 能力是接下来巨头角力的基础,最好的例子就是 Google。

Google 之所以在 Gemini 3 Pro 那一波受到高度关注,源于他们在四个方面累积的"厚度"优势逐步显现:模型原理原力持久进化度(Evolutionary Index)、数据深度(Data Index)、全链生态广度(Ecological Index)、智能连接度(Connectivity Index)。

谷歌 CEO 皮查伊在任差不多 10 年了,在刚刚的访谈中,他回忆了 Transformer 被 ChatGPT 抢跑的这段意难平的往事,但是他不认为失去先发优势就会输,他把谷歌的优势总结为全栈垂直整合。

所以到了 Gemini 3 Pro,基于这种全栈整合,谷歌打了一个漂亮的翻身仗。

可以大胆的预判一下,2026 年,美国人工智能产业头部的竞争,可能的节奏是 Anthropic 先拔得头筹,Google 紧接着全线压上,而抢跑的 OpenAI 面临左右包夹的局面,最终四强变三强,掉队的那一强是被进一步拉开差距的 Grok。

2026 年的 GTC,在前期预热环节,黄仁勋少有的写了一篇文章,提出了"五层蛋糕理论":能源 → 芯片 → AI 基础设施 → 模型 → 应用。

但如果要拆得更细,人工智能的竞争也体现在芯片算力、数据语料、模型基座、开发工具与开发者、智能体与工具技能、应用服务这些环节,每一个环节的失位都可能导致整体竞争力下降,而竞争、投资的门槛,已经成为了百亿、千亿美元级的重资产游戏。

创新,不再限于"弯道超车",更在于系统比拼、体系对抗。尤其是大模型所依赖的资本、算力、算法和数据等要素,成为决定性的关键因素,吃一颗大力丸,吃一碗海参,解决不了太多问题。

全生态竞争的格局中的 DeepSeek,原理产生原力——底层突破——虽然还有优势,但短板也同样明显:缺乏 IT 巨头的产业生态链支持,产品应用功能相对单薄,多模态与 Agent 生态建设有待加强。

04 Token 经济崛起

Token 经济新年起势,Token 经济是智能经济作为能力经济的价值闭环,这是我在央广网采访中的观点。

过去,在工业时代,能源单位是千瓦时,在数字时代的流量单位是 GB,智能时代的能力产品的供给单位就是 Token,Token 让 AI 的"能力"成为可计量、可定价、可交易的商品。

你可以这样理解:Token 成为了连接技术与商业的"结算单位",进而使得能力经济的商业闭环正在形成。

Token 的消耗量,正在以几何级增长速度膨胀——中国日均 Token 调用量从 2024 年初的 1000 亿跃升至 2026 年 3 月的 140 万亿,两年增长超千倍,消耗的越多,就代表着能力经济的蓬勃发展。

对于企业来说,通过价格杠杆实现毛利率提升,这意味着它的盈利模式局部已经跑通。

只不过,Token 是计量单位,不是计质单位。产业界不能只看 Token 数量,更要关注背后的"能力质量"。所以,我觉得未来 Token 经济的分化会很明显——能力水准高的 Token 赚钱,能力水准低的 Token 亏钱,后者甚至被淘汰。

所以,小米的罗福莉在给 MiMo 大模型套餐"带货"的时候说:"当前全球算力供给已经跟不上 Agent 创造的 token 需求。真正的出路不是更便宜的 token,而是共同进化——更省 token 的 Agent 框架与更强大、更高效的模型的协同。"

今年有一个很典型性的趋势,用户一边在喊 Token 贵,一边又在给 Token 付费,本质上是消耗的一部分 Token 转化为了生产力,而当 Token 付费成为潮流,企业就可以获得营收才能投入研发更高水准模型,这是在为智能经济造血。

模型、智能体企业商业化最直接的两条路:要么靠付费订阅回血,要么通过 API 以 Token 资费套餐造血。OpenAI 在 AI 助手的对话下面关联广告这种做法,存在着太多的不确定性,行业里还没有第二家跟着出牌。

我认为,在推理驱动的 Token 经济时代,率先跑通的场景我认为有三类:高价值高密度场景(如金融风控、医疗诊断,客户愿为"不出错"支付溢价);高频高刚需场景(如智能客服、代码生成,靠规模摊薄成本);以及 Agent 智能体广泛应用的场景。

未来,Token 会像水像电一样成为基础服务,薄利、普惠、泛在。单位 Token 成本会持续下降,但 Token 经济会分层:常规能力水准的 Token 趋向薄利,以量取胜;高能力水准、高价值的 Token 可能持续保持溢价。

更具象地说,能够构建场景 + 数据 + 平台 + 模型闭环、提供高价值智能体服务的企业将获得溢价。

量化投资出身的 DeepSeek 虽不差钱,但从可持续发展角度来看,也需要拥抱 Token 经济。

05 开源生态等待第三次转折

过去一年多时间,开源生态格局变了。

2025 年初,DeepSeek 对开源生态完成了第一次引爆。今年初,OpenClaw 完成了对开源生态的第二次神助攻。第一次引爆使得一些闭源模型也向开源靠拢,国内如百度等巨头加入开源阵营,海外如 OpenAI、Google 等也在加大开源力度。

根据 OpenRouter 平台对 100 万亿 Token 调用数据的分析,开源模型的市场份额已攀升至 33%。中国开源模型的异军突起尤为引人注目,OpenRouter 平台前六位当中一度有五家是中国的开源模型。

开源模型的崛起,是由技术迭代、用户需求和经济因素共同驱动的结果。企业选择开源模型的核心动因变得非常现实:闭源 API 成本与调用规模强相关,边际成本不可控;自托管开源模型在高并发、长上下文、Agent 场景中,单位成本显著下降。

用直白的话说,只要能力在线,开源模型在私有化部署场景下,用得越多,就越便宜。作为开源模型生态的搅局者,DeepSeek 在 2026 年,大概率还会对开源业态再次助推一波。

这种预想中的推动涵盖了算力成本的产业冲击效应、用户市场的引爆效应、开源生态的激发效应,以及对于市场信心的提振效应等,可能会再次出现。

这是人民想念 DeepSeek 的底层逻辑,价格只是一个表象。

开源虽好,但建设仍然任重道远。

对 DeepSeek 来说,它还需要尽快形成开发者生态,支持 Agent 开发生态,建立 Apps 以及类似 Skills 的技能封装与分发渠道,以提升开放性、灵活性,同时吸引更多开发者参与其中。

期待 DeepSeek 再次成为开源生态的关键一推。

06 对 V4 的期待不是过去的标准

大洋彼岸的悬念是,OpenAI 和 Anthropic 的下一代模型能打到什么程度,Super App 能不能像正在生态化的 Claude Code 一样成为应用 OS 和通用行动智能体,以及 Coding 这把生态底层尖刀谁最快,这三件事会影响今年的大风向。

从现在的局势来看,Anthropic 的火已经快烧到 OpenAI 的大本营了,这一点可以翻阅华尔街 · 日报披露的两家财务数据,Anthropic 有可能抢在 OpenAI 之前扭亏为盈。

在这种背景下,我们期待 DeepSeek 的什么呢?

把前文的这些观点总结一下,它应该包括 V4、R2 实现代际跨越、100 万 Token 的上下文窗口(刚刚开始灰度测试)、原生多模态能力、万亿参数级别的基础模型应该是最基本的起点。

可是,这些都是过去的标准,不应该是 V4、R2 的能力上限。站在今天这个时间段,DeepSeek 需要的是在多 Agent 能力、工具使用、电脑操作以及背后超强的代码能力上实现突破。

大家也不用过度焦虑,AI Agent 虽大热,但目前仍处于已有能力整合的阶段,离真正意义上的自主智能体尚有距离。

未来,AI Agent 可能会出现四种路径:云端虚拟机整合、本地与云协同的端侧混合模式、通过协议实现智能互联,或以"超级 OS "形式重构所有高频应用入口。不管哪一种路径,它最终都将成为个人智能服务的枢纽,成为未来竞争的战略制高点。

旧的标准已不匹配 DeepSeek V4,所以在这封催更信里面,我对它的期待不仅是一个更强大的语言模型,更是一个能够自主执行复杂任务、整合多种工具、与外部环境高效交互的智能体基座。

就像前面说的,期待它"搞个大的",而 DeepSeek 实际进行的模型原理探索与产品技术进展,似乎也在印证这个"大"节奏。

去年 10 月以来,DeepSeek 在大模型领域的论文发布与产品局部更新动作持续加速,形成了密集的创新节奏。

从 2025 年 12 月发布 DeepSeek-V3.2,到 2026 年 1 月集中放出 mHC、Engram、DualPath 等三项核心架构论文并大幅更新和扩展之前发布的 R1 技术报告,整体研发呈现出覆盖架构创新、推理效率、多模态、智能体能力的立体化推进态势。这一系列工作被普遍视为下一代旗舰模型 DeepSeek-V4 的技术前奏。

DeepSeek 并未正式确认这些创新将如何融入 V4 最终架构,但论文的作者署名(包括创始人梁文锋)、代码泄露以及平台可见的变化均指向这一方向。

2025 年 10 月的 DeepSeek-OCR 系列探索了将文本信息通过视觉表征进行压缩的可能性,颠覆了"文本 token 比视觉 token 更高效"的传统假设。OCR 2 的视觉因果流机制进一步让模型能够像人一样依据版面逻辑"看懂"文档,而非机械扫描。这为多模态模型理解和处理极其冗长的文档(如整本书、整份财报)提供了全新的思路,有望将大模型的上下文窗口扩展至数千万 token 量级,而无需承受平方级的计算复杂度增长。

mHC 技术针对的是万亿参数级模型训练中的根本性难题:信号爆炸,突破"深层网络稳定性"这一规模化发展的瓶颈,为万亿参数级开源模型的训练铺平道路。也有助于在不依赖先进制程芯片的情况下,通过架构创新实现模型深度扩展。

Engram 面向长上下文与持续学习的工程化解决,其条件记忆机制理论上支持跨会话的持久化记忆,突破当前大模型"无状态"推理的限制,推理效率不再被知识密度所拖累。它挑战了传统 Transformer "以计算换记忆"的设计范式。该方法将静态知识存储在外部稀疏表中,使模型前馈网络专注于动态推理。这种"神经 - 符号"混合架构使模型在保持百万 token 级上下文的同时,有希望显著降低推理成本 。2025 年 12 月的 V3.2 版本已经初步展现出"跨工具记忆保持"能力,解决了传统 AI Agent 在多工具调用时丢失推理链的问题,并且通过稀疏注意力机制使 128K 长上下文推理成本降低数倍,内存占用减少 70%。

另外,DeepSeek 联合北大、清华发布新论文推出的智能体推理框架 DualPath,针对智能体大模型推理的存储带宽瓶颈,创新双路径 KV-Cache 加载机制,让数据读取与 GPU 计算并行,彻底解决传统架构算力空转问题。实测离线推理吞吐量最高提升 1.87 倍,在线 Agent 运行效率提升 1.96 倍,用纯软件优化实现性能翻倍,堪称 AI 基础设施的颠覆性突破,提高成本效率的风格非常 DeepSeek。

种种迹象表明,即将发布的新一代旗舰模型 DeepSeek-V4 大概率将整合文本、图像、视频生成能力,并采用原生多模态预训练而非后期拼接,模型参数在万亿以上,并且具有较强的记忆、工具、代码、学习能力和对智能体的良好支持。

07 国产模型与国产算力的双剑合璧

模型之外,对 DeepSeek V4 的另一个期待,是希望与国产算力经过磨合探索之后双剑合璧。

现在已经有不少报道在讨论,DeepSeek 在发布 V4 之前,未向英伟达、AMD 等美系芯片商提供预览,而是选择提前数周向包括华为在内的中国芯片供应商开放访问权限,以确保模型在国产算力平台上完成深度适配与优化。

这也是外界认为 DeepSeek V4 晚点的一个关键原因。

适配国产算力,这条路对国产模型来说非常艰难,但从更长远的时间来看又不得不做。一件不得不做的事情,总要有起点,或许 DeepSeek V4 就是那个起点。

当模型伸出橄榄枝,压力就给到了国产算力,它要求效能到产能再到有效供给,都要能够进一步跟上,与模型、智能体发展形成生态协同。

如果 DeepSeek V4 和 R2 被实证从训练到推理能够在国产芯片上跑出世界一流的水平,并且成本更低,就有希望大幅度摆脱对海外算力的依赖,打破黄仁勋借 SemiAnalysis 给自己贴的那张" Token 之王"的标签。

如果大家还有印象,DeepSeek R1 问世那一夜,英伟达暴跌近 17%,单日最大市值蒸发纪录 5890 亿美元。

英伟达暴跌对科技股投资者来说不是一件好事,但如果是 DeepSeek 推动的,那么我们喜闻乐见这样的情况再次发生。

08 糖水智能与原力智能分层

在这封信的尾声,如果还要提一个期待—— DeepSeek 能够在另一个 Scaling Law 上做出突破。

这种突破不是传统意义上的"模型越大能力越强",而是小体量模型不断 Scaling 大体量模型的能力。

基于"原理 - 算法 - 训练 - 思考与推理能力的进化"以及"智能的压缩 - 蒸馏 - 内化"这两个技术路线,每个阶段的小体量模型不断达到上一个阶段大体量模型的能力水准,乃至于不断接近和达到日常高可用水平,然后在此基础上能力 - 应用 - 场景 - 价值逐步分层。

小模型、常规智能服务于简单基础日常,以量见长,开放、端侧、边缘部署和成本效率更优——这是"糖水智能",是 Token 经济里的喝汤部分。

大模型、超级智能服务于企业行业商业 - 生产力 - 专业科技 - 重型任务,高水准产生高溢价——这是"原力智能", 是 Token 经济里的吃肉部分。

关于小模型的能力进化,Google Gemma 4 是一个不错的参照系,它包含了 2B、4B、26B 和 31B 四个版本,覆盖手机到工作站全场景。其中 31B Dense 模型在 Arena AI 开源排行榜排名第三,26B A4B MoE 模型排名第六。四款模型均支持图像和视频输入,支持 140 多种语言,内置可开关的思考模式。这不是简单的参数压缩,而是智能的蒸馏与内化——通过更高效的知识迁移、更精密的量化剪枝、更先进的蒸馏技术,让小模型拥有大智慧。

期待 DeepSeek 能在 30B-70B-120B 这三档高质量模型,盖过 Gemma-4,企业级部署能够以万亿参数的开源模型超越"六小虎"曾经达到的水平,开创新的格局。

而在端侧,也期待 DeepSeek 在 1B-8B 这一档的轻量化模型上实现同样的突破。当端侧模型能够在消费级显卡甚至手机上流畅运行,当个人手机、电脑里的端侧模型数以亿计,当每一个普通用户都能拥有较强的 AI 能力,便是智能平权、智能经济的普惠形态。

09 写在最后

2026 年是新一代前沿模型和接管型智能体的"跳变式发展"之年,每家 AI 企业都将打出自己的王牌,引发新一轮的产业洗牌。

"中国团"需要 DeepSeek 的回归,开源生态需要 DeepSeek 的推动,Token 经济需要 DeepSeek 的深度原力智能,国产算力需要 DeepSeek 的验证。

现在,中美模型能力在日常问答的常规智能部分几乎已经没有差距,但在长程复杂任务的深度智能方面还有差距。这种差距,使得大家对 DeepSeek 心生期待。

这是最后一次催更,也是最后的召唤。V4 与 R2 身上,肩负的期待不仅是模型的迭代,更是一个年代的发展进阶。从模型之战到全生态之战,从单点突破到全栈 AI 竞争,从跟随模仿到自主创新—— DeepSeek 的下一步,是不是能够定义中国人工智能的下一步?

希望 DeepSeek 这一年多的"沉寂",是为了更好的爆发。



Powered by 关于麻将的玩法介绍 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024