← 首页

AI 专题

DeepSeek V4 专题:百万上下文、开源前沿与中国 AI 栈迁移

DeepSeek V4 Preview 不只是一次模型升级,它把长上下文、推理模式、Agent 工作流和国产算力适配放在了同一个技术叙事里。

DeepSeek V4 百万上下文与 AI 栈迁移专题图

DeepSeek V4 Preview 的价值,不在于又多了一个“大参数模型”,而在于它把三个原本分散的叙事合到了一起:开源模型继续逼近闭源前沿,Agent 正在取代单轮聊天成为主要战场,中国 AI 栈开始从“能跑”走向“为国产芯片深度优化”。如果只看榜单,V4 是一次模型发布;如果把技术、价格、硬件和企业采购放在一起看,它更像一次基础设施迁移的公开测试。

判断 V4 的真实分量,不能只看发布口径,也不能只看 benchmark 排名。更有效的切入点有三条:第一,它是否把长上下文从“能演示”推进到“能规模化使用”;第二,它是否让 Agent 从 prompt 技巧变成模型训练和基础设施的一部分;第三,它是否证明中国 AI 栈正在从模型层向芯片、云集群和开发者工具层延伸。

截至 2026 年 4 月 30 日,能确认的是:DeepSeek V4 仍是 Preview Release;官方发布了 Flash 与 Pro 两个主要版本;V4-Pro 总参数 1.6T、激活参数 49B,V4-Flash 总参数 284B、激活参数 13B;两者都是 MoE 模型,支持 100 万 token 上下文;权重使用 MIT License;Instruct 模型支持 Non-think、Think 和 Think Max 三档推理模式。不能直接当成事实的是:完整训练硬件、真实训练成本、华为芯片在训练中的比例、以及官方 benchmark 在所有第三方场景中的可复现程度。

V4 的真正看点,不是“DeepSeek 又追上了谁”,而是它把长上下文经济性、Agent 后训练、开源权重和国产算力适配变成了同一个系统问题。

三条主线决定 V4 的分量

第一条主线是算力生态。V4 不只是发布了新权重,也把 DeepSeek 和华为 Ascend 的关系推到台前。公开信息显示,华为在 V4 发布后表示 Ascend 950 supernode 产品线支持 DeepSeek-V4 系列,并称部分 V4-Flash 训练使用了其芯片。这个信息的关键不在宣传口径,而在产业结构:模型发布正在变成芯片、云服务、推理框架和开发者生态的联动事件。

第二条主线是软件栈重构。V4 被长期期待,但发布节奏比市场预期更慢,一个合理解释是 DeepSeek 并不满足于让模型“能在国产芯片上跑”,而是要做更深的硬件特定优化。大模型从 Nvidia 迁到 Ascend,难点不只是算子兼容,而是吞吐、通信、显存、编译器、框架和容错能不能一起进入可生产状态。

第三条主线是能力边界。V4 缩小了开源模型与闭源前沿模型的差距,但它还不是“全面替代”。它当前仍是 text-only,暂时不处理图像、音频和视频;在知识类任务上,也不能简单假设已经超过最新闭源前沿模型。V4 更强的叙事,集中在开源权重、价格、长上下文和 Agent/coding 场景。

因此,V4 不是单点技术突破,而是一次系统性下注。DeepSeek 赌的是,未来模型竞争不只看单轮回答质量,而看谁能在更低成本下承载长任务、工具调用、私有部署和硬件供给的不确定性。

DeepSeek 为什么必须这么做

DeepSeek 做 V4 的方式,本质上是在避开一场它不占优势的战争。闭源巨头最擅长的是多模态产品矩阵、全球云资源、海量商业入口和持续堆算力。如果 DeepSeek 也按同一套打法去拼“最强通用助手”,它会很快落入算力、生态和渠道都更重的战场。V4 的选择更像是换战场:不在消费级助手里正面硬拼,而是在开源权重、长上下文、Agent、私有部署和国产算力这些闭源巨头不完全占优的地方制造变量。

第一,它需要用开源权重放大影响力。DeepSeek 没有 OpenAI、Google、Anthropic 那样的全球企业销售和云产品入口,开源就是它的分发渠道。MIT License 不是单纯的技术姿态,而是增长策略:让云厂商、创业公司、企业内部平台、硬件厂商都可以围绕 V4 做适配。DeepSeek 不必自己拿下每一个客户,只要让更多基础设施把 V4 当成默认选项,它就能把模型影响力扩散出去。

第二,它需要用 MoE 和推理分层缓解算力劣势。美国头部实验室可以持续扩大训练和推理集群,中国模型公司面对的现实约束更硬:高端 GPU 供给、出口管制、云资源价格、国产芯片成熟度都存在不确定性。V4 的 Flash/Pro、Non-think/Think/Think Max,本质上是在把算力约束产品化。DeepSeek 不是假装算力无限,而是把不同任务拆成不同预算层,让模型服务在资源不充裕的情况下仍能覆盖足够多的场景。

第三,它需要提前押注 Agent,因为聊天机器人的差异化空间正在变小。普通问答、摘要、翻译、写作这些场景已经高度同质化,用户很难因为单轮回答略好就迁移平台。Agent 不同,它绑定代码仓库、工具权限、企业数据、工作流和执行结果,一旦跑通,迁移成本更高,商业价值也更高。V4 对工具调用、跨轮状态和沙箱训练的投入,说明 DeepSeek 想抢的不是“回答问题”的入口,而是“完成任务”的基础设施。

第四,它需要和国产芯片形成互相证明。DeepSeek 需要稳定算力,华为 Ascend 需要标杆模型,云厂商需要可卖的国产 AI 栈,企业客户需要降低供应链风险。V4 把这几方利益绑到了一起:模型越强,Ascend 越有部署理由;Ascend 越成熟,DeepSeek 越能降低对受限算力的依赖。这不是简单的技术合作,而是中国 AI 产业链在外部约束下形成的互保结构。

所以,V4 的深层逻辑不是“发布一个更强模型”,而是“把 DeepSeek 从模型公司推向生态节点”。如果它成功,DeepSeek 不只是模型供应商,还会成为国产 AI 栈里的事实标准之一;如果失败,它仍可能有强模型,但很难摆脱算力供给、闭源模型迭代和渠道劣势的挤压。

参数变大不是主线,激活效率才是主线

V4-Pro 的 1.6T 总参数很容易成为标题,但 MoE 模型的关键不是“总参数越大越好”,而是每次推理实际激活多少参数。V4-Pro 每 token 激活约 49B 参数,V4-Flash 激活约 13B 参数。它们通过稀疏激活把模型容量和推理成本拆开:模型可以储存更宽的能力分布,但每次请求不必动用全部参数。

这也是 Flash/Pro 双版本的产品逻辑。Flash 不是简单的“小模型”,而是成本、延迟和吞吐优先的版本,适合高频、低风险、可容错的任务;Pro 则服务于复杂推理、代码、Agent 和更高价值的工作流。对企业来说,这种分层比“一个最强模型包打天下”更现实,因为真实系统里 80% 的请求不值得用最高推理成本处理。

MIT License 进一步改变了模型的商业属性。很多开放模型看似可下载,但许可证、商用限制、权重可用性、部署文档和推理框架支持会把企业挡在门外。V4 使用 MIT License,让私有化部署、行业微调、模型网关接入和内部 Agent 平台评估更容易进入采购流程。当然,许可证宽松不等于部署简单,1.6T MoE 模型的工程门槛仍然很高。

这里最值得关注的不是参数规模,而是 DeepSeek 是否在试图复制一种新的开源模型范式:给出足够强的基础权重,用 MoE 控制推理成本,用推理模式做预算分层,用长上下文和 Agent 后训练切入高价值场景,再让云厂商和硬件厂商围绕它做生态适配。

百万上下文的本质是成本问题

100 万 token 上下文很容易被营销成“能塞下一整本书、一个仓库或一堆合同”。但长上下文真正难的不是窗口上限,而是代价。上下文越长,注意力计算、KV cache、显存占用、延迟和错误传播都会放大。一个模型如果只能在演示里处理 1M token,而不能以可接受成本服务真实 Agent,它对生产系统的意义就很有限。

DeepSeek V4 的技术核心之一是 Hybrid Attention Architecture。Hugging Face 技术解读显示,V4 的注意力层在 CSA 和 HCA 之间交替,前馈层使用 DeepSeekMoE,并用 manifold-constrained hyper-connections 替代传统 residual connections。CSA 可以理解为面向长上下文的稀疏压缩注意力,HCA 则进一步压缩历史信息,目标是在保留长程依赖的同时降低计算与缓存压力。

公开技术解读里最关键的一组数字是:在 1M token 场景中,V4-Pro 相比 V3.2 只需要约 27% 的单 token 推理 FLOPs 和约 10% 的 KV cache。这个指标比“支持 1M token”更重要。因为真正决定长上下文能否进入生产的,是每个新增 token 对成本曲线的影响,而不是模型卡上的最大窗口。

但长上下文也有边界。Hugging Face 解读提到,长上下文检索中 MRCR 8-needle 准确率到 256K token 仍高于 0.82,到 1M token 降到 0.59。这个数字提醒我们:1M 上下文不等于 1M 里的每个细节都能被稳定调用。工程上仍然需要检索、分段、证据标注、摘要层和任务状态管理。把所有材料直接塞进上下文,通常只是把检索问题推迟到模型内部,而且更难调试。

Agent 才是 V4 最重要的应用假设

V4 面向 Claude Code、OpenClaw 等 Agent 框架,这个细节比很多 benchmark 更有信息量。DeepSeek 不是只想让 V4 回答问题,而是让它读代码、调用工具、执行命令、处理报错、回到上下文继续修复。Agent 工作流对模型的要求和聊天完全不同:它需要长期状态、工具格式稳定、错误恢复能力、权限边界和跨轮一致性。

Hugging Face 技术解读给出了三个更具体的 Agent 设计。第一是跨工具调用的 interleaved thinking。V3.2 会在新用户消息到来时丢弃此前推理内容,V4 在含工具调用的会话里保留跨轮 reasoning history,使多轮任务的状态更连续。第二是引入 |DSML| 特殊 token 和 XML 工具调用格式,减少 JSON 字符串嵌套时常见的转义失败。第三是 DSec 沙箱,用 Rust 平台统一 function calls、containers、Firecracker microVMs 和 QEMU VMs,为 RL rollout 提供真实工具环境。

这些设计说明 V4 的后训练目标不是单纯“会做题”,而是让模型在环境里学习行动。Agent 的难点不在一句答案,而在轨迹:模型是否能选择正确工具,是否能读懂工具输出,是否能从失败中恢复,是否能在上下文变长后保持目标不漂移,是否能在多轮用户干预后不重置任务状态。

所以 V4-Pro-Max 在 Terminal Bench 2.0、SWE Verified、MCPAtlas、Toolathlon 等 Agent benchmark 上的成绩,比传统知识问答分数更值得看。公开解读中,V4-Pro-Max 在 SWE Verified 上达到 80.6 resolved,MCPAtlas Public 达到 73.6,Toolathlon 达到 51.8。这些数字不能直接替代真实业务测试,但它们说明 DeepSeek 把训练和评估重心放到了“模型能不能完成任务”上。

三档推理模式是成本控制接口

V4 的 Instruct 模型支持 Non-think、Think 和 Think Max。表面看,这是模型“思考得深不深”的开关;更本质上,它是把推理预算暴露给应用层。企业系统最需要的不是永远最聪明的模型,而是能按任务风险分配成本的模型。

Non-think 适合低风险、低复杂度、高并发的任务,例如摘要、分类、格式化、简单问答。Think 适合需要规划、对比、代码修改、策略生成的任务。Think Max 则更像高成本求解模式,用于疑难 bug、复杂工程迁移、关键决策辅助或 benchmark。DeepSeek 模型卡还建议 Think Max 至少配置 384K token 上下文,这本身就说明高推理模式不是免费午餐。

这会改变应用架构。过去很多 AI 应用只是在 prompt 里写“请一步一步思考”,然后把所有请求交给同一个模型。V4 这种模式分层,让系统可以把请求先做路由:低价值请求走 Flash Non-think,中等复杂度走 Flash Think,高价值或失败重试走 Pro Think,少数关键节点才进入 Pro Think Max。真正的成本优势来自这种调度,而不是单个模型报价。

也因此,评估 V4 不应该只问“Pro-Max 比 GPT 或 Gemini 高几分”。更应该问:Flash 能覆盖多少日常请求?Pro 是否显著降低人工返工时间?Think Max 的边际收益是否值得成本?模型失败后是否能自动降级、重试或升级?这些才是生产系统里的真实问题。

华为 Ascend 适配的产业含义

DeepSeek V4 和华为 Ascend 的关系,是这次发布最容易被过度解读、也最不能忽略的部分。公开可验证的信息是:V4 被适配到华为芯片;华为称 Ascend 950-based supernode clusters 支持 V4;并称部分 V4-Flash 训练使用了其芯片。与此同时,DeepSeek 未披露 V4 是否沿用了 Nvidia 芯片训练。这些边界很重要,不能把“支持”和“完全国产训练”混为一谈。

如果 DeepSeek 确实为 Ascend 重做软件栈,说明中国 AI 产业的任务已经从“买不到最强 GPU 怎么办”进入“如何把模型、框架、芯片和云集群协同优化”。硬件替代的难点不只是峰值算力,而是生态粘性。Nvidia 的壁垒不只是芯片,还有 CUDA、内核、通信库、调试工具、开发者经验和云服务成熟度。

需求侧也已经出现信号:V4 发布后,中国大型互联网公司和 GPU 租赁、云计算相关公司开始争取华为 Ascend 950 AI 芯片订单。这说明 V4 可能已经成为采购决策的催化剂。模型一旦证明“在国产硬件上能服务高价值应用”,企业就会开始重新计算供给安全、合规、成本和长期议价能力。

但这里仍然需要冷静。Ascend 生态要真正替代 Nvidia 生态,需要回答四个工程问题:多机通信是否稳定,推理吞吐是否能在真实并发下维持,软件栈是否能快速支持新模型结构,开发者迁移成本是否足够低。如果这些问题没有被大规模生产验证,V4 更像里程碑,而不是终局。

几个信号真正说明了什么

第一个信号是“Preview”而不是正式版。这个措辞不只是谨慎,它说明 DeepSeek 还需要真实用户和真实工作流来完成最后一段验证。对传统聊天模型来说,Preview 可能只是产品节奏;对 V4 这种 Agent 和长上下文模型来说,Preview 更像一次公开压力测试。DeepSeek 需要知道模型在真实仓库、真实工具链、真实长文档和真实并发下会怎么失败。

第二个信号是 Pro 服务和 Flash 服务的价格差。V4 没有把“最强能力”包装成统一低价,而是让 Pro 与 Flash 承担不同角色。这说明 DeepSeek 很清楚,高推理预算和高端算力仍然稀缺。Flash 是规模化入口,Pro 是高价值场景,Pro-Max 是上限展示。真正的商业策略不是让所有人都用 Pro-Max,而是让开发者在大多数场景先用 Flash,把少数关键任务升级给 Pro。

第三个信号是 text-only。很多人会把这看成短板,但它也可能是刻意取舍。多模态很重要,但多模态会把训练数据、推理系统、产品体验和安全边界都复杂化。DeepSeek 这次优先把文本、代码、工具调用和长上下文打穿,说明它更关心企业和开发者工作流,而不是先抢消费级全能助手的叙事。这个选择让 V4 看起来“不够全”,但也让它的工程重心更集中。

第四个信号是 Agent benchmark 被放到很高位置。传统模型发布喜欢强调知识、数学、代码,但 V4 的叙事明显把“会不会完成任务”放到前台。Terminal Bench、SWE Verified、Toolathlon 这类指标关注的是模型在环境里的执行轨迹,而不是单题正确率。这意味着 DeepSeek 已经把模型能力的定义从“答案质量”推进到“行动质量”。

第五个信号是芯片订单和模型发布几乎连在一起。企业争取 Ascend 订单,表面看是采购行为,实质上是对国产 AI 栈可用性的投票。大公司不会只因为一篇模型卡就重排算力预算,它们真正下注的是一个可能出现的新组合:DeepSeek 模型、Ascend 集群、国内云服务、私有化部署和相对可控的供应链。V4 的作用,是给这个组合提供了足够强的模型理由。

这些信号合起来看,V4 的报道价值不在“它是不是又刷新了某个榜单”,而在“它让一批原本分散的产业动作开始互相验证”。模型证明芯片,芯片支撑模型,云厂商包装方案,企业采购提供需求,开发者用 Agent 场景检验能力。这才是 V4 比普通模型发布更值得写专题的原因。

为什么市场没有再现 R1 式冲击

V4 的发布没有像 R1 那样引发同等强度的全球市场震荡,这并不代表 V4 不重要。更合理的解释是,市场已经把“中国模型具备前沿竞争力且价格激进”纳入预期。R1 的冲击来自意外,V4 的冲击来自延续。

这背后有一个更重要的市场规律:趋势本身不像意外那样制造头条。R1 让投资者第一次意识到,高性能模型不一定只能由美国巨头用极高成本堆出来;V4 则是在这个认知之后,继续把问题推进到硬件适配和生态迁移。前者冲击估值,后者重塑采购和研发路线。

如果用资本市场语言说,V4 的变量不一定是“今天 Nvidia 跌多少”,而是中国企业未来 12 到 24 个月会不会把更多 AI 预算从进口 GPU、海外闭源模型 API 转向国产芯片、国产模型和私有化平台。这个影响更慢,但更结构性。

对开发者和企业怎么验证

开发者最不应该做的,是拿公开榜单直接决定迁移。V4 的优势集中在长上下文、开源权重、Agent 和成本分层,评估也应该围绕这些场景设计。一个严肃的 PoC 至少要覆盖五类任务:长文档证据检索、仓库级代码修改、多轮工具调用、结构化抽取与校验、以及高失败成本的复杂推理。

测试时要同时比较 Flash 和 Pro,也要分别记录 Non-think、Think、Think Max 的差异。指标不能只看正确率,还要看延迟、输入输出 token 成本、人工返工时间、失败可恢复率、工具调用解析失败率、长上下文引用准确率、同一任务多次运行的一致性。Agent 场景尤其要记录轨迹,而不是只看最终答案。

私有部署还要加一组工程指标:单卡和多卡吞吐,KV cache 占用,长上下文并发下的尾延迟,模型更新和回滚流程,日志与审计,权限隔离,数据不出域,推理框架兼容性,硬件供应稳定性。开源权重给了选择权,但选择权只有在工程团队能运维时才有价值。

一个可执行的评估流程是:先从真实业务中抽 50 个任务,按复杂度分层;再用现有闭源模型、V4-Flash、V4-Pro 做盲测;随后把高价值失败案例做二次测试,观察 Think Max 是否真的降低失败率;最后用总成本和人工节省时间计算 ROI。只有这样,V4 的“便宜”和“强”才会变成可决策的数字。

V4 还没有回答的问题

第一,第三方评测是否能复现官方成绩。官方和 Hugging Face 技术解读给出的 Agent 数字很强,但真实工程任务存在脏代码、私有依赖、模糊需求、权限限制和工具链差异。模型在 benchmark 上接近前沿,不等于在每个企业仓库里都能稳定替代现有模型。

第二,1M 上下文的可用边界在哪里。MRCR 到 1M token 时准确率下降说明,长窗口不是万能记忆。未来真正有价值的能力,是长上下文和检索、摘要、状态管理结合,而不是取消 RAG。

第三,Ascend 生态能否规模化承接需求。当前需求信号正在增强,但供给、良率、集群稳定性、开发者工具和云服务成熟度都还需要时间验证。芯片订单增加是市场信号,不是工程验收报告。

第四,价格优势能否持续。DeepSeek 提到 Pro 服务受高端算力约束,Pro 成本可能显著高于 Flash,并期待 Ascend 950 supernodes 规模化部署后降低价格。也就是说,今天的报价和可用性都可能随算力供给变化。

第五,多模态短板何时补齐。V4 当前仍是 text-only,而闭源前沿模型正在把文本、图像、语音、视频和实时交互合并进同一产品。V4 在 Agent 和代码上很强,但如果要成为通用企业入口,多模态仍是必须补的能力。

结论

DeepSeek V4 Preview 的深层意义,是把开源模型竞争从“模型能力”推向“模型基础设施”。它不仅回答模型能否变强,也在回答三个更难的问题:长上下文能否被经济地使用,Agent 能否成为模型训练和评估的核心场景,国产芯片能否承接前沿模型的真实负载。

所以,V4 既不应该被神化成闭源前沿的全面终结,也不应该被轻描淡写成普通参数升级。我的判断是:V4 是 DeepSeek 从“模型破局者”转向“生态组织者”的一次尝试。它用开源权重争取开发者,用 MoE 和推理模式消化算力约束,用 Agent 场景提升商业价值,用 Ascend 适配绑定国产算力生态。

这条路的风险也很明确。DeepSeek 如果只做到模型强,但无法让开发者稳定部署、让企业稳定采购、让国产算力稳定承接,那么 V4 的影响会停留在模型社区。如果它能把这些环节串起来,V4 就不只是一次发布,而是中国 AI 产业链从“追模型”转向“搭系统”的标志性节点。

接下来最值得盯的不是热搜,而是四组硬指标:第三方 Agent benchmark 是否复现,Flash/Pro 在真实业务中的成本差,Ascend 集群部署后的吞吐和稳定性,以及企业 PoC 是否从试用进入批量采购。

参考来源: