AI 专题

DeepSeek V4 专题：百万上下文、开源前沿与中国 AI 栈迁移

DeepSeek V4 Preview 不只是一次模型升级，它把长上下文、推理模式、Agent 工作流和国产算力适配放在了同一个技术叙事里。

2026年4月30日 14 分钟阅读

DeepSeek V4 Preview 的价值，不在于又多了一个“大参数模型”，而在于它把三个原本分散的叙事合到了一起：开源模型继续逼近闭源前沿，Agent 正在取代单轮聊天成为主要战场，中国 AI 栈开始从“能跑”走向“为国产芯片深度优化”。如果只看榜单，V4 是一次模型发布；如果把技术、价格、硬件和企业采购放在一起看，它更像一次基础设施迁移的公开测试。

判断 V4 的真实分量，不能只看发布口径，也不能只看 benchmark 排名。更有效的切入点有三条：第一，它是否把长上下文从“能演示”推进到“能规模化使用”；第二，它是否让 Agent 从 prompt 技巧变成模型训练和基础设施的一部分；第三，它是否证明中国 AI 栈正在从模型层向芯片、云集群和开发者工具层延伸。

截至 2026 年 4 月 30 日，能确认的是：DeepSeek V4 仍是 Preview Release；官方发布了 Flash 与 Pro 两个主要版本；V4-Pro 总参数 1.6T、激活参数 49B，V4-Flash 总参数 284B、激活参数 13B；两者都是 MoE 模型，支持 100 万 token 上下文；权重使用 MIT License；Instruct 模型支持 Non-think、Think 和 Think Max 三档推理模式。不能直接当成事实的是：完整训练硬件、真实训练成本、华为芯片在训练中的比例、以及官方 benchmark 在所有第三方场景中的可复现程度。

V4 的真正看点，不是“DeepSeek 又追上了谁”，而是它把长上下文经济性、Agent 后训练、开源权重和国产算力适配变成了同一个系统问题。

三条主线决定 V4 的分量

第一条主线是算力生态。V4 不只是发布了新权重，也把 DeepSeek 和华为 Ascend 的关系推到台前。公开信息显示，华为在 V4 发布后表示 Ascend 950 supernode 产品线支持 DeepSeek-V4 系列，并称部分 V4-Flash 训练使用了其芯片。这个信息的关键不在宣传口径，而在产业结构：模型发布正在变成芯片、云服务、推理框架和开发者生态的联动事件。

第二条主线是软件栈重构。V4 被长期期待，但发布节奏比市场预期更慢，一个合理解释是 DeepSeek 并不满足于让模型“能在国产芯片上跑”，而是要做更深的硬件特定优化。大模型从 Nvidia 迁到 Ascend，难点不只是算子兼容，而是吞吐、通信、显存、编译器、框架和容错能不能一起进入可生产状态。

第三条主线是能力边界。V4 缩小了开源模型与闭源前沿模型的差距，但它还不是“全面替代”。它当前仍是 text-only，暂时不处理图像、音频和视频；在知识类任务上，也不能简单假设已经超过最新闭源前沿模型。V4 更强的叙事，集中在开源权重、价格、长上下文和 Agent/coding 场景。

因此，V4 不是单点技术突破，而是一次系统性下注。DeepSeek 赌的是，未来模型竞争不只看单轮回答质量，而看谁能在更低成本下承载长任务、工具调用、私有部署和硬件供给的不确定性。

DeepSeek 为什么必须这么做

DeepSeek 做 V4 的方式，本质上是在避开一场它不占优势的战争。闭源巨头最擅长的是多模态产品矩阵、全球云资源、海量商业入口和持续堆算力。如果 DeepSeek 也按同一套打法去拼“最强通用助手”，它会很快落入算力、生态和渠道都更重的战场。V4 的选择更像是换战场：不在消费级助手里正面硬拼，而是在开源权重、长上下文、Agent、私有部署和国产算力这些闭源巨头不完全占优的地方制造变量。

第一，它需要用开源权重放大影响力。DeepSeek 没有 OpenAI、Google、Anthropic 那样的全球企业销售和云产品入口，开源就是它的分发渠道。MIT License 不是单纯的技术姿态，而是增长策略：让云厂商、创业公司、企业内部平台、硬件厂商都可以围绕 V4 做适配。DeepSeek 不必自己拿下每一个客户，只要让更多基础设施把 V4 当成默认选项，它就能把模型影响力扩散出去。

第二，它需要用 MoE 和推理分层缓解算力劣势。美国头部实验室可以持续扩大训练和推理集群，中国模型公司面对的现实约束更硬：高端 GPU 供给、出口管制、云资源价格、国产芯片成熟度都存在不确定性。V4 的 Flash/Pro、Non-think/Think/Think Max，本质上是在把算力约束产品化。DeepSeek 不是假装算力无限，而是把不同任务拆成不同预算层，让模型服务在资源不充裕的情况下仍能覆盖足够多的场景。

第三，它需要提前押注 Agent，因为聊天机器人的差异化空间正在变小。普通问答、摘要、翻译、写作这些场景已经高度同质化，用户很难因为单轮回答略好就迁移平台。Agent 不同，它绑定代码仓库、工具权限、企业数据、工作流和执行结果，一旦跑通，迁移成本更高，商业价值也更高。V4 对工具调用、跨轮状态和沙箱训练的投入，说明 DeepSeek 想抢的不是“回答问题”的入口，而是“完成任务”的基础设施。

第四，它需要和国产芯片形成互相证明。DeepSeek 需要稳定算力，华为 Ascend 需要标杆模型，云厂商需要可卖的国产 AI 栈，企业客户需要降低供应链风险。V4 把这几方利益绑到了一起：模型越强，Ascend 越有部署理由；Ascend 越成熟，DeepSeek 越能降低对受限算力的依赖。这不是简单的技术合作，而是中国 AI 产业链在外部约束下形成的互保结构。

所以，V4 的深层逻辑不是“发布一个更强模型”，而是“把 DeepSeek 从模型公司推向生态节点”。如果它成功，DeepSeek 不只是模型供应商，还会成为国产 AI 栈里的事实标准之一；如果失败，它仍可能有强模型，但很难摆脱算力供给、闭源模型迭代和渠道劣势的挤压。

参数变大不是主线，激活效率才是主线

V4-Pro 的 1.6T 总参数很容易成为标题，但 MoE 模型的关键不是“总参数越大越好”，而是每次推理实际激活多少参数。V4-Pro 每 token 激活约 49B 参数，V4-Flash 激活约 13B 参数。它们通过稀疏激活把模型容量和推理成本拆开：模型可以储存更宽的能力分布，但每次请求不必动用全部参数。

这也是 Flash/Pro 双版本的产品逻辑。Flash 不是简单的“小模型”，而是成本、延迟和吞吐优先的版本，适合高频、低风险、可容错的任务；Pro 则服务于复杂推理、代码、Agent 和更高价值的工作流。对企业来说，这种分层比“一个最强模型包打天下”更现实，因为真实系统里 80% 的请求不值得用最高推理成本处理。

MIT License 进一步改变了模型的商业属性。很多开放模型看似可下载，但许可证、商用限制、权重可用性、部署文档和推理框架支持会把企业挡在门外。V4 使用 MIT License，让私有化部署、行业微调、模型网关接入和内部 Agent 平台评估更容易进入采购流程。当然，许可证宽松不等于部署简单，1.6T MoE 模型的工程门槛仍然很高。

这里最值得关注的不是参数规模，而是 DeepSeek 是否在试图复制一种新的开源模型范式：给出足够强的基础权重，用 MoE 控制推理成本，用推理模式做预算分层，用长上下文和 Agent 后训练切入高价值场景，再让云厂商和硬件厂商围绕它做生态适配。

百万上下文的本质是成本问题

100 万 token 上下文很容易被营销成“能塞下一整本书、一个仓库或一堆合同”。但长上下文真正难的不是窗口上限，而是代价。上下文越长，注意力计算、KV cache、显存占用、延迟和错误传播都会放大。一个模型如果只能在演示里处理 1M token，而不能以可接受成本服务真实 Agent，它对生产系统的意义就很有限。

DeepSeek V4 的技术核心之一是 Hybrid Attention Architecture。Hugging Face 技术解读显示，V4 的注意力层在 CSA 和 HCA 之间交替，前馈层使用 DeepSeekMoE，并用 manifold-constrained hyper-connections 替代传统 residual connections。CSA 可以理解为面向长上下文的稀疏压缩注意力，HCA 则进一步压缩历史信息，目标是在保留长程依赖的同时降低计算与缓存压力。

公开技术解读里最关键的一组数字是：在 1M token 场景中，V4-Pro 相比 V3.2 只需要约 27% 的单 token 推理 FLOPs 和约 10% 的 KV cache。这个指标比“支持 1M token”更重要。因为真正决定长上下文能否进入生产的，是每个新增 token 对成本曲线的影响，而不是模型卡上的最大窗口。

但长上下文也有边界。Hugging Face 解读提到，长上下文检索中 MRCR 8-needle 准确率到 256K token 仍高于 0.82，到 1M token 降到 0.59。这个数字提醒我们：1M 上下文不等于 1M 里的每个细节都能被稳定调用。工程上仍然需要检索、分段、证据标注、摘要层和任务状态管理。把所有材料直接塞进上下文，通常只是把检索问题推迟到模型内部，而且更难调试。

Agent 才是 V4 最重要的应用假设

V4 面向 Claude Code、OpenClaw 等 Agent 框架，这个细节比很多 benchmark 更有信息量。DeepSeek 不是只想让 V4 回答问题，而是让它读代码、调用工具、执行命令、处理报错、回到上下文继续修复。Agent 工作流对模型的要求和聊天完全不同：它需要长期状态、工具格式稳定、错误恢复能力、权限边界和跨轮一致性。

Hugging Face 技术解读给出了三个更具体的 Agent 设计。第一是跨工具调用的 interleaved thinking。V3.2 会在新用户消息到来时丢弃此前推理内容，V4 在含工具调用的会话里保留跨轮 reasoning history，使多轮任务的状态更连续。第二是引入 |DSML| 特殊 token 和 XML 工具调用格式，减少 JSON 字符串嵌套时常见的转义失败。第三是 DSec 沙箱，用 Rust 平台统一 function calls、containers、Firecracker microVMs 和 QEMU VMs，为 RL rollout 提供真实工具环境。

这些设计说明 V4 的后训练目标不是单纯“会做题”，而是让模型在环境里学习行动。Agent 的难点不在一句答案，而在轨迹：模型是否能选择正确工具，是否能读懂工具输出，是否能从失败中恢复，是否能在上下文变长后保持目标不漂移，是否能在多轮用户干预后不重置任务状态。

所以 V4-Pro-Max 在 Terminal Bench 2.0、SWE Verified、MCPAtlas、Toolathlon 等 Agent benchmark 上的成绩，比传统知识问答分数更值得看。公开解读中，V4-Pro-Max 在 SWE Verified 上达到 80.6 resolved，MCPAtlas Public 达到 73.6，Toolathlon 达到 51.8。这些数字不能直接替代真实业务测试，但它们说明 DeepSeek 把训练和评估重心放到了“模型能不能完成任务”上。

三档推理模式是成本控制接口

V4 的 Instruct 模型支持 Non-think、Think 和 Think Max。表面看，这是模型“思考得深不深”的开关；更本质上，它是把推理预算暴露给应用层。企业系统最需要的不是永远最聪明的模型，而是能按任务风险分配成本的模型。

Non-think 适合低风险、低复杂度、高并发的任务，例如摘要、分类、格式化、简单问答。Think 适合需要规划、对比、代码修改、策略生成的任务。Think Max 则更像高成本求解模式，用于疑难 bug、复杂工程迁移、关键决策辅助或 benchmark。DeepSeek 模型卡还建议 Think Max 至少配置 384K token 上下文，这本身就说明高推理模式不是免费午餐。

这会改变应用架构。过去很多 AI 应用只是在 prompt 里写“请一步一步思考”，然后把所有请求交给同一个模型。V4 这种模式分层，让系统可以把请求先做路由：低价值请求走 Flash Non-think，中等复杂度走 Flash Think，高价值或失败重试走 Pro Think，少数关键节点才进入 Pro Think Max。真正的成本优势来自这种调度，而不是单个模型报价。

也因此，评估 V4 不应该只问“Pro-Max 比 GPT 或 Gemini 高几分”。更应该问：Flash 能覆盖多少日常请求？Pro 是否显著降低人工返工时间？Think Max 的边际收益是否值得成本？模型失败后是否能自动降级、重试或升级？这些才是生产系统里的真实问题。

华为 Ascend 适配的产业含义

DeepSeek V4 和华为 Ascend 的关系，是这次发布最容易被过度解读、也最不能忽略的部分。公开可验证的信息是：V4 被适配到华为芯片；华为称 Ascend 950-based supernode clusters 支持 V4；并称部分 V4-Flash 训练使用了其芯片。与此同时，DeepSeek 未披露 V4 是否沿用了 Nvidia 芯片训练。这些边界很重要，不能把“支持”和“完全国产训练”混为一谈。

如果 DeepSeek 确实为 Ascend 重做软件栈，说明中国 AI 产业的任务已经从“买不到最强 GPU 怎么办”进入“如何把模型、框架、芯片和云集群协同优化”。硬件替代的难点不只是峰值算力，而是生态粘性。Nvidia 的壁垒不只是芯片，还有 CUDA、内核、通信库、调试工具、开发者经验和云服务成熟度。

需求侧也已经出现信号：V4 发布后，中国大型互联网公司和 GPU 租赁、云计算相关公司开始争取华为 Ascend 950 AI 芯片订单。这说明 V4 可能已经成为采购决策的催化剂。模型一旦证明“在国产硬件上能服务高价值应用”，企业就会开始重新计算供给安全、合规、成本和长期议价能力。

但这里仍然需要冷静。Ascend 生态要真正替代 Nvidia 生态，需要回答四个工程问题：多机通信是否稳定，推理吞吐是否能在真实并发下维持，软件栈是否能快速支持新模型结构，开发者迁移成本是否足够低。如果这些问题没有被大规模生产验证，V4 更像里程碑，而不是终局。

几个信号真正说明了什么

第一个信号是“Preview”而不是正式版。这个措辞不只是谨慎，它说明 DeepSeek 还需要真实用户和真实工作流来完成最后一段验证。对传统聊天模型来说，Preview 可能只是产品节奏；对 V4 这种 Agent 和长上下文模型来说，Preview 更像一次公开压力测试。DeepSeek 需要知道模型在真实仓库、真实工具链、真实长文档和真实并发下会怎么失败。

第二个信号是 Pro 服务和 Flash 服务的价格差。V4 没有把“最强能力”包装成统一低价，而是让 Pro 与 Flash 承担不同角色。这说明 DeepSeek 很清楚，高推理预算和高端算力仍然稀缺。Flash 是规模化入口，Pro 是高价值场景，Pro-Max 是上限展示。真正的商业策略不是让所有人都用 Pro-Max，而是让开发者在大多数场景先用 Flash，把少数关键任务升级给 Pro。

第三个信号是 text-only。很多人会把这看成短板，但它也可能是刻意取舍。多模态很重要，但多模态会把训练数据、推理系统、产品体验和安全边界都复杂化。DeepSeek 这次优先把文本、代码、工具调用和长上下文打穿，说明它更关心企业和开发者工作流，而不是先抢消费级全能助手的叙事。这个选择让 V4 看起来“不够全”，但也让它的工程重心更集中。

第四个信号是 Agent benchmark 被放到很高位置。传统模型发布喜欢强调知识、数学、代码，但 V4 的叙事明显把“会不会完成任务”放到前台。Terminal Bench、SWE Verified、Toolathlon 这类指标关注的是模型在环境里的执行轨迹，而不是单题正确率。这意味着 DeepSeek 已经把模型能力的定义从“答案质量”推进到“行动质量”。

第五个信号是芯片订单和模型发布几乎连在一起。企业争取 Ascend 订单，表面看是采购行为，实质上是对国产 AI 栈可用性的投票。大公司不会只因为一篇模型卡就重排算力预算，它们真正下注的是一个可能出现的新组合：DeepSeek 模型、Ascend 集群、国内云服务、私有化部署和相对可控的供应链。V4 的作用，是给这个组合提供了足够强的模型理由。

这些信号合起来看，V4 的报道价值不在“它是不是又刷新了某个榜单”，而在“它让一批原本分散的产业动作开始互相验证”。模型证明芯片，芯片支撑模型，云厂商包装方案，企业采购提供需求，开发者用 Agent 场景检验能力。这才是 V4 比普通模型发布更值得写专题的原因。

为什么市场没有再现 R1 式冲击

V4 的发布没有像 R1 那样引发同等强度的全球市场震荡，这并不代表 V4 不重要。更合理的解释是，市场已经把“中国模型具备前沿竞争力且价格激进”纳入预期。R1 的冲击来自意外，V4 的冲击来自延续。

这背后有一个更重要的市场规律：趋势本身不像意外那样制造头条。R1 让投资者第一次意识到，高性能模型不一定只能由美国巨头用极高成本堆出来；V4 则是在这个认知之后，继续把问题推进到硬件适配和生态迁移。前者冲击估值，后者重塑采购和研发路线。

如果用资本市场语言说，V4 的变量不一定是“今天 Nvidia 跌多少”，而是中国企业未来 12 到 24 个月会不会把更多 AI 预算从进口 GPU、海外闭源模型 API 转向国产芯片、国产模型和私有化平台。这个影响更慢，但更结构性。

对开发者和企业怎么验证

开发者最不应该做的，是拿公开榜单直接决定迁移。V4 的优势集中在长上下文、开源权重、Agent 和成本分层，评估也应该围绕这些场景设计。一个严肃的 PoC 至少要覆盖五类任务：长文档证据检索、仓库级代码修改、多轮工具调用、结构化抽取与校验、以及高失败成本的复杂推理。

测试时要同时比较 Flash 和 Pro，也要分别记录 Non-think、Think、Think Max 的差异。指标不能只看正确率，还要看延迟、输入输出 token 成本、人工返工时间、失败可恢复率、工具调用解析失败率、长上下文引用准确率、同一任务多次运行的一致性。Agent 场景尤其要记录轨迹，而不是只看最终答案。

私有部署还要加一组工程指标：单卡和多卡吞吐，KV cache 占用，长上下文并发下的尾延迟，模型更新和回滚流程，日志与审计，权限隔离，数据不出域，推理框架兼容性，硬件供应稳定性。开源权重给了选择权，但选择权只有在工程团队能运维时才有价值。

一个可执行的评估流程是：先从真实业务中抽 50 个任务，按复杂度分层；再用现有闭源模型、V4-Flash、V4-Pro 做盲测；随后把高价值失败案例做二次测试，观察 Think Max 是否真的降低失败率；最后用总成本和人工节省时间计算 ROI。只有这样，V4 的“便宜”和“强”才会变成可决策的数字。

V4 还没有回答的问题

第一，第三方评测是否能复现官方成绩。官方和 Hugging Face 技术解读给出的 Agent 数字很强，但真实工程任务存在脏代码、私有依赖、模糊需求、权限限制和工具链差异。模型在 benchmark 上接近前沿，不等于在每个企业仓库里都能稳定替代现有模型。

第二，1M 上下文的可用边界在哪里。MRCR 到 1M token 时准确率下降说明，长窗口不是万能记忆。未来真正有价值的能力，是长上下文和检索、摘要、状态管理结合，而不是取消 RAG。

第三，Ascend 生态能否规模化承接需求。当前需求信号正在增强，但供给、良率、集群稳定性、开发者工具和云服务成熟度都还需要时间验证。芯片订单增加是市场信号，不是工程验收报告。

第四，价格优势能否持续。DeepSeek 提到 Pro 服务受高端算力约束，Pro 成本可能显著高于 Flash，并期待 Ascend 950 supernodes 规模化部署后降低价格。也就是说，今天的报价和可用性都可能随算力供给变化。

第五，多模态短板何时补齐。V4 当前仍是 text-only，而闭源前沿模型正在把文本、图像、语音、视频和实时交互合并进同一产品。V4 在 Agent 和代码上很强，但如果要成为通用企业入口，多模态仍是必须补的能力。

结论

DeepSeek V4 Preview 的深层意义，是把开源模型竞争从“模型能力”推向“模型基础设施”。它不仅回答模型能否变强，也在回答三个更难的问题：长上下文能否被经济地使用，Agent 能否成为模型训练和评估的核心场景，国产芯片能否承接前沿模型的真实负载。

所以，V4 既不应该被神化成闭源前沿的全面终结，也不应该被轻描淡写成普通参数升级。我的判断是：V4 是 DeepSeek 从“模型破局者”转向“生态组织者”的一次尝试。它用开源权重争取开发者，用 MoE 和推理模式消化算力约束，用 Agent 场景提升商业价值，用 Ascend 适配绑定国产算力生态。

这条路的风险也很明确。DeepSeek 如果只做到模型强，但无法让开发者稳定部署、让企业稳定采购、让国产算力稳定承接，那么 V4 的影响会停留在模型社区。如果它能把这些环节串起来，V4 就不只是一次发布，而是中国 AI 产业链从“追模型”转向“搭系统”的标志性节点。

接下来最值得盯的不是热搜，而是四组硬指标：第三方 Agent benchmark 是否复现，Flash/Pro 在真实业务中的成本差，Ascend 集群部署后的吞吐和稳定性，以及企业 PoC 是否从试用进入批量采购。

参考来源：