← 首页

商业专题

英伟达的护城河到底在芯片,还是在 CUDA 生态?

英伟达最强的地方不是单颗 GPU,也不是 CUDA 语法本身,而是把芯片、网络、软件库、开发者习惯、云厂商和数据中心交付能力绑成了一个系统。

英伟达 GPU、CUDA 软件生态和 AI 数据中心系统护城河示意图

讨论英伟达护城河时,最常见的问题是:它到底强在芯片,还是强在 CUDA?这个问题本身容易把事情看窄。芯片当然重要,没有足够快、足够稳定、足够量产的 GPU,后面的软件生态不会自然成立;CUDA 也当然重要,它让开发者、框架、库和企业工作流长期围绕英伟达硬件优化。但今天的英伟达已经不是单纯的芯片公司,也不是只靠一个编程接口锁住市场。

它真正强的地方,是把“算力”变成了一套完整基础设施:GPU、CPU、NVLink、InfiniBand、Spectrum-X、DPU、机柜、电源、散热、驱动、CUDA-X 库、NIM 微服务、企业软件、云实例、服务器厂商和开发者社区,都被放进同一条升级路径里。客户买到的不是一张显卡,而是一个已经被模型公司、云厂商、工程团队和资本开支流程共同验证过的默认方案。

英伟达的护城河不是某一块砖,而是别人想绕开它时,必须同时重建芯片、软件、网络、供应链和开发者信任。

先看几个数据锚点

截至 2026 年 4 月 30 日,英伟达最新完整财年是截至 2026 年 1 月 25 日的 2026 财年。英伟达财报显示,全年收入 2159 亿美元,同比增长 65%;其中数据中心业务收入 1937 亿美元,同比增长 68%。第四财季单季收入 681 亿美元,数据中心收入 623 亿美元。也就是说,英伟达已经不是“游戏显卡公司顺便做 AI”,而是一个以 AI 数据中心为核心的基础设施供应商。

利润率同样说明了它的定价能力。2026 财年英伟达 GAAP 毛利率为 71.1%,非 GAAP 毛利率为 71.3%。如果只是普通硬件制造,长期维持这种毛利率并不容易。它能做到这一点,不只是因为 GPU 性能强,而是因为客户买英伟达方案时,买的是更短的上线时间、更低的工程不确定性、更成熟的软件栈和更高的集群可用性。

CUDA 的历史更长。英伟达开发者文档把 CUDA 定义为超过单一编程模型的平台,并提到它自 2006 年推出以来,已经通过大量应用、研究论文和超过 5 亿块 CUDA-enabled GPU 的装机基础被广泛部署。英伟达在 2025 年 Rubin CPX 发布稿中又提到,CUDA 生态包括超过 600 万开发者和接近 6000 个 CUDA 应用。这个数字的意义不在宣传本身,而在路径依赖:越多代码、库和工程经验围绕 CUDA 积累,迁移成本就越高。

再看产品路线。Rubin 平台发布稿显示,英伟达已经把下一代 AI 平台定义为 Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 Ethernet Switch 的协同系统,并称 Rubin 相比 Blackwell 可把推理 token 成本降低最高 10 倍。这个说法当然要等真实部署验证,但方向很清楚:英伟达不想让市场只比较单颗芯片,而是让竞争变成整机柜、整集群、整数据中心的系统竞争。

芯片是入口,不是全部答案

英伟达首先赢在硬件,这一点不能轻描淡写。AI 训练和推理的核心瓶颈,是在可接受功耗、成本和时间内完成巨大矩阵计算。GPU 原本为图形并行计算设计,天然适合大量相似操作并行执行。深度学习兴起后,这种架构优势被放大,英伟达又持续把 Tensor Core、HBM、NVLink、MIG、Transformer Engine 等能力推进到产品里。

但如果只说“GPU 快”,解释不了英伟达为什么能拿走这么高的价值。很多硬件都可以在某些指标上接近甚至超过英伟达,问题是客户不只买峰值性能。模型公司关心的是训练能不能稳定跑完,云厂商关心的是集群能不能高利用率出租,企业客户关心的是部署、驱动、安全、升级和支持能不能少踩坑。

AI 数据中心最怕的不是单卡慢一点,而是整个集群出现不可预测的问题。几万张 GPU 同时训练时,网络、存储、散热、电源、驱动版本、通信库、容器镜像和调度系统都会影响最终成本。单颗芯片性能只是入场券,真正的价值在于把这些不确定性压低。

这也是为什么英伟达的产品越来越像“系统”,而不是“零件”。从 Hopper 到 Blackwell,再到 Rubin,它强调的不只是 GPU 算力,而是机柜级互联、液冷、网络、DPU、安全、推理服务和软件工具。客户如果自己拼硬件、改框架、调通信、修驱动,理论上可能省下部分采购成本,但会把工程风险转移到自己身上。

CUDA 的锁定不是语法锁定

很多人把 CUDA 理解成一种编程语言或 API,然后得出一个简单结论:只要 AMD、Google、华为、寒武纪或其他厂商做出兼容层,CUDA 护城河就会消失。这个判断低估了软件生态的深度。

CUDA 的锁定不只是“代码能不能编译”。更关键的是,开发者知道怎么调性能,框架默认怎么调用库,PyTorch、TensorFlow、JAX、Triton、cuDNN、NCCL、TensorRT、CUDA Graphs、Nsight 工具链以及大量第三方项目已经围绕英伟达路径形成了默认经验。一个团队遇到问题时,网上有更多案例,云上有更多镜像,招聘市场有更多工程师,供应商有更多支持。

这种锁定很像企业软件里的默认标准。理论上,替代品可以更便宜,也可以在某些任务上更快;但只要迁移需要重写算子、重测模型、重训团队、重建监控、重做性能调优,客户就会把“便宜”重新折算成工程成本和项目风险。对大型模型公司来说,训练失败一次的机会成本可能远高于硬件差价。

CUDA 真正厉害的地方,是把硬件优势翻译成开发者生产力。一个新 GPU 发布后,如果核心框架、库、编译器和推理服务很快适配,客户就能更快把资本开支变成可用算力。竞争对手如果只有芯片,没有同等成熟的软件路径,就必须说服客户接受更长磨合期。

当然,CUDA 不是永远无法被绕开。推理场景比训练更容易标准化,云厂商和大模型公司也有动力降低对英伟达的依赖。Triton、ROCm、XLA、OpenAI Triton、各类编译器和中间层,都在削弱“直接写 CUDA”的必要性。但这并不等于 CUDA 生态马上失效。抽象层越往上走,底层越需要有人把性能、驱动和稳定性做好,而英伟达仍然在这部分最成熟。

真正的护城河在整机系统

英伟达近几年最重要的变化,是从“卖 GPU”转向“定义 AI 工厂”。这不是口号变化,而是商业边界变化。训练和推理越来越依赖大规模集群,集群越大,瓶颈越不在单卡,而在通信、调度、供电、散热、存储和故障恢复。

NVLink 和 NVSwitch 解决的是 GPU 之间的高速通信;InfiniBand 和 Spectrum-X 解决的是集群网络;BlueField DPU 把网络、安全和存储任务从 CPU 中卸出来;DGX 和 HGX 给服务器厂商、云厂商和企业提供参考架构;NVIDIA AI Enterprise、NIM、NeMo、CUDA-X 库把上层应用部署接起来。每一层单独看都可能被替代,但它们一起工作时,就形成了强系统粘性。

这也是 Rubin 叙事的重点。英伟达没有把 Rubin 描述成一块更快的 GPU,而是描述成六类芯片协同的 AI 超级计算机。它把 CPU、GPU、交换芯片、网卡、DPU 和以太网交换机放在一个平台里,目标是降低训练时间和推理 token 成本。无论官方数字最后能实现多少,这个方向都意味着竞争对手不能只拿一颗加速器来比较。

客户选择英伟达,很多时候不是因为它在每个局部都最便宜,而是因为整体交付最确定。服务器厂商知道怎么集成,云厂商知道怎么出租,开发者知道怎么使用,投资者知道怎么估算需求,模型公司知道怎么规划下一代训练。确定性本身就是溢价来源。

云厂商既是客户,也是风险

英伟达最大的客户群,正是最有能力削弱它的公司。AWS、Google Cloud、Microsoft Azure、Oracle Cloud、Meta、CoreWeave 等都在大量采购英伟达硬件,同时也在尝试自研芯片或定制系统。Google 有 TPU,AWS 有 Trainium 和 Inferentia,微软和 Meta 也都有自研 AI 芯片计划。

这说明英伟达护城河并不等于客户没有选择。相反,越大的客户越不愿意被单一供应商控制。它们会用自研芯片处理部分内部工作负载,用英伟达承接通用训练、前沿模型、客户云实例和生态兼容需求。对这些公司来说,最理想的状态不是彻底替代英伟达,而是让英伟达失去部分定价权。

但自研芯片也有现实边界。芯片设计只是开始,后面还有编译器、框架适配、开发者迁移、集群运维、良率、供应链、客户支持和生态推广。内部工作负载可以被深度定制,外部云客户却更喜欢通用、熟悉、可迁移的环境。因此,云厂商会侵蚀英伟达的一部分利润池,但短期内很难让英伟达从默认方案变成普通供应商。

更大的风险,是需求节奏。AI 基础设施投资如果超前于真实收入,云厂商会重新压缩资本开支。英伟达现在的收入高度依赖数据中心扩张,一旦模型训练规模、推理变现、企业 AI 预算或融资环境发生变化,增长速度会被放大影响。护城河保护的是竞争地位,不保证周期不会反转。

中国限制削弱的是市场,不是生态本身

英伟达还面对地缘政治风险。2025 年 4 月,美国政府要求 H20 产品出口中国需要许可证,英伟达在 2026 财年第一季度因此计提 45 亿美元 H20 相关库存和采购义务费用,并表示当季还有 25 亿美元 H20 收入无法出货。第二季度财报又显示,对中国客户没有 H20 销售。

这类限制会直接影响收入,也会加速中国本土 AI 芯片和软件栈的替代努力。中国市场越难稳定获得英伟达高端芯片,越有动力投资 Ascend、寒武纪、海光、壁仞以及其他国产硬件和适配生态。长期看,这会让全球 AI 算力市场出现分层:一部分继续围绕 CUDA 和英伟达,一部分围绕本地硬件、政策约束和国产软件栈重建。

但这种替代不是简单复制。国产芯片真正要挑战的不是某一代 GPU,而是 CUDA、NCCL、cuDNN、驱动、框架适配、开发者经验、集群网络、服务器供应链和云服务生态。限制会制造替代需求,却不会自动制造替代能力。越是大规模训练,越能暴露系统差距。

所以,中国限制对英伟达的影响更像“双重作用”:短期减少可服务市场,长期培养区域替代生态;但在全球主流 AI 训练和云服务中,英伟达仍然保有很强默认地位。它失去的不是护城河本身,而是某些市场的通行权和增长弹性。

护城河会怎样被侵蚀

英伟达最可能被削弱的地方,不是突然出现一颗“更强 GPU”,而是不同层次的替代同时发生。

第一层是推理成本。训练需要极高性能和稳定性,推理更看单位 token 成本、延迟、功耗和部署便利。随着模型蒸馏、量化、稀疏化、专用推理芯片和边缘部署成熟,部分推理工作负载会从高端 GPU 转移出去。英伟达也在主动优化推理,说明它知道增长不可能只靠训练。

第二层是软件抽象。开发者如果越来越通过 PyTorch、Triton、XLA、ONNX、MLIR 或云端托管服务调用算力,底层硬件差异会被部分隐藏。硬件无关并不会完全消灭性能差异,但会降低迁移心理门槛。英伟达必须持续让自己的底层实现比替代品更快、更稳、更省事。

第三层是大客户自研。超大云厂商和模型公司会把规模最大的、最稳定的内部任务迁到自研芯片上,用定制化降低成本。英伟达仍会服务高端通用需求和外部客户,但利润池可能被切走一部分。

第四层是资本开支纪律。如果 AI 应用收入不能匹配基础设施投入,客户会从“抢算力”转向“算 ROI”。那时英伟达仍可能是最强供应商,但订单增速和估值叙事会被重新定价。护城河不等于无限需求,技术领先也不能替代客户现金流。

最后,答案不是芯片或 CUDA

如果必须用一句话回答,英伟达的护城河在“被 CUDA 放大的芯片能力”,更准确地说,是在“由芯片、软件和系统交付共同构成的 AI 基础设施默认路径”。

芯片让英伟达拥有性能起点,CUDA 让开发者和框架沉淀在它的平台上,网络和机柜级系统让它进入数据中心架构,云厂商和服务器厂商让它成为可采购、可部署、可扩展的标准方案。单独看,每一层都有竞争对手;合在一起,才是英伟达真正难以复制的地方。

这条护城河不会永远不变。推理专用芯片、自研加速器、开源编译器、地缘政治和资本开支周期都会不断冲刷它。但在 2026 年这个时点,挑战英伟达仍然不是“做出一块好芯片”这么简单,而是要回答一个更难的问题:当客户准备花几十亿甚至上百亿美元建设 AI 数据中心时,你能不能比英伟达更快、更稳、更低风险地把算力变成可用生产力。

只要这个问题的默认答案仍然是英伟达,它的护城河就还在。