GPU&大模型厂商
如何破局CUDA垄断及专利布局策略
•引曰君话专利•
随着“DeepSeek”推理模型的发布,以其低成本、高性能,震惊了整个AI圈。之所以实现“低成本”,除了在模型架构、框架、算法方面做了技术创新外,还充分利用了“PTX”的中间表达层的编辑权限,释放了英伟达芯片封印在底层的算力和带宽,才有了低成本的训练和推理。
那么,“PTX”究竟是个啥?
NVIDIA的官方文档指出,PTX是一种虚拟机器和指令集架构,允许跨不同GPU架构的兼容性。它由编译器生成,并由驱动在运行时进一步编译为目标GPU的指令集。由于编译器属于工具链,因此,“PTX”属于“工具链”的一部分,且PTX属于编译后的中间表示(介于高级CUDA代码和GPU机器码之间),而驱动层负责处理这个中间表示,将其转换为可执行的代码。
英伟达为了让上层CUDA软件开发者能够更好的适配GPU,就开放了PTX本身的编辑权限,允许开发者不仅可以编辑CUDA软件层,还可以编辑PTX中间编译层。可以形象的理解为:CEO把工作布置给市场部主管,主管把它拆成各种任务分配给销售去执行,但也允许CEO直接来调整任务,如果觉得主管分配的不合理的话。
所以DeepSeek能够使用PTX(全称为:并行计算任务线程的执行)进行任务执行的优化(例如:对GPU的计算资源(例如:线程调度、寄存器使用等)进行精细的优化),也是因为英伟达的“可编辑性”允许的。而AMD、华为的芯片,也有这种中间表达层,但他们用的是开源的架构叫OPENCL,并且是不给开发者暴露和可编辑的。
由此可知:“PTX”是CUDA的一部分,并且DeepSeek编辑PTX,只是编辑了CUDA软件的另一种表达形式,这个PTX也只有英伟达的芯片可以用,其他芯片看不懂这个指令。所以,“PTX”无法绕开CUDA。
那么,“CUDA”究竟是个啥?
CUDA(计算和设备的统一架构)是一个完整的生态系统,包括编程模型(逻辑架构)、工具链(开发调试)、运行时/驱动API(资源管理)、加速库(领域优化)、硬件架构(物理实现),这些部分协调工作,使开发者能够高效利用GPU的并行计算能力。
如下图1所示,CUDA架构包括:应用程序层(AI、科学计算、图形渲染等)、CUDA软件栈(包括:CUDA加速库、编程模型、工具链、运行时API、驱动层)、GPU硬件架构(包括:流式多处理器SM、全局内存、L2缓存)。

图1
其中,编程模型(通过kernel函数定义GPU并行任务,组织为网格-块-线程的三层结构)定义了如何编写代码(专注于任务描述(“做什么”)),而工具链(支持CUDA代码开发、编译、调试和优化的工具集合,包括编译器、调试器、性能分析工具)负责编译、调试和优化这些代码(专注于任务实现(“怎么做”)),也即编程模型是“语言”、工具链是“翻译器和助手”,共同完成从代码到GPU高效执行的完整链路。
具体的CUDA执行流程如下:
主机(CPU):准备数据,调用CUDA Kernel函数。
GPU:
将Kernel分配到网格(Grid)中,每个网格包含多个线程块(Block)。
线程块分配到SM上执行,SM内的CUDA核心并行处理线程。
数据通过全局内存传递,频繁使用的数据缓存在共享内存或寄存器中。

在充分了解了英伟达的CUDA,以及DeepSeek编辑PTX,仍然无法绕开CUDA的情况下,国产GPU厂商、大模型厂商如何才能打破英伟达的CUDA垄断呢?
要想打破CUDA垄断,国产GPU厂商、大模型厂商需要在以下方面进行技术创新:
开发自主的编程模型(逻辑架构)、工具链(开发调试)、运行时/驱动API(资源管理)、加速库(算法优化库,用于提升深度学习训练、图像处理、自然语言处理等常见AI应用的计算性能。这些库不仅要具有高效的运算能力,还要具备与现有框架兼容的能力,减少开发者的迁移成本),并且要适配自家硬件,要能支持主流的深度学习框架(如TensorFlow、PyTorch等),实现软件与硬件的协同作用,大幅提高计算性能,降低开发者的学习成本,进而提升国产GPU的市场接受度。
在硬件层面,在深度优化GPU架构和设计自有GPU指令集方面进行技术创新。对GPU架构进行深度优化,可以提升其并行计算能力、内存访问效率等关键性能指标;自有GPU指令集能为GPU硬件提供更细粒度的优化,并在性能上与CUDA竞争,甚至在特定应用上超越。
国产GPU厂商在做好软件层面、硬件层面创新的同时,还应开放类似“PTX”的中间表达层的编辑权限,允许采购国产GPU的大模型厂商可以通过编辑该“中间表达层”,充分挖掘、优化国产GPU的算力资源,才能在大模型训练、推理过程中,进一步降低成本,才能与英伟达竞争。
例如:DeepSeek使用PTX(全称为:并行计算任务线程的执行)进行任务执行的优化(例如:对GPU的计算资源(例如:线程调度、寄存器使用等)进行精细的优化),也是因为英伟达的“可编辑性”允许的。
又例如:潞晨科技(国内做AI的集成商)之所以退出DeepSeek的API服务,这里面很重要的一个原因是:因为部署了满血的DeepSeek,一直在亏钱,客户用的越多,他们亏的越多。他们部署了1个月,据说亏了4个亿。而DeepSeek官方公布的利润率高达545%,为啥DeepSeek利润率那么高?潞晨科技为啥会亏呢?一种说法,就是潞晨科技用的是国产GPU芯片,没有像DeepSeek工程师那样,可以通过挖掘英伟达封印在底层的算力和带宽,从而降低模型训练和推理的成本。
这从一个侧面说明了,国产GPU芯片厂商的GPU芯片需要开放类似“PTX”的中间表达层的编辑权限,便于大模型厂商的专利工程师们充分挖掘GPU算力,大模型厂商才能低成本的运营大模型,才能有盈利的可能,否则,国产GPU厂商在面对英伟达竞争的同时,优势会进一步被压缩。
综上所述,要想打破CUDA垄断,需要国产GPU厂商、大模型厂商一起,从硬件、软件、底层资源调度等方面,形成一个整体解决方案。

下面谈两点我对专利布局的思考
1、对于国产GPU厂商、大模型厂商而言,不仅要做好上面提到的技术创新,还要同时做好专利布局工作,不仅要在“GPU硬件结构”、“神经网络运算”、“内存管理上”等方面做好技术创新专利布局,还需要在优化“GPU资源调度”、“GPU之间高效交互”等方面做好专利布局工作。
具体而言:
对于大模型厂商(例如:DeepSeek)而言,基于国产GPU芯片厂商未来开放的类似“PTX”的中间表达层的编辑权限,可以做很多工程化的技术创新,从而优化调度底层的算力和带宽,这些工程化的技术创新,是未来专利布局的重点之一。
2、对于大模型厂商而言,大多数情况下,不可能只采购一家GPU芯片,在采购多家(例如:英伟达、华为、摩尔线程)GPU芯片后,在模型训练、推理时,如何采用工程化的手段,做好不同GPU芯片之间的算力优化调度、交互,是一个很重要的技术创新方向,也是未来专利布局重点之一。
总之,要想打破CUDA垄断,需要国产GPU厂商、大模型厂商一起,从硬件、软件、底层资源调度等方面,形成一个整体解决方案;同时,也要做好技术创新的专利布局工作,为后续商业化的竞争,提供有利支撑。

