AI芯片与未来：DPU、GPU、NPU、ASIC和FPGA|速看

目前用于深度学习最广泛的芯片当属擅长并行计算的 GPU，而随着深度学习对算力要求的不断提升，各家公司开始研发生产专用于深度学习、DNN 的运算芯片或基于 FPGA 架构的半定制芯片，代表产品有 Google 研发的张量计算处理器 TPU、寒武纪研发的神经网络计算处理器 NPU 以及 Intel 旗下的 Altera Stratix V FPGA。目前各类芯片各有优劣，未来或将出现GPU、FPGA、“XPU”分别对应不同算力要求、产品结构的运算芯片市场。

以昇思为基，盘古生态引领中国AI未来

当前市场上主要有通用类（GPU、DPU）、FPGA（半定制）、ASIC（全定制）三大类 AI 计算芯片。其中 GPU 目前市场使用率最高，商业化较为成熟，全球最主要的供应商是英伟达。而以 FPGA 和 ASIC 架构研发出的 AI 芯片种类较多，目前尚处于发展探索阶段，例如较为知名的 NPU、TPU 就是以 ASIC 架构为基础设计的。

【资料图】

1. GPU：通用性最强，AI 计算时代霸主

GPU，源于图形处理的 AI 计算芯片。GPU（Graphics Processing Unit），即图形处理器，又称显示核心、视觉处理器、显示芯片，起初是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器，是一种由大量运算单元组成的大规模并行计算架构，专为同时处理多重任务而设计。大数据时代，GPU 被广泛应用于数据中心、矿机、深度学习等领域。GPU 芯片采用统一渲染架构，计算通用性最强，可以适用于多种算法，在算法尚未定型的领域，GPU是最佳选择。

GPU 在 AI 计算市场销售额占比最大，霸主地位稳固。目前大多数领域，AI 计算算法尚在不断探索、优化阶段，GPU 仍是最佳选择。根据智研咨询数据显示，截至 2021年 8 月，全球人工智能的计算力主要是以 GPU 芯片为主，2020 年销售额市场份额占比约为 42.3%，市场规模约为 38 亿美元，预测到 2024 年销售额占比提升至 51.4%，届时全球人工智能 GPU 芯片市场规模将达 111 亿美元。

2. FPGA：半定制芯片，灵活性高

FPGA 是一种半定制芯片。FPGA（Field－Programmable Gate Array），现场可编程门阵列，用户可以根据自身的需求进行重复编程。FPGA 的优点是既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点，对芯片硬件层可以灵活编译，功耗小于 CPU、GPU；缺点是硬件编程语言较难，开发门槛较高，芯片成本、价格较高。FPGA 比 GPU、CPU 更快是因为其具有定制化的结构。

CPU 和 GPU 都属于冯·诺依曼结构，在该结构中，执行单元可以执行任意指令，这需要有指令存储器、译码器、各种指令的运算器等和共享内存。而 FPGA 的每个逻辑单元的功能在重编程时就已经确定，不需要指令和共享内存。但这也是 FPGA 的缺点，当处理的任务重复性不强、逻辑较为复杂时，FPGA 效率就会低于使用冯·诺依曼结构的处理器。

3. ASIC：专用性最强，追求极致性能

ASIC 是一种为专门目的而设计的芯片（全定制）。ASIC特殊应用集成电路芯片，是一种根据特定算法定制的芯片架构，其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于 CPU、GPU、FPGA，但初始投入大，专业性强缩减了其通用性，算法一旦改变，计算能力会大幅下降，需要重新定制。

算力需求增加，ASIC 前景广阔。随着数据量的不断增加和芯片工艺的极限到来，对算力的诉求越来越难以被满足。在此背景下，对于一些特定的领域，其数据量庞大，算法逐渐固定，使用专为特定算法设计的 ASIC 芯片成为了许多公司的首选。AI 计算市场上比较火的 TPU、NPU 等，都是 ASIC 专用芯片。

4. DPU：GPU 之后分担 CPU 算力又一芯片

DPU 是一个全新的，用于在数据中心承担网络和存储等服务的处理器。DPU(DataProcessing Unit)，数据中心处理器是最新发展起来的专用处理器，主要是用来加速数据中心的安全、网络和存储任务。它是继 CPU，GPU 之后，数据中心场景中的第三颗重要的算力芯片，为高带宽、低延迟、数据密集的计算场景提供计算引擎。DPU 将卸载 CPU原本承担的网络、存储、安全、管理等服务，释放 CPU 算力，同时对安全隐私进行高级别的加密。在 2021 年 4 月的 GTC 大会上，英伟达总裁黄仁勋推出了 NVIDIA BlueField-3 DPU 及其配套软件生态架构 DOCA。

DPU 的提出能够有效解决 CPU 和 Memory 之间传输带宽的瓶颈。随着数据量的增加，CPU 和 Memory 之间的数据传输带宽成了瓶颈。根据 Fungible 和 AWS 的统计，在大型数据中心中，流量处理占到了计算的 30%左右。数据中心在节点间交换效率和可靠性以及节点内 I/O 切换效率比较低，DPU 的出现是为了试图解决这种松耦合的关系，从这方面加快整体运算速度。目前来看 DPU 只是提供更安全高效的网络、存储等加速服务，但未来或将真正的以数据中心为运算单元，依靠 DPU 实现紧耦合结构提升整体效率。

5. NPU 和 TPU：深度学习 ASIC 加速芯片

NPU 是一种参考人体神经突触的 ASIC 芯片。随着深度学习神经网络的兴起，CPU和 GPU 逐渐难以满足深度学习的需要，专门用于神经网络深度学习的处理器NPU(Neural Processing Unit)应运而生。NPU 采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。区别于 CPU 以及 GPU 所遵循的冯诺依曼架构，NPU 参考人体的神经突触结构，将存储与运算结为一体。

NPU 显著提高了深度学习芯片的运算速度。深度学习芯片主要分为训练芯片和推理芯片。深度学习神经网络算法像人一样，需要学习知识（训练），之后就可以把学习到的知识运用到工作中去（推理）。训练过程需要大量的数据样本进行计算，而推理过程需要用少数的数据快速得出推理结果。NPU 在电路层模拟人类神经元和突触，相比于 GPU的冯诺依曼结构，NPU 通过突触权重实现存储计算一体化，提高运行效率，因此 NPU比 GPU 更擅长推理。

TPU，专门为 Google Tensorflow 框架设计的 ASIC 芯片。张量处理器（TensorProcessing Unit）是 Google 为机器学习定制的 ASIC 芯片，专为 Google 的深度学习框架TensorFlow 而设计。Google 在 2016 年的 Google I/O 年会上首次公布了 TPU，不过在此之前 TPU 已在 Google 内部的一些项目中使用了一年多，如 Google 街景服务、RankBrain以及其旗下 DeepMind 公司的围棋软件 AlphaGo 等都用到了 TPU。TPU 只完成推理过程，训练过程由 GPU 完成。

新计算模式不断出现，底层架构持续创新

AI 计算蓬勃发展，新计算模式不断出现。随着各大厂商对 AI 芯片的不断研究，芯片的计算性能不断提升，芯片种类不断增多。截至 2021 年 8 月，GPU 在 AI 计算市场份额最大，但 FPGA、ASIC 的发展迅速，有望取代一部分 GPU 的业务。与此同时，DPU的不断运用也将有效改善和加速网络数据传输计算速度，协同 CPU、GPU 高效运行。

当前 CPU 依然处于计算芯片中的核心地位，GPU、DPU 目前也只能卸载 CPU 部分功能，加快 CPU 处理、运算的效率，并没有根本动摇 CPU 地位。目前在人工智能、深度学习和云计算等领域以 CPU+GPU 为主要场景，CPU+FPGA、CPU+NPU 等模式不断推出，未来有望出现更先进的模式。

下载链接：

多模态AI研究框架（2023）

大模型算力需求驱动AI服务器行业高景气（2023）

“机器人+” 系列：机器人研究框架（2023）

1、大模型算力需求驱动AI服务器行业高景气（2023）2、多模态大模型技术演进及研究框架3、大模型遇到金融：海内外金融领域大模型对比4、大模型如何影响网安行业的未来5、大模型应用百花齐放，AI发展进入新时代6、详解大模型训练与推理对算力产业链的需求影响7、训练大模型发展前景及思考和探讨—华为诺亚方舟实验室8、人工智能通用大模型（ChatGPT）的进展、风险与应对9、ChatGPT引发的大模型时代变革10、中国大模型发展白皮书（2023年）11、中国大模型发展白皮书—元能力引擎筑基智能底座（2023年）12、“源1.0”大模型技术白皮书