科技巨头都想要研发自己的AI芯片，哪条技术路线最有戏？

2023-08-16 02:11:18 来源：贤集网

(资料图)

近日，2023年世界人工智能大会落下帷幕，这场“有史以来”最受瞩目的AI盛会，齐聚30多款大模型，除了阿里通义、百度文心、复旦MOSS等通用大模型，垂直行业的大模型应用也纷纷亮相，标志着行业进入了大模型主导的新阶段。只不过对于大模型公司而言，发布模型只是开始。硅谷风险资本的调查显示，初创大模型公司普遍需要支付一笔“AI税”，即拿出早期融资金额的80%-90%用于购买AI芯片，以此为大模型提供算力支撑，可见算力对于大模型发展是尤为重要的。只不过目前为国内大模型提供算力的英伟达A100 GPU，由于种种原因将受到限制。因此国内大模型公司将目光转向国内的AI芯片厂商，寄希望于它们能够提供国产替代的算力新选择。

AI芯片竞争路线目前，随着人工智能的发展逐步深入后，算力成了AI发展的核心资源。必然导致许多公司都在开发自己的AI芯片，在AI算力领域能抢占至高点。一些传统的芯片制造商，如英特尔、三星、博通和高通，正在投入大量资金开发这项技术。当然，一些大型科技公司，如苹果和谷歌，也在努力创新AI芯片领域。TPU(Tensor Processing Unit)：这是谷歌专门为机器学习设计的AI加速芯片,用于加速tensor(张量)相关的运算,尤其对大规模神经网络模型的训练和推理有非常好的加速效果。TPU采用了专门的矩阵运算单元,数据流水线等架构。谷歌使用TPU获得了很大的AI计算优势。NPU(Neural Processing Unit)：这是用于加速神经网络模型运算的专用芯片。通常被集成在部分智能手机、IoT设备中,用于本地的神经网络推理。主要由移动芯片厂商设计,如高通、苹果、华为的自研NPU。优化了针对移动端AI算法的算力、功耗、成本等指标。GPU(Graphics Processing Unit)：图形处理器,具有大规模并行计算能力,被广泛应用于AI模型训练中。知名的有NVIDIA Tesla系列GPU,针对深度学习进行了架构优化。AMD、Intel等也有专门的AI加速GPU。可以提供很强的算力来训练复杂的AI模型。FPGA(Field-Programmable Gate Array)：现场可编程门阵列,可在场地灵活编程,覆盖面广。英特尔、赛灵思等公司提供了专用于AI加速的FPGA解决方案。可以编程实现不同的加速功能,但编程复杂度较高。ASIC(Application Specific Integrated Circuit)：应用专用集成电路,专门针对特定应用和算法设计,如Graphcore和Cerebras的AI芯片。性能和效率可以做到极致optimization,但不灵活。SoC(System on a Chip)：把CPU、GPU、NPU、DSP等多种处理器集成在一颗芯片上,如华为的麒麟系列芯片。SoC可以提供综合算力,但设计和验证复杂。英伟达的竞争对手们AI这个巨大的千亿市场，不只是英伟达一家的游戏，AMD和英特尔也在加速追赶，希望分得一杯羹。

英特尔在2019年以约20亿美元价格收购了人工智能芯片制造商HABANA实验室，进军AI芯片市场。今年8月，在英特尔最近的财报电话会议上，英特尔首席执行官Pat Gelsinger表示，英特尔正在研发下一代Falcon Shores AI超算芯片，暂定名为Falcon Shores 2，该芯片预计将于2026年发布。除了Falcon Shores 2之外，英特尔还推出AI芯片Gaudi2，已经开始销售，而Gaudi3则正在开发中。业界认为，目前Gaudi2芯片的热度不及预期，这主要在于Gaudi2性能难以对英伟达H100和A100形成有效竞争。英特尔研究院副总裁、英特尔中国研究院院长宋继强近日表示：“在这一波大模型浪潮当中，什么样的硬件更好并没有定论。”他认为，GPU并非大模型唯一的硬件选择，半导体厂商更重要的战场在软件生态上。芯片可能花两三年时间就做出来了，但是要打造芯片生态需要花两倍甚至三倍的时间。英特尔的开源生态oneAPI比闭源的英伟达CUDA发展可能更快。AMD也在加速追赶。今年6月，AMD举行了新品发布会，发布了面向下一代数据中心的APU加速卡产品Instinct MI300，直接对标H100。这颗芯片将CPU、GPU和内存全部封装为一体，从而大幅缩短了DDR内存行程和CPU-GPU PCIe行程，从而大幅提高了其性能和效率。Instinct MI300将于2023年下半年上市。AMD称Instinct MI300可带来MI250加速卡8倍的AI性能和5倍的每瓦性能提升（基于稀疏性FP8基准测试），可以将ChatGPT和DALL-E等超大型AI模型的训练时间从几个月减少到几周，从而节省数百万美元的电费。此外，谷歌、亚马逊、特斯拉等也都在设计自己的定制人工智能推理芯片。除了国外大厂，国内的芯片企业也迅速入局，其中，昆仑芯AI加速卡RG800、天数智芯的天垓100加速卡、燧原科技第二代训练产品云燧T20/T21均表示能够具有支持大模型训练的能力。国产替代者有望出现与此同时，国内AI芯片产业进入快速发展阶段，产业前行者们正在快研发进程，新兴厂商也不断涌现。这也导致国内AI芯片厂商在架构选择上有了不同的看法，国内AI芯片产业也由此划分出多元的技术路线。眼下最有机会实现国产替代的，当属以海光为代表选择了GPGPU架构的厂商。这不仅是因为GPGPU大约占了90%的市场份额，更是因为GPGPU是目前唯一能运行大模型训练的架构。而基于架构的优势，海光也推出了国内唯一支持全精度计算的——深算系列DCU产品。目前海光还正基于GPUGP架构，加速DCU产品的自主创新迭代。而另外一条路线就是以寒武纪为代表选择ASIC架构的厂商。因为ASIC架构的定制性，让它具备特定场景下具有计算快，能耗低的优势。但定制化也导致ASIC芯片的通用性差，在硬件架构强相关场景中存在限制。因此寒武纪、昇腾等ASIC芯片目前还只是在深度调优后适用于相对成熟、场景固化的模型，难以作为核心算力支撑众多新兴大模型。国内大模型目前多处于发展阶段，而GPGPU架构依然是首选的最优解。而且随着未来AI在视频、图片、语音等多模态领域的应用逐步深入，GPGPU架构的通用性优势也将更加突显。

相关文章深度分析：工业机器人国产化率提升企业如何突破发展瓶颈？（图）05-062022年中国通信行业经济运行月度报告（附全文）03-13

标签：