自研AI芯片为哪般？_金年会网页版在线登录·[中国]官方手机网页版注册

新闻中心

　　2023年，生成式AI技术一枝独秀，在人工智能领域独占鳌头，成为最耀眼的明星。在下半年，生成式AI芯片玩家更是掀起了一股狂欢。先是ChatGPT幕后的股东微软在11月16日的Microsoft Ignite大会上发布Maia 100芯片，1050亿晶体管挑战AI芯片极限；紧接着，亚马逊云科技（AWS）在11月底的re:Invent大会上发布了专为生成式AI和机器学习训练的专用芯片Trainium 2；而在12月初，谷歌也放大招，发布了新一代TPU芯片v5p。

　　科技巨头苹果来自服务领域的营收高达850多亿美元，占到总营收的22%。以ChatGPT为代表的大模型应用说到底也是服务的一种。像大模型这样的服务功能正在成为科技企业未来可观的业务营收增长来源。所以，生成式AI早已是兵家必争之地。

　　根据研究公司International Data Corp.（IDC）的预测，仅今年一年，全球企业就将在生成式AI解决方案上花费大约为159亿美元，2024年的花费大约是355亿美元。预计到2027年，全球用于生成式AI的支出将达到1,431亿美元。IDC表示，ICT企业在AI领域支出大约为7%，而生成式AI在2027年将占总体AI支出的34%。而中国在生成式AI上的支出，从2022年~2027年的复合年增长率更是高达87.5%。

　　而且行业用户对生成式AI的应用和部署整体非常热衷。IDC在2023年8月的《Gen AI ARC Survey》的调研报告中指出，在拥有5000名以上员工的企业中，80%的企业认为GenAI（生成式AI）将在未来 18个月内颠覆他们的业务。高管们希望在2024年看到GenAI 在客户体验、决策制定和订单速度方面的收益。不少企业已经把生成式AI支出纳入年度预算。

　　在这样的市场需求下，云巨头们无不纷纷开始布局大模型。谷歌近日强势推出Gemini，剑指GPT-4。Gemini被谷歌号称是“性能优于以前最先进的模型”，众所周知，当今最强大的大模型是GPT4。Gemini是从头开始构建的多模式，这意味着它可以概括和无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。Gemini Ultra 的得分高达 90.0%，是第一个在MMLU（大规模多任务语言理解）上超越人类专家的模型。

　　AWS也发布了融合了亚马逊25年的人工智能 (AI) 和机器学习 (ML)创新的Titan多模式基础模型 (FM)。不过AWS的Titan模型是一款文生图的模型，它主要针对的受众是企业，譬如广告、电子商务以及媒体和娱乐公司可以以低成本大批量创建工作室品质的逼真图像，而不是像 OpenAI 的 DALL-E 等现有的知名图像生成器那样以消费者为导向。

　　而中国百模大战也已开启。听、说、读、写、看、画、思、动，AI无处不在的时代已经悄然朝我们走来。

　　在生成式AI领域，不可能仅单一的大模型就可以释放生成式AI的所有价值。所以继ChatGPT之后，市场上必然还会有其他高性能的大模型会在市场有所立足之地。至于最终谁将能够与ChatGPT一样问鼎中原，仍然需要经历市场的考验。

　　在推动生成式人工智能应用发展的过程中，底层芯片扮演着至关重要的角色。考虑到X86服务器CPU的相对较高成本以及 Nvidia Hopper H100 和 H200 GPU 加速器以及AMD Instinct MI300X 和 MI300A GPOU加速器的惊人定价，更为关键的是，这些高性能芯片面临供应不足的问题。因此，自研芯片逐渐成为推动大型模型企业发展的主流方式。

　　在一众云服务提供商中，谷歌是资深的芯片玩家。虽然谷歌的第一代TPU芯片是在2016年的Google I/O开发者大会上发布的，但是其自研芯片的旅途却始于十年前。其最新发布的TPU芯片——TPU v5p，与 TPU v4 相比FLOPS 提高了 2 倍以上，高带宽内存 (HBM) 提高了3倍以上，总容量为 95GB。谷歌将这些TPU v5p组合到Pod中，每个TPU v5p Pod由 8,960 个芯片组成，并通过谷歌的最高带宽的芯片间互连 (ICI)连接在一起，采用3D环面拓扑，每芯片速率为 4,800 Gbps。谷歌称，TPU v5p训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。谷歌最新的Gemini大模型就是使用TPU进行训练和服务的，而且谷歌表示，使用TPU定制芯片Gemini 的运行速度明显快于早期、较小且功能较差的型号。

　　AWS近日也发布了专为高性能深度学习训练而设计的Trainium 2。Trainium 2芯片可以训练具有数千亿至数万亿参数的基础模型进行优化。每个Trainium加速器都包含两个专为深度学习算法而构建的第二代NeuronCore，采用NeuronLink，这是一种实例内、超高速非阻塞互连技术。Trainium 2加速器具有32GB的高带宽内存，提供高达190 TFLOPS的 FP16/BF16 计算能力，比Trainium 1芯片训练速度快4倍。并能够部署在多达 100,000个芯片的EC2 UltraClusters中，从而使基础模型 (FM) 和大型语言模型 (LLM) 的训练只需极少的时间，同时能效提高达2倍。

　　相比谷歌和AWS，微软在自研芯片领域可以说起步晚了些，但是其却来势凶猛。微软自研的Maia 100芯片基于台积电5纳米工艺打造，总共包含1050亿个晶体管。从公开数据开来，微软这颗芯片是迄今为止最大的AI芯片。Maia 100在MXInt8下的性能为1600 TFLOPS，在MXFP4下则录得了 3200 TFLOPS的运算速度。从这些FLOPS 看来，该芯片完全彻底碾压了谷歌的 TPU v5 (Viperfish) 以及亚马逊的Trainium/Inferentia2 芯片。与Nvidia的H100 和AMD的MI300X相比，微软Maia 100的差距也并不远。不过在内存带宽方面，微软Maia 100的规格是1.6TB/s的内存带宽，高于Trainium/Inferentia2，但却逊于TPUv5，至于其原因，按照semianalysis的说法，之所以微软会出现这样的“错误”，完全是因为这该芯片是在LLM热潮发生之前设计的。在芯片互连方面，与谷歌对其TPUv5和专有ICI网络所做的类似，微软在每个芯片都有自己的内置传输速度达4.8Tbps 的RDMA以太网 IO，。

　　市场上有很多传闻，ChatGPT的开发者OpenAI也在考虑自研芯片，并招募了不少行业的大牛。按照这个发展态势，可能未来的大模型公司都会采取自研的策略。

　　众所周知，目前市面上能用于生成式AI大模型训练的芯片价格普遍很高，所以这些厂商自研是否是为了压价？有消息称，谷歌使用TPU后，不必向Nvidia支付70%的利润。又或是彻底替代第三方的GPU or其他AI加速器芯片？还是只是为了一个备选？对此，业内不同领域的专家均发表了自己的一些看法。

　　中科院计算所研究员韩银和认为，他们最主要目的是希望能通过芯片来增强他们在大模型或者云计算服务上的核心竞争力，而不仅是降低成本。他还提到，OpenAI也透露出自研AI芯片的消息，他们一定会在大模型训练和推理上做一定的定制，以提升他们公司在大模型研发上的核心竞争力。这类定制化的芯片通常会在自身业务上具有一定的优势，但缺乏GPU那样的通用性。

　　就目前的情况而言，尽管这些厂商渐渐发布了自研的芯片，但是在短期内仍然离不开对GPU的依赖。如谷歌Cloud AI副总裁 Amin Vahdat表示，Gemini将同时运行在GPU和TPU上。对此现象，矩向科技创始人兼CEO黄朝波指出，谷歌在自研TPU的情况下，依然使用GPU，这个现象其实很好理解。现在的大模型仍然是在持续迭代，一开始，通过GPU平台更友好的编程，快速验证一些想法。等业务规模上来以后，通过TPU来优化成本或性能，是一个很自然的方式。在黄朝波看来，这些厂商自研芯片的目的是兼而有之，短期是压价，长期是替代。Nvidia在未来很长一段时期内，仍然是最炙手可热的芯片公司（没有之一），但其利润率会慢慢回归到正常区间。

　　业内投资人Jasper认为，目前Nvidia GPU在生态、易用性和通用性上还是有很高的壁垒，短期还是不可替代的。而且目前TPU在芯片层面的性能和软件生态上，尤其在通用任务上，还是和NV有一定差距，不少第三方客户在从Nvidia切换到TPU还是有不顺的地方。不过，Google的TPU+光互联+系统+大模型Infra，在系统级其实是更有优势的。

　　人工智能和芯片行业人士Roland的看法与Jasper类似，他告诉半导体行业观察，在可预期的未来几年，Nvidia的GPU都将是云端人工智能训练和部署的标准方案。原因在于，过去十年间的云端人工智能软硬件技术栈都是基于Nvidia的方案，相关的部署方案和代码已经在云端大厂里根深蒂固，因此在未来一两年内切换到另一个自研方案的风险极大。

　　但是Roland进一步指出，“类似谷歌Gemini这样的做法，同时运行在TPU（自研芯片）和GPU上，很大程度上也是为了确保有一个备选方案，如果自研的芯片的方案遇到了意想不到的问题还可以切换到Nvidia的GPU上，反之亦然。未来自研方案只能慢慢取代Nvidia，当自研方案能足够成熟之后，可望可以越来越多地取代Nvidia。但是即使在最乐观的情况下也不太可能完全取代。”

　　所以在Roland看来，厂商自研芯片是一种second source方案，目的除了压价（其实可能也压不了太多价格）之外，更多是将核心技术把握在自己手中。更便于自己去制定未来的路线图，而不会对于某些供货商有过分依赖。这样做的好处是：一方面，这样如果主流方案缺货或者因为其他原因无法获得时，还有自研方案能保证供应链安全；另一方面，当新的技术出现，目前主流方案供货商无力支持或者不愿意支持的时候可以有能力用自己的方案顶上。

　　谈到云厂商自研芯片的成本效益问题时，韩银和表示，这其实是一个需要时间来待验证的问题。从半导体行业发展的经验来看，在AI芯片这类具备大批量、形成生态的芯片种类，长期竞争的结果，往往是赢者通吃，这是一个残酷的现实。看芯片，不仅仅要看最后高昂的制造成本，还有前端研发和设计投入的大量人力、时间成本，如果是以芯片为主要产品和核算单元的企业，单独一个企业的量是很难支撑一个大芯片厂商成本的。当然，谷歌、微软他们可能是以最后提供的云服务或者大模型能力为核算单元的，如果芯片能给他们核心竞争力提供助。

金年会网页版在线登录上一篇：2024-2030年中国酸化水生成器行业市场竞争态下一篇：百度文心一言App上线已开通部分用户内测

金年会网页版在线登录