在AI芯片这个波澜壮阔的竞技场上,一度被奉为“技术圣杯”的大规模训练,如今正悄然让位于更低调、但更现实的推理市场。
Nvidia依然在训练芯片市场一骑绝尘,Cerebras则继续孤注一掷地打造超大规模计算平台。但其他曾在训练芯片上争得面红耳赤的玩家——Graphcore、英特尔Gaudi、SambaNova等——正在悄悄转向另一个战场:AI推理。
这一趋势,并非偶然。
AI训练作为一个重资本、重算力、重软件生态的产业,Nvidia的CUDA工具链、成熟的GPU生态与广泛的框架兼容性,使其几乎掌握了训练芯片的全部话语权。而Cerebras虽然另辟蹊径,推出了超大芯片的训练平台,但仍局限于科研机构和极少数商业化应用场景。
在这种格局下,新晋芯片企业在训练市场几乎没有生存空间。“训练芯片的市场不是大多数玩家的竞技场”,AI基础设施创业者坦言,“光是拿到一张大模型训练订单,就意味着你需要烧掉数千万美元——而且你未必赢。”
正因如此,那些曾在训练芯片上“正面硬刚”Nvidia的创业公司,开始寻求更容易进入、更能规模化落地的应用路径。推理芯片,成为最佳选项。
Graphcore:推理成救命稻草
成立于2016年的英国AI芯片独角兽Graphcore一度是Nvidia最具挑战性的对手之一,其IPU(Intelligence Processing Unit)主打用于神经网络训练的并行处理架构。
据Graphcore介绍,IPU是一种专为人工智能和机器学习工作负载设计的处理器,与传统的 CPU或 GPU相比,IPU 在结构和处理方式上都有所不同,旨在更高效地执行 AI 模型训练和推理任务。
随着全球对人工智能芯片需求的持续飙升,Graphcore迅速崛起,并在短时间内吸引了大量投资者的关注,2020年,Graphcore 发布的 Colosual MK2 GC200 IPU,采用台积电7纳米制程,据称已接近 NVIDIA A100 的表现,同年,其以 28 亿美元的估值筹集了 2.22 亿美元,成为了英国最有前途的初创公司之一。
在Graphcore技术负责人Simon Knowles看来,与英伟达展开全面竞争并不明智。他在The Robot Brains Podcast上分享了核心创业准则:绝不生产大公司现有产品的强化版,因为大公司拥有庞大市场基础,初创企业难以直接抗衡。
他认为AI将存在于人类未来技术的各个领域,而不同行业需求无法由单一架构支持,Graphcore只需在特定领域让IPU优于GPU,即可在这个快速增长的市场分得一杯羹。
由于架构的特殊性,IPU特别适合处理当前CPU和GPU无法最优运行的高性能计算任务,尤其是”稀疏数据”处理。分子就是典型应用案例——分子排列不规律,行为复杂且体积小,而IPU的大规模并行结构适合处理这类不规则数据结构。
在应用领域,IPU在化学材料和医疗领域表现突出,曾被用于冠状病毒研究。2020年,微软的Sujeeth Bharadwaj将IPU内置于Azure系统中用于识别新冠胸部X光片,他表示:“Graphcore芯片可在30分钟内完成英伟达传统芯片需5小时的工作。”
商业模式上,Graphcore将IPU集成于“pods”系统中,打包销售给云计算和服务器厂商。最令人瞩目的无疑是2019年11月,微软与Graphcore签署了采购处理器的协议,这对于一家初创公司来说,无异于天上掉下了一块吃不完的馅饼。
只可惜,现实是残酷的,随着市场对训练平台的门槛不断拔高,Graphcore的IPU系统在大型AI训练项目中难以撼动Nvidia的地位,2021年春季,随着微软终止与Graphcore的合作,这家初创企业就开始走向了衰落,为了削减成本,Graphcore在2022年9月宣布裁员,并于次月关闭奥斯陆办公室。
2023年,Graphcore被曝在北美大幅裁员、关闭美国业务,同时放弃了IPO计划,创始人Simon Knowles在一次内部讲话中承认:“训练市场太集中,我们需要转向能带来收入的实际落地场景。”
2024年7月,日本软银集团宣布完成对Graphcore的收购,开始将重心转向企业AI部署中的高效推理任务,其重新优化了Poplar SDK,推出轻量级模型推理加速方案,并面向金融、医疗和政府等场景,强调“高吞吐、低功耗”的AI推理解决方案。
对于Graphcore来说,推理或许就是它最后的救命稻草。
英特尔Gaudi:不再死磕GPU
创立于2016年的Habana Labs,一度也是以色列的明星公司之一,旗下产品主要针对AI的推理预测和训练。2018年,Habana Labs推出旗下第一款产品——Goya推理处理器,主要用于AI推理和预测。而在2019年推出的Gaudi,主要用于AI训练,在被收购前,其已经在AI芯片的训练、推理两端初步形成了完整产品线。
2019年,英特尔以20亿美元的价格高调收购了Habana,而Gaudi也顺势成为了其AI训练战略中的重要拼图。2022年5月,英特尔正式发布了采用了7nm制程得 Gaudi2 和 Greco 深度学习加速器,据英特尔介绍,其对比Nvidia的A100 GPU 的吞吐量性能提高了 2 倍。
尽管在部分性能参数上,英特尔Gaudi系列足以挑战Nvidia,但从后续的市场反馈来看,即使在云厂商中,Gaudi训练平台的采用率也始终低迷。
一位前英特尔高管坦言:”从收购Habana的那一刻起,英特尔内部始终无法理解为何同时运营两个开发竞争架构的部门——Habana和GPU部门。”Habana前员工则将英特尔的官僚效率视为严重障碍。一位前Habana员工对比道:”在Habana,五分钟的走廊交谈就能做出决定;而在英特尔,同样的决定需要三次会议,数十人参与,却毫无进展。”
直至2022年,英特尔一直双线并行——一边销售Gaudi处理器,一边开发竞争产品Ponte Vecchio GPU。然而,随着ChatGPT等生成式AI模型崛起,英伟达的市场主导地位日益稳固,英特尔再次面临客户负面反馈。
2023年中期,英特尔宣布将Gaudi并入新成立的AI加速产品线,并将Gaudi 3的重点转向“训练+推理并重”,其中推理性能和性价比成为新卖点。
Gaudi 3在2024年初发布时,英特尔重点宣传的是其在推理场景下对大语言模型的加速表现——例如在运行Meta Llama 2等模型时,相比Nvidia A100实现了更低的延迟和更高的能效。更重要的是,英特尔大力宣传Gaudi在成本端的优势,其“每美元推理吞吐量”高于同类GPU芯片近30%。
最终,英特尔开始尝试整合业务,将Habana与GPU部门合并,并开发名为Falcon Shores的新型AI处理器——一款结合GPU(类似英伟达)和CPU(英特尔专长)的混合芯片。Habana员工对此举表示质疑,甚至自嘲道:”突然间,他们想起我们了。”
今年年初,英特尔除了公布令人失望的财务业绩外,还宣布其下一代 Habana 处理器 Falcon Shores 收到了客户的负面反馈,因此不会进行商业化销售。此前,大约六个月前,英特尔曾宣布 Gaudi 未能达到 2024 年实现 5 亿美元营收的预期。因此,英特尔决定不再开发 Gaudi 3 之后的下一代产品。
截至目前,Gaudi 3被打包进入Supermicro等厂商的AI服务器中,面向企业部署大模型、构建私有化语义搜索、文档摘要、客服机器人等场景。对于希望“部分替代公有云推理API”的中大型企业客户而言,Gaudi正在成为一个价格友好型选择。
对于英特尔来说,包括Gaudi在内的GPU业务的重要性正在不断削弱,其未来可能也会更多倾向于推理而非训练。
Groq:以速度换市场
同样是初创AI芯片的公司的Groq,其故事起点可以追溯到 Google 内部。其创始人 Jonathan Ross 是 Google 第一代 TPU(Tensor Processing Unit)芯片的首席架构师。在目睹了TPU在深度学习训练和推理上的突破后,Ross于2016年离开Google,成立了 Groq,试图打造一个比TPU更快、更可控的“通用AI处理器”。
Groq的核心技术是自研的 LPU(Language Processing Unit) 架构。这种架构抛弃了传统的乱序执行和动态调度机制,采用静态调度、数据路径固定、执行流程可预测的“确定性设计”(deterministic design)。Groq 宣称,这种设计可以实现极低延迟和高吞吐率,非常适合大规模推理任务。
一开始,Groq也曾押注训练市场,其在早期尝试将LPU推向大模型训练市场,声称其架构可提供比GPU更高的利用率和更快的训练周期。但现实却是残酷的:Nvidia的CUDA生态壁垒几乎无法撼动,训练市场的竞争逻辑更多拼的是“大生态 + 大资本 + 大客户”。对于一个芯片初创企业而言,很难获得主流AI实验室和云厂商的认可。
同时,Groq的架构对主流AI框架(如PyTorch、TensorFlow)的兼容性有限,也缺乏成熟的编译工具链支撑,使得训练任务的迁移成本极高。这些现实逼迫Groq重新思考其市场切入点。
从2023年下半年开始,Groq明确转向推理即服务(Inference-as-a-Service)方向,打造一个完整的“AI推理引擎平台”——不仅提供芯片,更向开发者和企业开放超低延迟的API接口,强调“文字输入后几毫秒出结果”的极致响应。
Groq在2024年展示了其系统运行 Llama 2-70B 模型时,实现了每秒超过300个Token的生成速度,远超主流GPU系统。这一优势让Groq迅速吸引到一批对延迟敏感的垂直行业用户,如金融交易系统、军事信息处理、以及语音/视频同步字幕生成。
此外,Groq将产品定位从“AI芯片”扩展为“AI处理平台”,通过GroqCloud平台向开发者提供API访问权限,与LangChain、LlamaIndex等生态集成,试图把自己变成一个专注速度优化的大模型推理云。
目前,Groq正在与多家初创AI应用公司合作,作为其低延迟后端推理服务提供方,在小型助手、嵌入式交互设备和高频问答系统中获得初步部署落地。
对于Groq而言,专注推理速度让它在一众初创AI芯片公司中脱颖而出。
SambaNova:从系统即服务到推理即服务
SambaNova是少数几家不靠“卖芯片”而是“卖系统”的AI芯片创业公司。其Reconfigurable Dataflow Unit(RDU)芯片架构采用数据流计算方式,以高吞吐量为卖点,曾在训练大型Transformer模型时展现出优越性。
SambaNova曾非常重视在其硬件上训练模型,他们发布过关于如何在其硬件上训练的文章,炫耀自己的训练性能,并在官方文档中提及训练,许多分析师和外部观察者都认为,能够用一款芯片同时处理训练和推理市场,是SambaNova相较于Groq等竞争对手的一大优势,而Groq是最早转向推理的初创公司之一。
这一公司也投入了大量时间和精力来实现高效的训练功能。在2019年至2021年左右,SambaNova的工程师花了相当多的时间为NAdam优化器实现内核代码,这是一种常用于训练大型神经网络的基于动量的优化器。其软硬件特性都被设计并优化用于训练,无论是对内还是对外的信息传达中,而训练也始终是SambaNova价值主张的重要组成部分。
然而,自2022年起,SambaNova的销售重点已悄然发生变化。公司推出了“SambaNova Suite”企业AI系统,不再强调训练模型能力,而是聚焦“AI推理即服务”(Inference-as-a-Service)。用户无需拥有复杂硬件或AI工程团队,只需调用API即可完成大模型推理工作,SambaNova在后台提供算力与优化模型。
而在今年四月下旬,SambaNova Systems大幅转变了其最初的目标,其宣布裁员15%,并将重心完全转向AI推理,几乎放弃了此前主打的训练目标。
据介绍,其系统特别适用于私有化模型部署需求强烈的领域——如政府、金融、医疗。在这些领域,数据敏感、合规严格,企业更倾向于自己掌控模型运行环境。SambaNova为其提供了“大模型交钥匙工程”式方案,主打易部署、低延迟、符合合规的推理平台。
SambaNova目前与多个拉美金融机构、欧洲能源公司建立了合作,提供多语言文本分析、智能问答和安全审计等大模型推理服务,商业化路径逐渐清晰。
在经历各种挫折之后,SambaNova也在推理AI市场中找准了自己的定位。
推理,更吃香了
在一篇报道中,有分析师指出,要高效完成训练,你需要复杂的内存层级结构,包括片上SRAM、封装内HBM和片外DDR。而AI初创公司难以获得HBM,更难将HBM集成进高性能系统——所以像Groq和d-Matrix这样的许多AI芯片就不具备足够的HBM或DDR容量或带宽来高效训练大型模型。推理则没有这个问题。在推理过程中,无需存储梯度,激活值也可以在使用后丢弃。这极大减少了推理任务的内存负担,也降低了仅支持推理的芯片所需的内存系统复杂度。
另一个挑战是芯片间的网络通信。在训练中生成的所有梯度需要在所有参与训练的芯片之间同步。这意味着你需要一个大型、复杂的全互联网络来高效完成训练。相比之下,推理是一个前馈操作,每个芯片只需与推理链中的下一个芯片通信。许多初创公司的AI芯片网络能力有限,不适合用于训练所需的全互联架构,但对推理工作负载却绰绰有余。Nvidia则很好地解决了AI训练中内存和网络的双重挑战。
而目前就而言,Nvidia的优势过于明显。得益于CUDA赋予GPU的多功能性,Nvidia的硬件能够完成训练和推理所需的全部运算。而在过去十年中,Nvidia不仅致力于构建针对机器学习工作负载高度优化的芯片,还在优化整个内存和网络架构以支持大规模训练和推理。
每颗芯片上搭载大量HBM,使得Nvidia硬件能够轻松高效地缓存每一步训练生成的梯度更新。再加上NVLink等规模扩展技术以及InfiniBand等集群扩展技术,Nvidia硬件能够胜任每一步训练后对整个大型神经网络权重进行全局更新所需的全互联网络。像Groq和d-Matrix这样的仅推理芯片在内存和网络能力上都无法与Nvidia在训练方面竞争。
而且事实证明,Nvidia在训练性能上的优势不仅仅是HBM和网络。他们在低精度训练方面投入了巨大努力,而顶级AI实验室也相应地在算法超参数调优上做了大量工作,以适配Nvidia低精度训练硬件的复杂细节。若要从Nvidia转向其他芯片进行训练,就需要将极其敏感的训练代码迁移到一个全新的硬件平台上,并处理一整套新的“坑”。对于一个GPT-4规模的大模型来说,这种迁移成本和风险极高。
AI推理并不新鲜,但当越来越多芯片公司“集体转身”拥抱它,它便不仅是一个市场趋势,更是一次战略转向。在推理市场,赢家可以是一个懂用户需求的小团队,也可以是一个专注边缘计算的初创公司。
未来的AI芯片竞争,将不再只围绕浮点计算和TOPS展开,而是进入一个更贴近“真实世界”的阶段——一个讲究成本、部署、可维护性的时代。对AI芯片企业而言,从训练到推理,不是放弃技术理想,而是走向产业现实。
本文来自微信公众号 “半导体行业观察”(ID:icbank),作者:邵逸琦,36氪经授权发布。