简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » AI芯片大战,愈演愈烈

AI芯片大战,愈演愈烈

文章来源: 半导体行业观察 于 2025-12-06 23:41:04 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

想象一下,一座灯火通明的巨型数据中心,宛如一座不眠之城。数万块GPU不停运转,风扇轰鸣如瀑布。电流在机架间流淌,仿佛整栋建筑本身就是一个活生生的有机体。几乎在每一块电路板上,你都能看到熟悉的绿色英伟达标志,它为从生成式人工智能到搜索、推荐,再到你现在正在使用的聊天机器人等一切应用提供动力。

但仔细观察一下。在同一数据中心的某个角落,另一种芯片正在悄然崛起。谷歌的TPU Ironwood和亚马逊的Trainium3正蓄势待发,准备挑战英伟达在人工智能芯片领域的统治地位。这场迅速成为十年来最具决定性意义的科技战役的较量,即将上演。

AI芯片大战,愈演愈烈

英伟达的统治地位既有利可图,又实力雄厚,但也日益引发问题。

我们先来看数据。英伟达最近公布的季度营收为570亿美元,其中高达512亿美元来自数据中心GPU。其GAAP毛利率高达73.4%,这一数字甚至超过了大多数软件垄断企业。

简单来说,英伟达每售出一块GPU就能带来巨额利润。这就是为什么投资者称英伟达为人工智能时代的“军火商”。但这种利润也给其他人带来了负面影响。训练前沿模型需要成千上万甚至数万块GPU。再加上HBM显存、海量存储集群、先进的网络以及飙升的电费,成本结构就变得异常高昂。许多人工智能服务即便深受用户喜爱,仍然难以盈利。

所以高管和投资者一直在问同一个问题。

我们还能承受英伟达这样的高价多久?

正是这个问题为谷歌和亚马逊打开了机会之门。多年来,它们一直是英伟达最大的客户,如今,它们已经到达了一个转折点。

如果GPU成本持续攀升,我们还不如自己制造芯片。



谷歌的TPU Ironwood在数据中心悄然展现其强大实力。

谷歌最新推出的第七代TPU,名为Ironwood,是一款专为高吞吐量机器学习任务打造的AI加速器。它提供4614 TFLOPS的FP8运算能力,配备192 GB的HBM3e内存,带宽约为每秒7.3 TB。

真正的亮点在于规模。多达 9216 个这样的芯片可以连接成一个超级处理器,其 FP8 运算性能超过 40 exaflops,共享内存高达 1.7 PB。谷歌将整个系统称为人工智能超级计算机。

谷歌甚至公开将Ironwood与英伟达即将推出的GB300进行比较,声称其在FP8性能方面具有优势。信息很简单。

英伟达并非唯一能够驱动人工智能未来的引擎。

Ironwood 目前已在 Google 内部运行工作负载,并通过部分 Google Cloud AI 实例提供。虽然尚未正式公开发布,但这足以表明长期以来由英伟达主导的时代正在发生转变。



亚马逊的 Trainium3 旨在重塑人工智能基础设施的经济格局。

接下来是亚马逊网络服务(AWS)。AWS推出了由Annapurna Labs设计、采用3纳米工艺制造的第三代人工智能芯片Trainium3。该芯片拥有2.52 FP8 petaflops的运算能力、144 GB的HBM3e显存以及4.9 TB/s的带宽。

AWS 将 144 个这样的芯片集成到全新的 EC2 Trn3 UltraServer 中。单个机架即可达到 362 FP8 petaflops 的运算能力、20.7 TB 的 HBM3e 内存以及每秒 706 TB 的带宽。它专为巨型模型训练和上下文长度远超百万个令牌的工作负载而设计。

背后的策略很简单。

AWS 希望为客户提供更便宜的 AI 基础设施选项,并夺取目前流入英伟达口袋的利润。

其中一项重大变化尤为引人注目。AWS宣布下一代Trainium 4将通过NVLink与Nvidia GPU互操作。这种混合方案将高强度任务分配给Nvidia硬件,而将低压力的推理工作负载分配给Trainium,从而构建一种旨在降低总体成本而非完全淘汰Nvidia的混合架构。



开发者依然钟爱英伟达,因为CUDA坚不可摧。

目前看来,切换到 TPU 或 Trainium 似乎很容易。但如果你问真正的工程师,他们会反复给出同样的说法。

CUDA 用起来更简单。

自 2006 年以来,英伟达一直致力于将 CUDA 打造成全球最先进的 GPU 编程生态系统。早在生成式人工智能爆发之前,研究人员、物理学家和深度学习先驱们就已在 CUDA 上开展早期研究。即使在今天,新的机器学习功能通常也会率先登陆英伟达硬件。

企业面临着两难境地。他们的整个代码栈、流水线和自定义内核都针对 CUDA 进行了优化。切换到 TPU 或 Trainium 需要重写和重新调优庞大系统中的代码。理论上的成本节省并不总是能抵消实际风险。

谷歌和AWS都强调他们的芯片兼容PyTorch、TensorFlow和JAX,并经常表示切换框架就像更新一行代码一样简单。这或许适用于小型演示,但生产级人工智能则截然不同。它是由定制内核、通信层和手工调优的优化算法构成的复杂迷宫。

这就是为什么英伟达的堡垒比看起来更难攻破的原因。

英伟达的反击:以绝对速度超越所有人

英伟达清楚地看到了这一威胁。正因如此,它提前采取了行动。在Blackwell架构尚未大规模部署之前,该公司就发布了Rubin架构和下一代Vera Rubin NVL144系统。

Rubin的目标是每个GPU的FP4推理性能达到50 petaflops。NVL144机架的性能超过3.6 exaflops,是上一代GB300 NVL72性能的三倍多。

随后,英伟达推出了 Rubin CPX,这是一款配套的推理芯片,负责处理长上下文信息,而 Rubin GPU 则专注于信息生成。Vera Rubin NVL144 CPX 机架组合的目标是实现 8 exaflops 的 NVFP4 性能、100 TB 的内存和 1.7 PB/s 的带宽。

这就是英伟达的战略。

如果竞争对手赶上,那就加快产品路线图,直到他们追不上为止。

对于投注TPU或Trainium的客户来说,这提出了一个现实的问题:两三年后,经济形势会再次逆转吗?

英伟达能否保住王座?

三种情况似乎最有可能发生。

第一,英伟达虽然保住了霸主地位,但利润率有所下降。随着谷歌、AWS和AMD的规模不断扩大,英伟达70%的利润率不可能永远维持下去。

第二:市场将呈现多极化格局。就像CPU最终分化为英特尔、AMD、ARM和各国芯片公司一样,人工智能加速器市场也可能遵循同样的路径。英伟达仍将保持领先地位,但不再拥有垄断权力。

第三:人工智能泡沫破裂。企业热情降温,GPU支出放缓,英伟达首当其冲。但就目前的普及模式而言,这更像是放缓而非崩溃。

最现实的路径是方案一和方案二的结合。英伟达依然是行业巨头,但谷歌和亚马逊已经悄然入局,蚕食着自己的地盘。

这对其他人意味着什么

所以,对于普通用户和开发者来说,真正的问题是这样的。

十年后,人工智能的使用体验和成本会有多大变化?

人工智能订阅服务会变得更便宜吗?模型能否处理更长的上下文窗口,或者在文本、视频、3D 和游戏等多种应用场景下流畅地进行多任务处理?我们是否会看到一个由专用芯片主导应用程序演进的人工智能生态系统?

人工智能芯片之战不仅仅关乎谁胜谁负,更关乎谁将改写未来十年计算机领域的规则。

英伟达依然稳坐霸主地位。但谷歌和亚马逊已不再是局外人,它们正在庭院内磨砺利刃。

人工智能的未来将取决于这些玩家如何选择战斗方式。

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(0)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

蒋万安:封了小红书,还能称我们是不翻墙的民主吗?
“大卖空”本尊贝瑞再发声 暗示亡OpenAI者必微软
中国女性第一大癌症,不是乳腺癌,竟然是肺癌
在教堂附近射气枪 遭ICE逮捕哈佛访问学者自愿离境
美国普渡大学被指口头施压院系拒收中国等国研究生




24小时讨论排行

美沉默应对日中紧张,金融时报揭内幕:日本深感失望
没有大国崛起,就没有小民尊严吗?
马斯克公开呼吁:废除欧盟
美防长陷战争罪风波:我支持美军对运毒船第二波攻击
泽连斯基:与美国就和平计划的谈判取得进展
美国给欧洲划死线:2027年,接管北约大部分常规防务能力
去中国看看 英诺奖得主感慨:我们的大学像第三世界
俄副总理:俄罗斯已准备好迎接无限数量的印度技术工人
“中国首富之子”大闹国外LV咖啡店 网友们纷纷点赞
特朗普将废“出生公民权”,美最高法院决定合宪审查
县里的公务员老爷连编五个名字都不愿意费力气了
下任美联储主席呼之欲出 特朗普为何对他青睐有加?
美国战略重心大转向,第一枪瞄准这个国家?
以自由换取面包,终将失去自由和面包
美国战争部长称赞南韩"模范盟友":将获得特别优待
法国前总理政客变画家 揭选中国作个人画展首站原因
文学城新闻
切换到网页版

AI芯片大战,愈演愈烈

半导体行业观察 2025-12-06 23:41:04

想象一下,一座灯火通明的巨型数据中心,宛如一座不眠之城。数万块GPU不停运转,风扇轰鸣如瀑布。电流在机架间流淌,仿佛整栋建筑本身就是一个活生生的有机体。几乎在每一块电路板上,你都能看到熟悉的绿色英伟达标志,它为从生成式人工智能到搜索、推荐,再到你现在正在使用的聊天机器人等一切应用提供动力。

但仔细观察一下。在同一数据中心的某个角落,另一种芯片正在悄然崛起。谷歌的TPU Ironwood和亚马逊的Trainium3正蓄势待发,准备挑战英伟达在人工智能芯片领域的统治地位。这场迅速成为十年来最具决定性意义的科技战役的较量,即将上演。

AI芯片大战,愈演愈烈

英伟达的统治地位既有利可图,又实力雄厚,但也日益引发问题。

我们先来看数据。英伟达最近公布的季度营收为570亿美元,其中高达512亿美元来自数据中心GPU。其GAAP毛利率高达73.4%,这一数字甚至超过了大多数软件垄断企业。

简单来说,英伟达每售出一块GPU就能带来巨额利润。这就是为什么投资者称英伟达为人工智能时代的“军火商”。但这种利润也给其他人带来了负面影响。训练前沿模型需要成千上万甚至数万块GPU。再加上HBM显存、海量存储集群、先进的网络以及飙升的电费,成本结构就变得异常高昂。许多人工智能服务即便深受用户喜爱,仍然难以盈利。

所以高管和投资者一直在问同一个问题。

我们还能承受英伟达这样的高价多久?

正是这个问题为谷歌和亚马逊打开了机会之门。多年来,它们一直是英伟达最大的客户,如今,它们已经到达了一个转折点。

如果GPU成本持续攀升,我们还不如自己制造芯片。



谷歌的TPU Ironwood在数据中心悄然展现其强大实力。

谷歌最新推出的第七代TPU,名为Ironwood,是一款专为高吞吐量机器学习任务打造的AI加速器。它提供4614 TFLOPS的FP8运算能力,配备192 GB的HBM3e内存,带宽约为每秒7.3 TB。

真正的亮点在于规模。多达 9216 个这样的芯片可以连接成一个超级处理器,其 FP8 运算性能超过 40 exaflops,共享内存高达 1.7 PB。谷歌将整个系统称为人工智能超级计算机。

谷歌甚至公开将Ironwood与英伟达即将推出的GB300进行比较,声称其在FP8性能方面具有优势。信息很简单。

英伟达并非唯一能够驱动人工智能未来的引擎。

Ironwood 目前已在 Google 内部运行工作负载,并通过部分 Google Cloud AI 实例提供。虽然尚未正式公开发布,但这足以表明长期以来由英伟达主导的时代正在发生转变。



亚马逊的 Trainium3 旨在重塑人工智能基础设施的经济格局。

接下来是亚马逊网络服务(AWS)。AWS推出了由Annapurna Labs设计、采用3纳米工艺制造的第三代人工智能芯片Trainium3。该芯片拥有2.52 FP8 petaflops的运算能力、144 GB的HBM3e显存以及4.9 TB/s的带宽。

AWS 将 144 个这样的芯片集成到全新的 EC2 Trn3 UltraServer 中。单个机架即可达到 362 FP8 petaflops 的运算能力、20.7 TB 的 HBM3e 内存以及每秒 706 TB 的带宽。它专为巨型模型训练和上下文长度远超百万个令牌的工作负载而设计。

背后的策略很简单。

AWS 希望为客户提供更便宜的 AI 基础设施选项,并夺取目前流入英伟达口袋的利润。

其中一项重大变化尤为引人注目。AWS宣布下一代Trainium 4将通过NVLink与Nvidia GPU互操作。这种混合方案将高强度任务分配给Nvidia硬件,而将低压力的推理工作负载分配给Trainium,从而构建一种旨在降低总体成本而非完全淘汰Nvidia的混合架构。



开发者依然钟爱英伟达,因为CUDA坚不可摧。

目前看来,切换到 TPU 或 Trainium 似乎很容易。但如果你问真正的工程师,他们会反复给出同样的说法。

CUDA 用起来更简单。

自 2006 年以来,英伟达一直致力于将 CUDA 打造成全球最先进的 GPU 编程生态系统。早在生成式人工智能爆发之前,研究人员、物理学家和深度学习先驱们就已在 CUDA 上开展早期研究。即使在今天,新的机器学习功能通常也会率先登陆英伟达硬件。

企业面临着两难境地。他们的整个代码栈、流水线和自定义内核都针对 CUDA 进行了优化。切换到 TPU 或 Trainium 需要重写和重新调优庞大系统中的代码。理论上的成本节省并不总是能抵消实际风险。

谷歌和AWS都强调他们的芯片兼容PyTorch、TensorFlow和JAX,并经常表示切换框架就像更新一行代码一样简单。这或许适用于小型演示,但生产级人工智能则截然不同。它是由定制内核、通信层和手工调优的优化算法构成的复杂迷宫。

这就是为什么英伟达的堡垒比看起来更难攻破的原因。

英伟达的反击:以绝对速度超越所有人

英伟达清楚地看到了这一威胁。正因如此,它提前采取了行动。在Blackwell架构尚未大规模部署之前,该公司就发布了Rubin架构和下一代Vera Rubin NVL144系统。

Rubin的目标是每个GPU的FP4推理性能达到50 petaflops。NVL144机架的性能超过3.6 exaflops,是上一代GB300 NVL72性能的三倍多。

随后,英伟达推出了 Rubin CPX,这是一款配套的推理芯片,负责处理长上下文信息,而 Rubin GPU 则专注于信息生成。Vera Rubin NVL144 CPX 机架组合的目标是实现 8 exaflops 的 NVFP4 性能、100 TB 的内存和 1.7 PB/s 的带宽。

这就是英伟达的战略。

如果竞争对手赶上,那就加快产品路线图,直到他们追不上为止。

对于投注TPU或Trainium的客户来说,这提出了一个现实的问题:两三年后,经济形势会再次逆转吗?

英伟达能否保住王座?

三种情况似乎最有可能发生。

第一,英伟达虽然保住了霸主地位,但利润率有所下降。随着谷歌、AWS和AMD的规模不断扩大,英伟达70%的利润率不可能永远维持下去。

第二:市场将呈现多极化格局。就像CPU最终分化为英特尔、AMD、ARM和各国芯片公司一样,人工智能加速器市场也可能遵循同样的路径。英伟达仍将保持领先地位,但不再拥有垄断权力。

第三:人工智能泡沫破裂。企业热情降温,GPU支出放缓,英伟达首当其冲。但就目前的普及模式而言,这更像是放缓而非崩溃。

最现实的路径是方案一和方案二的结合。英伟达依然是行业巨头,但谷歌和亚马逊已经悄然入局,蚕食着自己的地盘。

这对其他人意味着什么

所以,对于普通用户和开发者来说,真正的问题是这样的。

十年后,人工智能的使用体验和成本会有多大变化?

人工智能订阅服务会变得更便宜吗?模型能否处理更长的上下文窗口,或者在文本、视频、3D 和游戏等多种应用场景下流畅地进行多任务处理?我们是否会看到一个由专用芯片主导应用程序演进的人工智能生态系统?

人工智能芯片之战不仅仅关乎谁胜谁负,更关乎谁将改写未来十年计算机领域的规则。

英伟达依然稳坐霸主地位。但谷歌和亚马逊已不再是局外人,它们正在庭院内磨砺利刃。

人工智能的未来将取决于这些玩家如何选择战斗方式。