牛经沧海

牛经沧海 名博

远望 CPU、GPU 与 TPU——为什么 Google 重拾市场信心

牛经沧海 (2025-11-26 08:33:54) 评论 (3)
远望 CPU、GPU 与 TPU——为什么 Google 重拾市场信心

牛经沧海

TPU(张量处理单元)与 GPU(图形处理单元)是现代高性能计算领域中两种最重要的加速器。它们虽同为“算力发动机”,但在架构设计、应用场景及效率取向上却截然不同。正是这种差异,构成了今天 AI 时代里的一条关键分水岭。

TPU 与 GPU:本质上的优劣对比

TPU 是 Google 为神经网络推理与训练而专门设计的 ASIC(专用集成电路)。它本质上并非追求“通用”,而是围绕最核心的任务——矩阵乘法与张量运算——进行极致优化。

TPU 采用脉动阵列结构,使数据在计算单元之间像血液在血管中流动一样反复被利用,大幅减少了对外部内存的访问需求。其结果是:在更低功耗下,获取更高吞吐量。这使 TPU 在大规模、批量化的神经网络任务上具备令人惊叹的能效比。当然,这种“专一”也带来了代价——TPU 的通用性较弱,主要服务于 TensorFlow / JAX 等特定生态下的神经网络任务。

相比之下,GPU 则是一种历史更悠久、适应性更广的并行处理器。它最初为图形渲染而生,却意外地在深度学习时代大放异彩。其成千上万的并行线程能够在极短时间内完成海量浮点运算,加之 CUDA 等成熟的生态支持,使其成为科研、工程、AI 训练等领域的“通用重装力量”。但 GPU 的功耗较高,在极大规模且高度规则的矩阵计算中,其能效往往不及 TPU。

矩阵乘法、稠密与稀疏

矩阵乘法的时间复杂度为 O(n^3),这是典型的计算密集型任务,对算力和带宽都有极高要求。在稠密矩阵中,几乎每个元素都要参与运算,而在稀疏矩阵中,大量元素为 0。

稀疏性虽然降低了理论计算量,但同时也带来了不规则访问负载不均的问题。这意味着硬件不仅要“快”,还要“聪明”,能够跳过无效数据,并保持数据流水的顺畅。

GPU 借助 CSR、ELL 等稀疏存储格式,利用其强大的并行和缓存能力来缓解这些问题;而新一代 TPU 则开始在硬件层面支持结构化稀疏与权重剪枝,在“专注稠密运算”的基础上,也逐步具备了处理稀疏问题的能力。

一个医疗体系的不恰当(剔除这些头衔的高下之分)比喻

如果把芯片世界比作医疗体系:

    •    CPU 是家庭医生:知识面广,但样样不专。当问题规模巨大时,就会力不从心。

    •    GPU 是综合医院的普专科医生:能够并行处理大量相似问题,但成本和能耗巨大。

    •    TPU 则是专科医院里的专家:整个机构只为一种“疾病”服务——神经网络的矩阵运算。它的每一处设计都围绕这一目标展开,效率接近极致。

而人工智能,尤其是大规模模型,所患的正是“海量矩阵计算”这种特殊的“疾病”。

当你使用 Google 搜索、翻译,或被 YouTube 精准推荐内容时,你其实正是在接受这家“专科医院”的服务。TPU 这位你从未谋面的专家,正在为你完成亿万次计算。

Google 为什么因此重拾市场信心?

第一,它提前预判了“疫情”的爆发。当其他公司还在不断扩建“综合医院”(堆叠 GPU)时,Google 已经看到“神经网络疾病”将成为主流,并率先布局了专属的“专科医院”。

第二,它实现了诊疗一体化。从 TPU(硬件)到 TensorFlow / Gemini(软件与模型),再到 Google Cloud(平台),构成一个高度闭环的体系。这种纵向整合所带来的效率与护城河,远非单纯购买 GPU 所能达到。

第三,它掌握了算力自主权。当全球因 GPU 短缺而倍感焦虑时,Google 却拥有属于自己的“私有油田”。这使其在 AI 竞赛中的底气与日俱增。

TPU 从 v1 演进至 v5,如今已形成可以调度成千上万芯片协同工作的超级 Pod,成为世界最强算力集群之一,并在蛋白质结构预测、大模型训练、自动驾驶等领域不断刷新人类边界。

最后一层现实

当然,大多数“病人”仍会走进综合医院的门诊部。英伟达的市场地位依旧稳固,短期难以撼动。但与此同时,Google 所构建的“专科医院”网络也正在悄然扩张,形成另一种无法忽视的未来力量。

通用与专用的博弈,正是当下世界技术演进的缩影。而 TPU,正是这场变革中最安静、却也最坚决的奠基者。