谷歌如何制造为 Apple AI 和 Gemini 提供支持的定制云芯片

By Mann On 8 月 23, 2024

在谷歌在位于加利福尼亚州山景城的谷歌总部，数百个服务器机架在多个过道中忙碌运行，执行的任务远没有运行全球主导的搜索引擎或为谷歌云的数百万客户执行工作负载那么普遍。

相反，他们在谷歌自己的微芯片（称为张量处理单元（TPU））上运行测试。

谷歌的 TPU 最初是为内部工作负载进行训练的，自 2018 年起已向云客户开放。今年 7 月，苹果透露它使用 TPU 来训练 Apple Intelligence 所依赖的 AI 模型。谷歌也依赖 TPU 来训练和运行其 Gemini 聊天机器人。

“世界有一种基本信念，那就是所有人工智能、大型语言模型都是用英伟达，当然 Nvidia 占据了训练量的最大份额。但谷歌在这里走了自己的路，”Futurum Group 首席执行官 Daniel Newman 表示。自 2015 年推出谷歌定制云芯片以来，他一直在报道这些芯片。

谷歌是第一家生产定制 AI 芯片的云提供商。三年后，亚马逊 Web Services 发布了其首款云端 AI 芯片 Inferentia。微软首款定制AI芯片Maia直到2023年底才发布。

但人工智能芯片领域的领先者并不意味着在生成式人工智能的竞争中占据领先地位。谷歌因产品发布失误而受到批评，而 Gemini 的推出比 OpenAI 的 ChatGPT 晚了一年多。

不过，谷歌云的发展势头强劲，部分原因在于其人工智能产品。谷歌母公司 Alphabet 报告称，最近一个季度，云收入增长了 29%，季度收入首次超过 100 亿美元。

“AI 云时代完全改变了人们对公司的看法，而这种硅片的差异化，也就是 TPU 本身，可能是谷歌从第三大云平台跃升至真正与其它云平台平起平坐的最大原因之一，在某些人看来，谷歌在 AI 方面的实力甚至可能领先于其他两大云平台。”纽曼说道。

“一个简单但有力的思想实验”

7 月份，CNBC 首次在镜头前参观了谷歌的芯片实验室，并与定制云芯片负责人阿明·瓦赫达特（Amin Vahdat）进行了交谈。2014 年，当谷歌首次提出制造芯片的想法时，瓦赫达特就已经在谷歌任职。

2024 年 7 月 23 日，谷歌机器学习、系统和云 AI 副总裁 Amin Vahdat 在加利福尼亚州山景城的谷歌总部展示 TPU 版本 4。

马克·甘利

“这一切都始于一个简单但强大的思想实验，”Vahdat 说。“公司的许多领导都提出了一个问题：如果 Google 用户每天只想通过语音与 Google 互动 30 秒，会发生什么？我们需要多少计算能力来支持我们的用户？”

该小组确定谷歌需要将其数据中心的计算机数量增加一倍。因此，他们寻找更好的解决方案。

“我们意识到，我们可以构建定制硬件，不是通用硬件，而是定制硬件（在本例中为张量处理单元），以更高效地支持这一点。事实上，效率比没有这样做高出 100 倍，”Vahdat 说。

谷歌数据中心仍然依赖通用中央处理器 (CPU) 和 Nvidia 的图形处理器 (GPU)。谷歌的 TPU 是一种不同类型的芯片，称为专用集成电路 (ASIC)，专为特定用途而定制。TPU 专注于人工智能。谷歌还制造了另一款专注于视频的 ASIC，称为视频编码单元。

谷歌还为其设备制造定制芯片，类似于苹果的定制硅片战略。Tensor G4 为谷歌新款支持 AI 的 Pixel 9 提供动力，其新款 A1 芯片为 Pixel Buds Pro 2 提供动力。

然而，TPU 才是谷歌的与众不同之处。2015 年推出时，它是同类产品中的首款。根据 Futurum Group 的数据，谷歌 TPU 在定制云 AI 加速器中仍然占据主导地位，占有 58% 的市场份额。

谷歌根据代数术语“张量”创造了这一术语，指的是高级人工智能应用中快速发生的大规模矩阵乘法。

随着 2018 年第二版 TPU 的发布，谷歌将重点从推理扩展到训练，并使其云客户能够与 Nvidia 的 GPU 等市场领先的芯片一起运行工作负载。

“如果你使用 GPU，它们的可编程性更强，灵活性也更高。但它们的供应一直很紧张，”Bernstein Research 负责半导体业务的高级分析师 Stacy Rasgon 表示。

人工智能的热潮推动了英伟达的股价一路飙升，6 月份这家芯片制造商的市值飙升至 3 万亿美元，超越 Alphabet，与苹果和微软争夺全球最有价值上市公司的地位。

“坦率地说，这些专业的人工智能加速器并不像 Nvidia 的平台那样灵活或强大，这也是市场正在等待看到的：有人可以在这个领域发挥作用吗？”纽曼说。

现在我们知道苹果正在使用谷歌的 TPU 来训练其 AI 模型，真正的考验将在明年这些完整的 AI 功能在 iPhone 和 Mac 上推出时到来。

博通和台积电

开发 Nvidia AI 引擎的替代品绝非易事。谷歌的第六代 TPU（名为 Trillium）将于今年晚些时候推出。

2024 年 7 月 23 日，谷歌在加利福尼亚州山景城向 CNBC 展示了其 TPU 的第六个版本 Trillium。Trillium 预计将于 2024 年晚些时候问世。

马克·甘利

“这很昂贵。你需要很大的规模，”拉斯贡说。“所以这不是每个人都能做到的。但这些超大规模企业拥有规模、资金和资源来走这条路。”

这个过程非常复杂，成本也非常高，即使是超大规模计算公司也无法独自完成。自第一款 TPU 以来，谷歌一直与博通，一家芯片开发商，也帮助元设计其 AI 芯片。博通表示，它已花费超过 30 亿美元来实现这些合作。

“AI 芯片非常复杂。上面有很多东西。所以谷歌负责计算，”拉斯贡说。“博通负责所有外围设备。他们负责 I/O 和 SerDes，以及与计算相关的所有不同部件。他们还负责封装。”

然后，最终的设计被送到制造厂或晶圆厂进行制造——主要是由世界上最大的芯片制造商拥有的，台湾半导体制造公司全球92%最先进的半导体均由该公司生产。

当被问及如果中国大陆和台湾之间的地缘政治局势出现最坏的情况，谷歌是否有任何保障措施时，瓦赫达特说：“这当然是我们做好准备并且也会考虑的事情，但我们希望这实际上不会是我们不得不触发的事情。”

防范这些风险是白宫向在美国建设晶圆厂的公司提供 520 亿美元《CHIPS 法案》资金的主要原因——迄今为止，其中最大一部分流向了英特尔、台积电和三星。

处理器和电源

谷歌向 CNBC 展示了其新的 Axion CPU，

马克·甘利

“现在我们能够引入最后一块拼图，即 CPU，”Vahdat 说道。“因此，我们的许多内部服务，无论是 BigQuery、Spanner、YouTube 广告等，都在 Axion 上运行。”

谷歌在 CPU 领域落后了。亚马逊于 2018 年推出了 Graviton 处理器。阿里巴巴 2021年推出了其服务器芯片。微软于11月发布了其CPU。

当被问及谷歌为何不早点制造 CPU 时，Vahdat 表示：“我们的重点一直是如何为客户提供最大的价值，而 TPU、视频编码单元和网络就是从这里开始的。我们真的认为现在是时候了。”

包括谷歌在内的所有这些非芯片制造商的处理器都是通过手臂芯片架构——一种更可定制、更节能的替代方案，正在逐渐取代传统的 x86 模型。英特尔和 AMD。能源效率至关重要，因为到 2027 年，人工智能服务器预计每年消耗的电力将与阿根廷等国家一样多。谷歌最新的环境报告显示，2019 年至 2023 年排放量增长了近 50%，部分原因是数据中心为人工智能提供动力而增长。

“如果没有这些芯片的效率，这些数字可能会大不相同，”Vahdat 表示。“我们仍然致力于全天候减少基础设施的碳排放，将其推向零排放。”

训练和运行 AI 的服务器需要大量水来冷却。这就是为什么谷歌的第三代 TPU 开始使用直接芯片冷却，这种冷却方式耗水量要少得多。这也是 Nvidia 冷却其最新 Blackwell GPU 的方式。

尽管面临地缘政治、电力和水资源等挑战，谷歌仍致力于生成 AI 工具并制造自己的芯片。

“我从未见过这样的情况，而且目前还没有减缓的迹象，”瓦达特说。“硬件将在其中发挥真正重要的作用。”

关键词：半导体器件制造,Video First,技术,阿里巴巴集团控股有限公司,苹果公司,英特尔公司,Arm Holdings PLC,博通公司,Meta Platforms Inc,Alphabet Class A,微软公司,台湾半导体制造有限公司,亚马逊公司,超微半导体公司,突发新闻：技术,NVIDIA Corp,商业新闻