传奇芯片大师 Jim Keller:已经准备开发更接近人类的 AI
2024-07-16 20:32
“关于未来的模型计划,Keller 已经开始招聘数学家和 AI 模型专家,致力于开发更接近人类、但又不同于人类的 AI。他认为,更接近人类的 AI 应该能够从比当前模型小得多的数据中学习,同时需要更少的数据传输速率,这将需要更多的计算资源支持。”
Jim Keller 是一位传奇 CPU 设计师,以其出色的技术才能和对计算机架构的深刻理解而闻名,半导体行业有着广泛的经验和卓越的成就.在硅仙人最近的访谈中,他提到:“AI 应该最终是一个平台,人们可以在上面进行不同的操作”
在过去几个月中,由芯片传奇工程大师 Jim Keller 领导的 Tenstorrent 公司,已经开始出货第一代 PCIe 卡,这些卡片配备了 Grayskull 芯片(与 Wormhole 相同代的 AI 引擎,但 Wormhole 还增加了芯片内以太网连接)“必须构建大量的基础设施和从而形成肌肉记忆”,Keller 说道。“因此,让我们开始解答各种问题,并修复错误。”Tenstorrent 公司还启动了其第二代硅片 Blackhole,结合了更新的 Tensix AI 引擎和 16 个能够运行 Linux 的 RISC-V CPU。这样,Blackhole 更像是一台独立的计算机,而不是上一代的 AI 加速器芯片。尽管在在各种过程中发生了一系列小问题——板卡上用错了电源供应、软件中对芯片内 ROM 进行编程的错误,导致了一些让人很紧张的时刻——但是最终,“所有问题都运行良好”,Keller 说。团队最终能够与供应商找出问题所在,硅仙人承认,这是一次非常惊险的过程。他说:“我们在启动时并不确定是否能正常工作,其实失败的可能性本来是很低的,因为我们在这个特定部分的修改不多,逻辑等价检查也通过了。但这仍然有些好笑。”(阿法兔注:逻辑等价检查"是指在芯片设计中的一个步骤,用于验证设计的不同版本或阶段在逻辑上是否等效,即它们在逻辑功能上是否完全一致。这种检查通常用于确保设计在经过不同阶段的修改或优化后,仍然能够按照预期的方式运行,而不会引入逻辑上的错误或功能缺陷。)
对于比新款 Quiet Box 工作站更大的模型,Tenstorrent 推出了 Galaxy 4U 机架系统。这些系统搭载 32 个 Wormhole 芯片,多个 Galaxy 可以联合使用,处理极大规模的模型。Keller 表示,Tenstorrent 计划在 8 月正式推出时销售 50 至 100 台这样的系统,同时公司预计 12 月推出的下一代 Galaxy 将销量更好。此外,Tenstorrent 还在开发适用于大型模型推理的扩展系统。Keller 称,一个 64 个 Wormhole 芯片的系统(即两个 Galaxy 盒子)将提供“非常惊人”的性能。为了节省成本,他们利用 Wormhole 卡作为网络接口卡,结合两台服务器和顶部机架交换机,可以组建一个 128 芯片的机架系统。目前,Tenstorrent 的开发云中已经部署了四个这样的系统。Keller 指出,将大型模型分割到多个 Tenstorrent 芯片上“大多数情况下很容易”(Tenstorrent 在去年冬季开源了其 AI 引擎的裸机软件栈)。“过去六个月,我们一直在重写软件,以使整个过程更加简化”,他说。“Llama-7B 可以在单个芯片上运行,但也可以跨 8 个芯片分割。对于 7B 或 70B 模型与大型 Grok 模型(370B 参数)的代码修改量相对较少,所有的代码都是为可扩展性而构建的。”目前,Tenstorrent 平台上有约 100 名开发者正在开发软件,涵盖编译器公司、模型构建公司和测试公司。“一些公司是基于合同进行合作的,而一些公司则主动联系我们,表示他们喜欢我们的产品,并希望在其基础上进行进一步的开发”,Keller 补充道。
Tenstorrent 的 Wormhole 卡片自从推出软件栈以来,随着 AI 框架的演进,公司的工作变得更加轻松,Keller 说。这主要归功于 AI 特定编译器中间表示 MLIR 的改进,使得新一代 AI 框架更加智能识别不同硬件类型。“现在出现了一些非常适合 Tenstorrent 的有趣软件堆栈”,Keller 说道,“Jax 保留了很多关于如何将模型放置在硬件上的布局参数,并将其传递,这对我们来说非常完美,因为我们喜欢将模型和操作符看作可以分布在处理器上的图形。”Keller 还特别强调了 PALLAS,这是 Jax 的扩展,旨在支持定制内核。“Jax 起源于 Google 世界,他们肯定不希望受限于 Nvidia 的 GPU”,他解释道。“TensorFlow 在某种程度上失败了,因为他们保留了大量专有内容,而本应该开放并简化,但未能如此,因此 PyTorch 超越了它。Jax 在开发环境中更加开放,并且他们学到了很多。我们的程序员认为 Jax 非常酷,因此我们目前正在积极使用它。”CPU 软件开发也在积极进行中。Tenstorrent 团队已经在公司的 RISC-V CPU 上成功通过仿真引导了 Linux,并计划在 Blackhole 硅上进一步推进。“RISC-V 是一个全新的领域”,Keller 继续说道,“因为 Linux 已经成功从 Intel 移植到了 AMD 和 Arm,所以在 RISC-V 上的移植工作进展顺利。”Blackhole 的 CPU 虽然不属于服务器级别,但它们足以支持 Blackhole 的 AI 引擎。“保持 GPU 忙碌需要大量的 CPU 计算能力”,他补充道,“我们的软件栈不同,它只需要少量的 CPU 资源来维持 AI 引擎的高效运行。”
在 Tenstorrent 早期商业上的成功中,IP 客户是比较重要的部分。Keller 透露,LG 已成功启动了搭载 Tenstorrent IP 的测试硅片,而 BOS Semiconductor 则正在使用 Tenstorrent CPU IP 设计其汽车硅芯片。公司预计本月将发布新一批 CPU IP。Tenstorrent 在印度设有 50 名员工,其中包括四名 AI 程序员。Keller 指出,公司在印度科技巨头 Ola 收购初创公司 Bodhi Computing 后,继续与其合作。此外,公司还与印度设计服务合作伙伴 MosChip 合作,支持印度政府委托的基于 RISC-V 的超级计算机项目。“预计将会有多台 RISC-V 超级计算机,尽管第一代可能未能进入前十名,但第二代很可能会有所不同”,Keller 表示。他补充道,Tenstorrent 在日本的客户还包括在高性能计算市场上的 AI IP 交易。在硬件路线图方面,Keller 介绍说,Tenstorrent 将在 Blackhole 后推出其芯片组提供。公司已定义并设计了 GDDR7、LPDDR5 和 I/O 芯片组,大多数将于 2024 年底完成设计。此外,Tenstorrent 还从 Blue Cheetah 许可了芯片间 PHY IP。Keller 稍作调整了 Tenstorrent 的硬件路线图,将首两代产品 Grayskull 和 Wormhole 现在称为“第一代”,而 Blackhole 则是第二代。公司的基于芯片组的设计属于第三代。关于未来的模型计划,Keller 已经开始招聘数学家和 AI 模型专家,致力于开发更接近人类、但又不同于人类的 AI。他认为,更接近人类的 AI 应该能够从比当前模型小得多的数据中学习,同时需要更少的数据传输速率,这将需要更多的计算资源支持。他计划利用 AI 生成所有的 AI 引擎和 CPU 的代码,这将最终需要开发出一种全新类型的硬件。他解释说,人类被线性思维所束缚,而 AI 编写的代码可以更加并行。尽管人类演化出线性思维有其进化的优势,例如能够进行规划,但编写代码并不需要这种方式。“人类的线性叙事总是滞后于行动半秒钟”,他解释道,“人类真正的思维不是线性叙事,而是行动的事后理性化。在思考的更深层次上,人类更加并行,但我们将其解决成线性的事物。我们可以开发出不遵循这种方式的计算机,使其处理许多并行任务。”尽管当前的 AI 在计算机上运行,连接着加速器,但未来的 AI 将成为计算机的核心。“多年来,Linux 一直在使用动态编写驱动程序,并且存在大量的自修改代码”,他补充说,“但从科幻的角度来看,这些都相对平凡。即将到来的事物将更加令人兴奋。”Keller 表示,所有这些都是 Tenstorrent 未来路线图中的一部分,但实现这一未来取决于成功利用公司已经开发的硬件和软件的第一阶段。“我想生活在未来,但我不能”,他笑着说道,“我们必须处理生产、上电和调试...事情一直非常繁忙。”Keller 已经投资数百万美元进入 Tenstorrent,并指出,由于邀请了许多朋友加入公司,个人和专业角度都承担了很大的风险。“我开始感到情感激动。但要构建未来需要大量的工作,人们都非常在乎...我也在乎,”硅仙人坦言道。阿法兔画外音:希望明年去硅谷可以和硅仙人好好聊聊。1.Tenstorrent To Offer AI Workstation For Developers- EE Times2.Jim Keller (engineer) - Wikipedia
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。