阿里云联手英特尔「压榨」超音频淬火原理CPU 性能，跑起了 72B 大模型推理

2024-01-20 01:29发布

51阅读

"CPU 能不能搞定大模型？" 阿里云弹性计算产品线副总经理王志坤在 2023 年云栖大会期间被客户问。

"GPU 太紧俏，超音频淬火原理我们买不到 GPU 训练模型。CPU 供应充足，想看看 CPU 能不能做 AI 训练。" 这位客户解释。

AI 训练就像学习解题的方法，要通过大量练习才能掌握，这时候同一时间做的练习题越多，效果也越好，所以 AI 训练需要并行计算能力强大的处理器。可 CPU 擅长的是通用计算，想做 AI 训练难度很大。

但客户对 AI 计算的需求和痛点，给了王志坤启发和明确的信号。

" 在 AI 算力需求指数级增长，GPU 可获得性不高的背景下，我们一定要挖掘各种算力的潜能，最大化弹性计算的价值和云计算的优势。" 王志坤深知，"就算是解决 AI 算力稀缺的问题，成本也一定要可接受。用 CPU 做 AI 训练难度很大，但可以胜任 AI 推理。"

推理就像是拿着学会的解题方法回答问题，对并行计算的要求降低。

早在几年前，阿里云的团队就开始和英特尔探索 CPU 处理 AI 推理任务的可行性和优势。

阿里云弹性计算产品线副总经理王志坤

最新发布的第五代英特尔至强可扩展处理器 AI 推理性能实现的革命性升级，离不开阿里与英特尔的深度合作。

已于 1 月 5 日正式上线的阿里云第八代企业级通用计算实例 g8i，可以胜任 72B 大模型的推理，6B、13B 模型推理起建成本下降高达 50%，通用计算成为了 AI 推理的全新选择。

CPU 的 AI 性能如何实现了革命性升级？阿里云的第八代企业级通用计算实例又有哪些独特之处？

CPU 胜任 72B 大模型推理，起建成本还大幅降低

如果只是看并行算力、浮点算力、内存带宽等指标，很容易就得出 CPU 不适合做 AI 计算的结论。

但国内首发第五代英特尔至强可扩展处理器的阿里云第八代企业级通用计算实例（g8i），破了 CPU 不适合处理 AI 任务的刻板印象。

衡量大模型体验有两个非常重要的指标，首包时延和吞吐性能。

" 据通义千问平台的广泛实践经验，在模型对话场景，首包时延控制在 3 秒内，生成速度大于每秒 5 Token，基本上属于可商用的状态。" 阿里云高级产品专家姬少晨表示。

1 个 Token 对应中文的一个词（2-3 个字），每秒 5 个 Token 相当于 15 个字，基本可以满足普通人的阅读需求。

英特尔数据中心和人工智能集团至强客户解决方案事业部总经理李亚东判断的指标更严苛，200 亿参数模型的推理，Token 之间的时延低于 150 毫秒一般用户可以接受，100 毫秒的速度（每秒 10 个 Token）就可以大规模推广。

英特尔数据中心和人工智能集团李亚东

阿里云第八代企业级通用计算实例（g8i）运行通义千问 7B 模型的结果超越了可以大规模推广的水平，首包时延小于 1 秒，生成速度是 12 Tokens/s。

更让人惊喜的是，起建成本相对于传统 GPU 方案可以降低 50% 或更多。

" 以通义千问 7B 模型的推理为例，在测试环境中我们使用了 24vCPU，也就是硬件的 12 核 CPU。如果使用 GPU 推理，需要一张 A10 GPU，按照目录价格计算，24vCPU 的价格是 A10 GPU 的 50%。" 姬少晨解释，"24vCPU 规格的 g8i 推理 6B、13B 模型都能达到商用水平。"

"13B 的模型需要至少 26G 的显存，一张 A10 显存是 24G，膜片式气缸工作原理所以需要两张 A10 GPU，这种情况 24vCPU 的 ECS g8i 实例依然能够支持。阿里云还有灵活的售卖模式，比如通过 Spot 抢占式实例，起建成本将会进一步降低。" 姬少晨强调，"CPU 的可获得性比 GPU 高很多，所以中小模型的推理，阿里云 ECS g8i 是个很好的选择。"

13B 参数模型推理不是 CPU 做 AI 推理的性能上限。

使用阿里云 ECS g8i 实例 4 个集群 96 vCPU 的能力，部署 72B 参数超大模型，在输入小于 500 字的情况下，首包时延 1 秒（最长不高于 3 秒），生成速度是每秒 7 个 Token，也完全是可用水平。

阿里云 ECS g8i 实例还能推理更大参数的模型吗？

" 我们想告诉业界 72B 的模型能在 CPU 上也能跑起来，不会一味摸高，因为成本也是一个重要考量。" 姬少晨告诉雷峰网 "2024 年将是 AI 应用创新的爆发的一年，不同的应用对算力有不同的需求，阿里云 ECS g8i 实例是在满足成本要求的同时，让通用计算 CPU 也能成为 AI 推理的新选择。"

那不擅长 AI 任务的 CPU 又是如何支撑起 AI 推理呢？

AI 算力需求暴涨，CPU 推理有独特优势

传统的 CPU 对 AI 推理不友好，但经过革命性升级的 CPU 不仅胜任 AI 推理，还有计算和内存解耦的优势。

在压缩解压缩、加密等性能上，阿里云的客户一直希望能有专用的加速卡，这样就不用买超大算力。

" 为某个客户插加速卡，对于硬件资源要尽量统一池化的云计算并不现实，所以客户的专用加速一直没被满足。" 姬少晨说，" 我们在英特尔设计芯片的早期就深度沟通交流，最后的结论是直接在第五代英特尔至强 CPU 的每个核心里增加加速器 AMX。"

第五代英特尔至强可扩展处理器提供的 AMX，增强了 CPU 的并行计算能力，带来了革命性的 AI 性能提升，与第四代至强相比 AI 推理性能提升 42%，在阿里云 ECS g8i 实例中 AI 推理性能较上一代 g7 实例提升更是高达 7 倍。

拥有更高核心数的第五代英特尔至强可扩展处理器，还升级了更快的内存，更大的三级缓存容量。

全面的升级让第五代英特尔至强可扩展处理器不仅胜任 AI 推理任务，还充分发挥出了 CPU 的优势。

"CPU 的计算核心和内存解耦，是 CPU 做推理的一个优势。"王志坤解释，" 因为 CPU 内存配比可以非常灵活，对于存储密集型的大模型非常友好。"

比如，在第五代英特尔至强 CPU 的阿里云 ECS g8i 实例中，可以做到计算和内存 1:2、1:4、1:8 的配比，24v CPU 1:8 配比可以有将近 200G 的内存，对多并发且时延不敏感型 AI 推理非常友好。

压榨 CPU 的极限 AI 性能，阿里云有两个绝招

阿里云对 CPU 有一系列云原生的诉求，包括更高性能、统一资源池、多租户隔离、更高稳定性，为此阿里云深度定制了第五代英特尔至强可扩展处理器。

阿里云 ECS g8i 实例与英特尔深度合作并参与了第五代英特尔至强可扩展处理器的定制，相比第七代企业级实例核密度提升了 50%，单核性能提升了 25%，L3 缓存也从上一代的整机 48MB 提升到了 320MB，提升接近 6 倍；内存速率从上一代的 3200MT/s 提升到了 5600MT/s，提升了 75%。

更强的单核性能、更高的核密度、更大的缓存、更快的内存，实现了阿里云第八代企业级实例整机相比上一代整机性能 85% 的提升。

" 阿里云和英特尔定制的 CPU 完全基于云原生的需求出发，把云上不需要的能力删减掉，把有效资源全部提拉到主频等一系列能力上。"姬少晨介绍，" 比如，英特尔至强 CPU 中会有很多调度管控的组件，我们有 CIPU 做云上统一调度，深度定制芯片将进行资源置换，实现更好算力。"

CIPU 的价值并不局限于此，CIPU 这个超高性能的引擎，IOPS 最高到 3000 万，网络时延最低做到 8 微秒，能解决 CPU 性能提升之后面临的内存带宽不足和网络时延增加的挑战。

单个实例内存不足的情况下，云计算通过分布式计算，快速横向扩容，提升整体带宽。

" 通过拓展的方式可以解决内存带宽的挑战，但还要面对集群后效率下降的问题。" 姬少晨指出，传统 VPC 集群，从 1 节点到 4 节点，性能提升了 2 倍。基于阿里云的 eRDMA 的集群，从 1 节点到 4 节点性能提升 3.36 倍，集群效率接近 90%。

阿里云弹性计算高级产品专家姬少晨

极限情况下的实测数据显示，阿里云 ECS g8i 实例的专有算力加速，在推理的场景性能最高提升 7 倍，内存数据库 RocksDB 速度提升 2 倍，压缩解压缩的性能提升了 70 倍，加解密的速度最高提升了 6 倍。

这些加速在阿里云 ECS g8i 实例上完全免费，这是阿里云一直坚持的技术普惠。

" 云原生还强调硬件的可分割、可细颗粒度化。" 姬少晨说，" 我们提供各种灵活的产品组合，匹配客户的应用。最小2vCPU 实例也能体验到阿里云 ECS g8i 实例加速能力。不需要买整台服务器，大幅降低了学习新技术的成本和门槛。"

稳定性也是阿里云企业级实例的优势。阿里云 ECS g8i 实例全部基于英特尔的铂金系列商业化芯片定制，确保 CPU 本身就具备最强的稳定性。

阿里云在稳定性方面的工作不止于此，在英特尔第五代至强发布前的 3 个月到半年，阿里云就会联合英特尔在阿里云的系统中进行稳定性测试，确保产品发布即具备高稳定性。

无论是从性能、成本、稳定性还是降低门槛和可获得性的角度，阿里云 ECS g8i 实例都为需要中小模型推理的用户提供了更多的一个选择。

扫除安全疑虑，弹性计算普惠 AI

数据、算法和算力是智能时代的三驾马车，作为客户核心资产的数据和算法（模型），如何保证其在云上的安全始终是大家关注的问题。阿里云在计算的原生安全领域持续重兵投入，比如阿里云联合英特尔在阿里云第七代企业云实例全球首发了 SGX2.0，通过机密计算技术，能够实现数据的可用不可见。

"SGX2.0 已经有大量客户，但都是有很强开发能力的高科技公司。" 姬少晨解释，" 因为SGX 有技术门槛，需要客户拆解出需要加密的核心部分，这影响了机密计算的全面铺开。"

几年前，阿里云就持续和英特尔沟通，希望有一个更易用的安全技术，TDX（Intel Trusted Domain Extension）就此诞生。

如果把 SGX 比做一个保险箱，TDX 就像是一个容量更大的保险库，把虚拟机做成安全隔离的环境，不需任何改造，就可以享受到机密计算带来的安全，能防御外部的攻击，宿主也无法窥探到用户的数据，做到数据的隐私安全。

阿里云打造的是端到端的数据安全，从阿里云底层的 CIPU 标配 TPM 硬件和芯片开始，到上层虚拟化启动，再到虚拟机启动，全流程都有可信校验，确保云上计算环境处于可信状态。

实现高安全性通常会有技术和性能的双重成本。" 我们与英特尔深度合作，充分发挥 CIPU 系统的能力，最终将性能损耗控制在了 5% 以内。" 姬少晨说，" 不同模型会有所差别，但阿里云 ECS g8i 实例可以做到性能几乎 0 损耗。这表明云上算力服务在保证高安全的基础上依然能够支撑高性能。"

通过和英特尔紧密且深的合作，SGX2.0 和 TDX 降低了机密计算的门槛，阿里云又通过虚拟化技术进一步降低安全门槛。

无论是创意广告的生成，离线视频摘要生成，还是想要低成本验证模型推理结果，阿里云 ECS g8i 实例都是兼具性能、安全性的选择。

阿里云 ECS g8i 实例能够有如此令人惊喜的 AI 推理优势，还是得益于阿里云和英特尔的强强联合，这种 1+1>2 的合作成果也正在加速生成式 AI 双峰形态的到来。