让CPU跑大模型该怎么做?阿里云交气液增压器原理出答卷:AI推理速度飙升7倍
AI 应用落地加速,气液增压器原理对推理的性能提出了更加苛刻的要求。
就在上周,阿里云重磅升级了第八代企业级通用计算实例 ECS g8i,国内首款搭载英特尔第五代至强可扩展处理器 Emerald Rapids 的实例。相比上一代,g8i 整机性能最高提升85%,AI 推理性能最高提升7 倍,可支撑720 亿参数规模的大语言模型,帮助中小规模模型起建成本降低50%。
阿里云 ECS g8i 的发布证明,为 AI 大模型提供算力的不只有 GPU 和 AI 芯片,基于 CPU 的通用算力正在打破过去业界的固有认知。
钉钉联合国际知名咨询机构 IDC 预测,随着 AIGC 技术发展,智能化应用将呈现爆发式井喷,2024 年全球将出现 5 亿个新应用,不同应用对算力的需求将是多样化的,这一背景下,业内开始探索 CPU 算力在 AI 推理的潜力。
在阿里云第八代企业级通用计算实例 ECS g8i 发布之际,智东西与阿里云弹性计算产品线副总经理王志坤、阿里云弹性计算高级产品专家姬少晨进行了深入交流,深度探讨 CPU 算力在 AI 推理方面的独特优势,以及面临大量 AI 创新应用的涌现云计算提供商的新思考。
一、整机性能提升 85%,国内率先商业化
算力无疑是此次生成式 AI 浪潮的焦点,随着大量 AI 创新应用走向落地,企业对于大模型推理的算力需求正在发生变化。
瞄准企业对 AI 推理算力的多元化需求,已经正式对外商业化的阿里云第八代企业级实例 ECS g8i,在计算、存储、网络和安全等能力方面实现全方位提升。
在底层通用能力提升方面,阿里云 ECS g8i 实例基于阿里云自研的「CIPU+ 飞天」计算体系架构,气体泵原理搭载了第五代英特尔至强可扩展处理器,使得单核性能提升 25%,核密度提升 50%。L3 缓存从提升 6 倍达到 320MB,内存速率提升 75% 达到 5600MT/s,并于国内率先商业化上线。
CIPU 作为高效核心引擎,将云上的计算、存储、网络等能力调度以提升计算效率。阿里云 ECS g8i 实例在 ESSD 云盘方面提供了 100 万 IOPS,搭载 NVMe 使得存储延迟低至百微秒。
更强的单核性能、更高的核密度、更大的缓存、更快的内存的综合能力下,阿里云 ECS g8i 整机性能提升达到 85%。
值得一提的是,阿里云还将第五代英特尔至强可扩展处理器的 QAT、AMX 等加速器能力融入到自研的虚拟化技术并实现性能零损耗,用户以最小规格 2vCPU 即可启用加速器能力。
同时,阿里云自研 Alibaba Cloud Linux3 操作系统是业界首家全量优化适配英特尔加速器,真正实现从芯片、虚拟化再到操作系统的整体优化,进一步降低加速器技术门槛,让用户真正享受技术普惠。
二、阿里云与英特尔强强联合," 压榨 "CPU 为 AI 提速
大模型在训练环节需要处理海量数据,因此对算力性能要求较高,GPU 也被公认为更适用于大模型训练。但在 AI 推理阶段,随着 CPU 性能的提升,在部分场景下基于 CPU 的通用计算性价比更高。
姬少晨坦言,大模型推理工作负载主要面临首包时延、吞吐性能上的挑战,如果只是看并行算力、浮点算力、内存带宽、执行效率和网络延时等指标,很容易就草率地认为 CPU 不适合做 AI 计算。
但阿里云 ECS g8i 的出现可以说是生成式 AI 发展突飞猛进之际,云计算提供商给企业提供的新选择。
阿里云 ECS g8i 在 AI 能力的提升,背后是阿里云与英特尔的深度合作。最为关键的是 CPU 的定制化改造。姬少晨说," 我们在英特尔设计芯片的早期就深度沟通交流,最后的结论是直接在第五代英特尔至强 CPU 的每个核心里增加加速器 AMX。"
第五代英特尔至强可扩展处理器提供的 AMX 高级矩阵扩展,增强了 CPU 的并行计算能力, 可以给企业客户提供平台化、统一、弹性能力,带来了革命性的 AI 性能提升。
阿里云 ECS g8i 实例通过 AMX 加速,逐步提升了 CPU 做并行算力的能力,将其中的差距逐步缩小。同时,基于阿里云自研的 CIPU 架构优势,通过云上弹性扩展的天然优势,屏蔽单实例内存带宽劣势 , 依托阿里云自研的 eRDMA 超低延时弹性网络,解决网络通讯的痛点。
基于以上在并行计算、内存带宽、网络延时等方面的优化,阿里云 ECS g8i 不仅可以更迅速地响应中小规模参数模型,还可胜任 720 亿参数级别的大语言模型。
在中小模型方面,阿里云 ECS g8i 实例运行知识检索、问答系统及摘要生成等 AI 工作负载时,起建成本相比传统 GPU 方案下降 50%。此外,配合阿里云平台的 Spot 抢占式实例,成本优势将进一步凸显,进一步降低 AI 推理成本。
对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到 AI 集群,这个时候网络通讯成了主要的性能瓶颈。基于 eRMDA 网络构建的 ECS g8i 实例集群拥有超低延时网络和高弹性优势,可支撑 720 亿参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过 32batchsize 的超大参数规模的 AI 模型负载,运行文生图、AI 生成代码、虚拟助手以及创意辅助工具等 AI 工作负载。
实际测试中,通义千问 70B 参数超大模型中,大在输入小于 500 字情况下,首包延时小于 3 秒,每秒可生成 7 个 Token。
同时在安全方面,基于机密计算,阿里云 ECS g8i 实例保证企业云上数据可用不可见,为企业后续数据上云、业务上云打好了基础。
CPU 算力还有更为关键的一大优势是资源供应。GPU 的缺货潮仍然没有停息,因此短期内其价格不会大幅下降也不会有大量供应,而云上 CPU 的资源供应能力更优。" 未来在 AI 推理场景的算力需求满足上,CPU 与 GPU 算力会互为补充。根据客户在性能表现、售卖模式、供应能力等综合考量下的实际应用诉求,CPU 和 GPU 将互相配合、共同支撑 AI 推理的算力需求。" 姬少晨补充道。
结语:CPU 上跑 AI,缓解推理算力焦虑
大量 AI 创新应用涌现已经成为业界共识,在 AI 时代既需要云上算力更具灵活性,还要有更强的加速能力。与此同时,基于云端的算力交付成为企业使用算力一个越来越重要的场景和途径。
因此,阿里云和英特尔联手探索 CPU 在 AI 推理场景的潜力。王志坤谈道,阿里云和英特尔集中投入大量资源进行研发的关键就是,双方对于客户需求场景的共同的判断和使能,使客户获得算力的方式比传统方式更迅捷、更高性价比、更弹性。
随着 AI 应用趋于盛行,阿里云与英特尔强强联手打造的这一新方案,将为加速 AI 创新应用落地提供新的路径。
发布评论