携英特尔至强CPU Max系列，宝德服务器为磨蚀原理大模型推理提供澎湃算力

2024-01-22 03:32发布

72阅读

AI大模型空前火爆,应用服务加速,正在走进人们的工作和生活。其中,大语言模型(LLM)以其在图像、语音、自然语言处理等方面表现出的卓越能力,使其成为最重要的AI技术之一。作为中国AI服务器市场的TOP3和中国领先的计算产品方案提供商,宝德坚持技术创新,基于英特尔AI软硬件技术基础等打造多样性的AI算力和解决方案,为AI产业快速发展和AI大模型落地应用做出积极的贡献。

英特尔®至强®CPU Max系列,大语言模型工作负载的实力担当

一直以来,英特尔以广泛的AI硬件和软件组合助力大语言模型的普及,推动AI发展惠及各行各业。其中,第四代英特尔®至强®可扩展处理器以其原生AI加速能力和全面提升的整体性能,充分满足大模型工作负载以及复杂AI计算场景的需求。

第四代英特尔®至强®可扩展处理器具有英特尔高级矩阵扩展(AMX)的AI加速功能,有全新的指令集与电路设计,可帮助诸如图像识别、对象探测等任务中的张量处理获得多倍效率提升,并可用于INT8、BF16等不同数据格式以加速深度学习训练和推理工作负载等多种类型的AI模型,性能高达上一代10倍。

英特尔®至强®CPU Max系列

在此基础上,英特尔®至强®CPU Max系列更是大模型的算力担当,它每颗CPU提供64GB的高带宽内存(HBM2E),两颗共128GB,有效解决大语言模型工作负载经常受到内存带宽限制的窘境。数据显示,其针对建模、人工智能、深度学习、高性能计算 (HPC)和数据分析等实际工作负载的性能提升了 4.8倍。

基于英特尔®至强®CPU Max系列的宝德服务器,为大模型推理应用提供澎湃算力

宝德自研双路服务器PR2715E

宝德自研双路服务器PR2715E,支持两颗英特尔®至强®CPU Max系列,以比较基础的32核心+64GB HBM缓存的Max 9462为例,该产品就可轻松支持60B参数下8路推理需求。它采用CPU+GPU异构计算设计,有8个标准PCIe5.0插槽,可以支持8张单宽或3张双宽包括英特尔®GPU Flex系列的GPU计算卡,强大的AI算力和安全技术,能够为大模型AI推理工作负载加速和护航。另外,该机型有32个DDR5内存插槽,最大可支持8TB,支持400Gb/s高速网络,优化低延迟应用体验;它最大支持12个2.5”( 3.5”)和4个后置2.5” SATA/SAS/NVMe热插拔硬盘,或24个2.5”SATA/SAS/NVMe和2个后置2.5”SATA/SAS热插拔硬盘,支持内置1个M.2(NVMe/SATA),保障了整机性能的强劲可靠。此外,PR2715E支持液冷散热方案,通过选用冷板液冷方案,可以有效减少AI大模型算力集群和数据中心的整体碳排放和显著降低客户TCO(总体拥有成本)。

宝德四子星服务器PR2745TE

尤其值得一提的是,宝德四子星服务器PR2745TE,在2U机架中提供多达 4个双路节点和高容量存储,使得它1台服务器就可以支持多达八颗英特尔®至强®CPU Max系列,从而完美支持60B参数下32路推理需求。而且,它在2U规格内提供超常的吞吐量、存储、网络、I / O、内存和处理能力,形成一个灵活的平台,为要求苛刻的AI、高性能和横向扩展等工作负载提供强劲动力。PR2745TE为简化部署和维护而设计,并以最高质量组装,以确保最大容量的连续操作。客户可以通过它提供的解决方案满足最具挑战性的IT需求,并受益于特殊的总拥有成本(TCO)。作为业界双子星/多子星服务器的首创,宝德四子星服务器久经市场考验,已经帮助AI用户、数据中心、高性能计算和云计算环境的客户获得了来自数据中心资源的强大竞争优势,也将是大模型推理应用坚实的算力基础之一。