从“通用铠甲”到“领域利刃”，从大模型应用看数据中心的变革发展

2025-03-21 10:43发布

6阅读

服务器芯片数据中心服务器产品

随着大模型时代的到来，自吸扣背景的原理对数据中心算力提出了更高的要求，如何有效提高数据中心的算力成为大家关注的热点。“CPU+GPU+DPU+TPU”的异构计算模式不仅能够带来更高的算力，而且还能够有效地减少数据中心的能耗问题。

2025年春节前，DeepSeek着实火了一把。时至今日，这股热潮仍在持续。虽然DeepSeek通过技术上的创新降低了对算力的需求，但是由于越来越多的企业、开发者和个人使用大模型，利用大模型进行业务创新，同样催生了数据中心算力需求的不断增长。

由于大模型的参数量已突破万亿级别（如GPT-5），传统CPU架构难以满足其训练与推理需求。2025年，数据中心将全面转向“CPU+GPU+DPU+TPU”的异构计算模式。笔者认为，除了高算力驱动数据中心向异构计算转型之外，日益凸显的能耗问题也驱使数据中心运营管理者寻找更加高效节能的算力解决方案，这也是各种AI专用加速卡快速发展的原因之一。

AI加速卡在数据中心中扮演的重要角色

随着AI和各种大模型应用的快速发展，数据中心的负载不断增加，传统以CPU和GPU为主的算力部署方案已经无法满足日益增长的算力需求。GPU、DPU、TPU等各种类型的加速卡应势而生。这些专门设计的硬件设备旨在提升数据处理速度和效率，并降低数据中心的整体能耗。

1）降低CPU工作负载：在传统的数据中心架构中，CPU承担了绝大部分的数据处理任务，导致系统负载过高。而AI加速卡可以将部分计算任务转移到专用硬件上，从而实现CPU工作负载的降低。这样，CPU可以将更多的资源用于其他任务，提高整体系统的处理能力，并有效降低数据中心的能耗。

2）提升数据处理速度：在实时计算和分析的应用场景中，通过专用高性能处理器和大容量缓存，AI加速卡能够更加快速地处理大量数据请求，减少数据传输的延迟，尤其是在金融交易、在线游戏和大数据分析等场景中，AI加速卡能够显著降低响应时间，提高用户体验。

3）优化网络带宽：网络带宽是数据中心运行的一个重要指标。专用的网络加速卡通过硬件加速技术，能够在数据传输过程中优化网络带宽的使用，提高数据传输效率。它可以智能地分配网络资源，避免网络拥堵现象，从而确保数据传输的顺畅。

4）提高安全性：数据安全是数据中心运营中的重要课题。很多加速卡在设计时通常考虑了安全性问题，并内置了安全功能，如数据加密和身份验证等。这些功能可以有效防止数据在传输过程中的泄露和篡改，提高数据中心整体的安全性。

二、从GPU到ASIC的算力竞技之战

数据中心加速卡市场存在着多种不同的技术，包括GPU（图形处理单元）、FPGA（现场可编程门阵列）、ASIC（专用集成电路）等。作为算力基础设施的核心组件，加速卡市场已成为芯片巨头、云计算厂商和初创企业的必争之地。从英伟达的GPU到谷歌的TPU，从AMD的Instinct系列到中国厂商的自主化方案，这一领域的竞争已从单纯硬件性能的比拼，演变为技术路线、生态构建与行业标准的多维度博弈。

一） GPU阵营：通用性与生态壁垒

GPU是一种高度并行的处理器，能够同时处理多个任务。它擅长处理浮点运算和矩阵运算，因此在深度学习等需要大量计算资源的领域具有广泛应用。GPU加速卡广泛应用于深度学习模型的训练和推理阶段。在训练阶段，GPU能够提供强大的计算能力，加速模型的训练过程；在推理阶段，GPU同样能够提供快速的响应时间，满足实时应用的需求。

NVIDIA：凭借Hopper架构的H100和Ampere架构的A100，英伟达占据全球数据中心加速卡市场80%以上份额。其核心优势在于拥有400万开发者的CUDA生态、数千个优化库以及Tensor Core对混合精度计算的支持。最新发布的H200在HBM3e显存容量（141GB）和带宽（4.8TB/s）上的突破，进一步巩固其在LLM训练领域的统治地位。

AMD：AMD最新的MI300X采用Chiplet设计，集成1460亿晶体管和192GB HBM3，凭借开放ROCm生态和性价比策略争夺市场份额。但其软件生态成熟度仍落后CUDA约2-3年，无线探针原理需要依赖与PyTorch等框架的深度绑定实现差异化突围。

二） FPGA阵营：灵活性与定制化

FPGA是一种可编程的硬件，用户可以根据自己的需求对其进行配置。它具有高度的灵活性和可重构性，能够根据不同的应用场景进行优化。FPGA加速卡适用于一些特定算法的加速，如图像处理、信号处理等。在这些领域中，FPGA可以通过定制化的硬件设计，实现更高的计算效率和更低的功耗。

Altera：Altera最新推出的Agilex 7 FPGA支持DDR5和CXL协议，在实时数据处理、网络加速等场景保持优势。但高昂的开发成本和较长的部署周期限制了其在AI训练中的普及。

AMD：AMD Alveo U55C基于Versal架构，配备32GB HBM2e和100GbE网络接口，主要应用于分布式AI推理集群，相比GPU方案能效比提升2倍。除此之外，AMD还发布了Alveo SN1000 SmartNIC，它集成FPGA与16核Arm处理器，支持OVS（开放虚拟交换机）硬件卸载，可将云服务器的网络处理功耗降低60%。

三） ASIC阵营：专用化与能效比

ASIC是一种专用集成电路，针对特定的应用场景进行优化设计。它具有高度的集成度和低功耗的特点，能够在特定的应用场景中实现最佳的性能，提供比GPU和FPGA更高的计算效率和更低的功耗。

谷歌TPU v5：谷歌TPU（Tensor Processing Unit）v5是谷歌推出的第五代张量处理单元，专为加速人工智能（AI）模型的训练和推理而设计。TPU v5系列包括v5e和v5p两个版本，分别针对不同的性能和成本需求。TPU v5p提供超过2倍于TPU v4的浮点运算能力（FLOPS），并配备3倍于前代的高带宽内存（HBM），显著提升AI模型的训练速度。每个TPU v5p Pod由8960个芯片组成，采用3D Torus拓扑结构，芯片间互联带宽高达4800 Gbps，确保高效的数据传输。

亚马逊云科技 Inferentia/Trainium：亚马逊云科技 Inferentia加速卡是专门设计用于优化深度学习模型的推理性能，包含多个NeuronCore单元，专为低延迟、高吞吐量推理任务设计。通过亚马逊云科技的EC2实例（如Inf1实例）进行部署，支持数以万计的推理请求，满足企业级的推理需求。亚马逊云科技 Trainium加速卡专为大规模深度学习训练任务设计，同样使用了Neuron技术，每个Trainium加速器具有32GB容量和820GB/s带宽的HBM内存，FP16算力达到190TFLOPS，FP32算力达到47.5TFLOPS。

四）国产加速芯片：自主创新与场景突破

在全球算力竞赛与供应链安全双重驱动下，中国数据中心加速芯片厂商通过架构创新与生态协同，正逐步构建起差异化竞争力。国产芯片凭借自主可控、场景定制和绿色算力等优势，在AI训练、推理及特定领域加速场景实现突破。

华为昇腾：昇腾910B（训练）和昇腾310（推理）构成全栈方案。其中，昇腾910B采用达芬奇架构，算力达320TOPS（INT8），支持MindSpore框架。昇腾310基于达芬奇架构的3D Cube矩阵计算引擎，针对卷积、矩阵运算优化，支持INT8/INT16/FP16混合精度计算，在保持精度的同时提升吞吐量，INT8算力达到了16 TOPS，功耗仅为8W。

摩尔线程：MTT S3000基于摩尔线程MUSA架构，包含了4096个MUSA流处理核心及128个专用张量计算核心，晶体管规模达到220亿，兼容了PyTorch、TensorFlow、百度飞桨（PaddlePaddle）、计图（Jittor）等多种主流深度学习框架，并实现了对Transformer、CNN、RNN等数十类AI模型的加速。

寒武纪：寒武纪面向数据中心的加速芯片主要有MLU370系列、MLU290系列和MLU-X1000系列组成。其中，MLU370是寒武纪推出的第三代云端AI芯片，具有高性能、高能效比的特点。它采用了7nm先进工艺和全新MLUarch03架构，算力最高可达256TOPS（INT8）。MLU290系列芯片主要适用于需要高性能AI计算的数据中心场景，能够支持各种AI应用的训练和推理任务。MLU-X1000系列主要面向大规模数据中心和云计算场景，能够支持复杂的人工智能处理任务和高吞吐量的数据计算。

壁仞科技：BR100系列芯片是壁仞科技发布的通用GPU芯片，采用Chiplet（芯粒）技术，新一代主机接口PCIe 5.0，并支持CXL互连协议。BR100系列芯片的16位浮点算力达到1000T以上，8位定点算力达到2000T以上，单芯片峰值算力达到PFlops（1PFlops等于1000万亿次浮点指令/秒）级别，目前已经在大数据分析、自动驾驶、医疗健康、生命科学等得到应用。

尽管在通用计算生态仍存差距，但在视频处理、隐私计算等垂直领域已形成代际优势。随着RISC-V、Chiplet等开放架构的成熟，国产加速芯片将迎来高速发展期。

三、数据中心加速卡未来的发展趋势

随着技术的不断进步和市场的规范化，数据中心加速卡未来将向技术融合、定制化、软硬协同，智能化等方向发展。

首先，通过技术融合加速卡可以实现更高的计算效率和更低的功耗，满足不同应用场景的需求。其次，随着定制化需求的增加，数据中心加速卡市场可能会呈现出更加多元化的竞争格局。厂商根据用户需求提供定制化的加速卡解决方案，以满足不同应用场景的需求。再次，随着人工智能技术的普及，未来的数据中心加速卡可能会集成更多的智能算法，实现更高效的资源管理和数据处理。

除了加速卡硬件本身之外，未来数据中心加速卡的发展还将更加注重软件与硬件的协同优化。通过优化软件算法和硬件架构，实现更高的计算效率和更低的功耗。

当然，数据中心加速卡市场未来也将更加注重生态系统的建设。通过资源共享与技术交流，加速新技术的研发和应用，形成良好的生态系统，推动整个产业的健康发展。

写在最后：

随着大模型时代的到来，对数据中心算力提出了更高的要求，如何有效提高数据中心的算力成为大家关注的热点。“CPU+GPU+DPU+TPU”的异构计算模式不仅能够带来更高的算力，而且还能够有效地减少数据中心的能耗问题。不难看出，随着异构计算时代的开启，加速卡将不断优化性能，提升能效比，并集成更多智能功能，以此来进一步提高数据中心的效率、可靠性和安全性。

责任编辑：张诚来源： 51CTO

分享到微信

微信扫码分享

分享到微博

相关推荐

从1到N 数据中心变革向纵深发展

随着高速带宽、移动互联网的快速发展，以及各类智能终端的普及，海量的数据无时不刻不在被传输，作为海量数据的存储和交换中心，数据中心正在发挥着数据“核心枢纽”的作用。

2017-11-01 17:27:18

数据中心

从微信瘫痪看数据中心变革趋势

近日，腾讯微信出现大面积故障，国内多个省份的用户无法登录微信，即使登录上去也无法与服务器取得连接。微信团队在第一时间表示故障原因是“服务器基础网络故障”。

2013-07-26 16:10:13

微信

领域大模型的挑战与机遇：从构建到应用

本文将介绍复旦大学知识工场实验室关于领域大模型的研究工作。大模型是目前唯一能利用人类常识进行开放推理的技术。传统常识知识图谱在灵活应用常识于开放推理场景上受限，而大模型则能克服这一限制。

2024-06-18 08:21:31

从基建看亚洲数据中心市场的发展前景

亚洲的企业有一个很奇特的现象，相对于他们的美国同行，他们更加倾向于租赁一个数据中心而并非建设属于他们自己的数据中心。他们并没有拥有一个数据中心的需求，对他们来说能够让数据中心更快的进入运行而不需要等待更多的时间显得更为划算。

2015-10-13 10:24:47

数据中心数据中心建设

从虚拟化到云计算企业数据中心变革之路

window.location.href'http:';

2011-11-30 16:57:45

VMWARE

从虚拟化到云端数据中心

一夜之间，IT业仿佛实现了飞跃性的跨越：从虚拟化到达了云计算的境界，在这场演进中，我们一直看到的是IBM这个蓝色巨人的影子，从业界第一台应用虚拟化的大型机，到目前IBM拥有虚拟化领域最完整和最领先的解决方案，从硬件虚拟化到虚拟化软件和管理，再到新一代数据中心，甚至基于虚拟化的云计算基础架构，IBM在帮助企业整合资源，管理工作负载，自动化流...

2010-10-22 13:43:04

大模型应用系列：从MLOps到LLMOps

在IT领域中，DevOps是软件工程效能的重要方法论以及工具集，在人工智能领域同样如此。

2024-12-23 00:27:40

大模型应用系列：从Ranking到Reranking

Reranking是大模型应用中RAG系统的一个非常关键的步骤，其核点是提高最初检索到的文件的相关性和质量。在最初的检索过程之后，对这些文档进行重新排序和重新组织，目标是确定最相关信息的优先次序，确保在作出回应或决策时使用尽可能好的数据。

2024-11-11 17:16:44

从SDN以及Docker看网络模型发生的变革

本文以Docker容器集群的网络模型为出发点，大致介绍了SocketPlane如何将SDN与Docker结合起来，在跨主机的容器之间建立虚拟局域网，同时作者还展望了未来基于容器的网络模型的发展趋势，文中介绍的一些相关的理念可能会给读者一些启发。

2015-02-10 10:54:45

数据中心的演变：从通用计算到加速计算

数据中心正在转变为人工智能生产的现代工厂。因此，传统的通用计算正在为加速计算让路也就不足为奇了。

2024-06-18 11:32:19

从人工到自动化到AIOps再到ChatOps：大模型在运维领域的应用

从人工运维到自动化运维，再到AIOps和ChatOps，运维工作的智能化和自动化水平不断提升。借助大模型，运维同学能够更加高效地完成工作，保障系统的稳定性。

2025-01-26 15:35:01

从数据中心过渡到边缘数据中心

今天，公司正在转移到更靠近应用程序或生成点（即边缘）的数据中心。这带来了一个边缘数据中心的时代。

2021-01-07 10:15:24

看BAT是如何实现数据中心变革的？

随着国内互联网和移动互联网行业的蓬勃发展，数据量呈爆炸性增长态势，以BAT（百度、阿里、腾讯）为代表的互联网企业的数据中心在加速扩张的同时，也以创新的思维、快速的部署与绿色高效的运维需求挑战着传统建设理念。

2015-07-27 09:32:36

BAT数据中心

数据中心业界的新兴趋势：从DevOps到DataOps

如果我们要列出当前影响企业数据中心的相关主要趋势，大多数技术人员和技术投资人可能会就一系列的核心趋势方面达成一致。该核心趋势清单将包括诸如云计算、容器和虚拟化、微服务、机器学习和数据科学、闪存、边缘计算、NVMe和GPU等技术。这些技术对于推动当前企业组织机构的数字化转型都非常的重要。

2018-05-31 15:27:59

数据中心电源从宏观到微观的考虑因素

电源是当今数据中心设施的命脉。因此，企业采用多种方法来部署其数据中心策略，以确保为数据中心设施提供有效的电力，使其客户获得最大的价值。

2017-12-07 09:07:15

如何从数据中心过渡到边缘数据中心

如今越来越多的组织正在转移到更靠近应用程序或生成点(即边缘)的数据中心。这带来了边缘数据中心的时代。

2021-01-15 10:28:19

数据中心边缘数据中心

数据中心交换机从傻瓜到AI

这些年，随着数据中心的应用越来越复杂，交换机的功能特点也在不断更新变化，除了端口密度、带宽这些硬件指标的提升，最为关键的就是更加智能化，交换机不仅仅是数据转发，也有了学习的能力，这是一个质的变化。

2018-05-03 09:53:06

从赌城到芝加哥数据中心闲逛之旅启动

大型数据中心已成为为全球数字化经济服务的一种骨干技术，互联网的发展，急剧增加了网络容量和数据存储量，只有创建新的数据中心才能适应互联网的无限扩张。2010年最热门的数据中心都有哪些？本文就本年度最让人津津乐道的数据中心新闻进行盘点，一起享受世界级数据中心之旅。

2010-12-23 09:09:26

IT号外之数据中心应用指南：时刻从应用出发

数据中心是一个动态的资源池，它的“容量”随时都可能应用户的业务发展变化而变化，这就需要IT运维人员提前预计数据中心升级的规模以及能耗范围，以及如何最快收回投资回报。对此，我们建议用户要确定一个清晰的PUE(电源使用效率，PowerUsageEffectiveness)目标，用来指导数据中心的长期建设和升级工作。