基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告 (2025 年) PDF Free Download

Name: 基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告 (2025 年) PDF
Author: Gilbert Jones

1 / 29

1 views•29 pages

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告 (2025 年) PDF Free Download

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告 (2025 年) PDF free Download. Think more deeply and widely.

中国信息通信研究院技术与标准研究所

华为技术有限公司

2025年9月

基于智能 IP 广域网

（AI WAN）的存算分离与

云边协同训推技术研究报告

(2025 年)

本报告版权属于中国信息通信研究院、华为技术有限公

司，并受法律保护。转载、摘编或利用其它方式使用本报告

文字或者观点的，应注明“来源：中国信息通信研究院、华

为技术有限公司”。违反上述声明者，编者将追究其相关法律

责任。

前言

智能时代加速到来，企业模型训练、推理算力需求爆炸式增长。

对于企业来说，采用第三方云上智算资源是降低资本支出的最佳选择，

但在数据入算、模型微调、推理输出等过程中可能面临数据、模型泄

漏的问题。对于企业和行业用户来说，一方面要降低算力成本，同时

又要保障训练、推理过程中的数据安全、用算安全。本报告研究面向

政企模型微调训练、推理等业务场景，围绕企业安全用算需求，基于

智能 IP 广域网（AI WAN）研究并提出了存算分离与云边协同训推技

术方案，满足企业原始数据不出域、安全租用云端算力、降低企业用

算成本的需求。

在存算分离模型微调训练场景下，针对企业敏感数据园区外“不

落盘”需求，采用精准流控、自动流级调度技术实现用户私有存储与

远端算力中心之间的高效无损传输，可保障拉远 100KM、400KM 达

到97%以上高算效，满足拉远训练需求。

在云边协同推理场景下，通过企业侧部署一体机提供少量算力，

利用模型拆分学习技术、精准流控和自动流级调度技术，实现推理性

能95%以上高算效，满足企业推理数据不出域的安全推理诉求。

本报告中同步给出了实验室环境下的测试验证，希望为业界提供

企业安全用算、灵活用算的技术参考。

一、概述 ...................................................................................................................... 1

（一）背景 ............................................................................................................. 1

（二）AI 大模型训练与推理技术应用 ............................................................... 2

二、大模型微调训推场景面临的挑战 ...................................................................... 4

三、基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术方案 ..... 6

（一）方案总体架构 ............................................................................................. 6

（二）模型拆分学习技术 ..................................................................................... 8

（三）精准流控技术 ........................................................................................... 11

（四）自动流级调度技术 ................................................................................... 14

四、关键技术典型场景实验 .................................................................................... 17

（一）存算分离拉远算效 ................................................................................... 17

（二）云边协同推理安全性 ............................................................................... 18

（三）云边协同算力资源配置优化 ................................................................... 19

五、总结展望 ............................................................................................................ 22

图目录

图 1 当前企业大模型微调训推场景算力解决方案示意图 ..................................... 4

图 2 存算分离与云边协同训推技术方案 ................................................................. 6

图 3 模型拆分学习技术工作机制 ............................................................................. 9

图 4 Transformer 模型架构 ....................................................................................... 10

图 5 租户级拥塞导致整体算效下降示意图 ........................................................... 12

图 6 租户级拥塞不会导致拥塞扩散示意图 ........................................................... 12

图 7 精准流控技术工作机制 ................................................................................... 13

图 8 现有流级调度技术 ........................................................................................... 14

图 9 自动流级调度技术工作机制 ........................................................................... 15

图 10 实验室验证组网示意图 ................................................................................. 17

图 11 集中式推理网络抓包示意图 ......................................................................... 19

图 12 云边协同推理网络抓包示意图 ..................................................................... 19

图 13 集中式推理算力利用率 ................................................................................. 20

图 14 云边协同推理算力利用率 ............................................................................. 20

表目录

表1 典型行业 AI 训推技术应用情况表 .................................................................... 3

表2 各类网络训推技术方案安全性对比 ................................................................ 22

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

一、概述

（一）背景

近年来，我国人工智能创新成果持续涌现，技术加速与实体经济

深度融合，从自动驾驶汽车、智能医疗诊断，到人机交互、智能家居、

智能教育等场景，人工智能的广泛应用不仅为人们生活带来诸多便利，

更推动生产模式实现从 “传统机械自动化” 到 “智能自动化” 的

关键转型 —— 其作为新一代信息技术的通用性目的技术，已催生出

数据、算力、算法等新型生产要素，并凭借智能化、自动化优势，在

生产过程中实现对劳动要素的直接替代，为千行百业注入新动能。

与此同时，我国正不断加大力度，推动人工智能技术迈向更高水

平的发展阶段。2024 年政府工作报告中提出实施“人工智能+”行动，

明确强调人工智能技术与实体经济的深度融合，将培育未来产业作为

重要目标。同年，工业和信息化部等四部门联合印发《国家人工智能

产业综合标准化体系建设指南（2024 版）》，通过加强人工智能标准

化工作的系统谋划，加快构建满足产业高质量发展与 “人工智能 +”

高水平赋能需求的标准体系，为技术落地与产业广泛应用筑牢根基。

2025年7月，国务院常务会议进一步审议通过《关于深入实施“人工

智能+”行动的意见》，标志着 “人工智能 +” 进入规模化推进新阶

段。会议明确，要依托我国产业体系完备、市场规模大、应用场景丰

富等优势，推动人工智能技术加速迭代演进，大力推进其规模化商业

化应用，促使人工智能在经济社会发展各领域加快普及、深度融合，

最终形成 “以创新带应用、以应用促创新” 的良性循环。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

（二）AI 大模型训练与推理技术应用

自2025 年初开始，DeepSeek 等通用大模型的开源加速了企业智

能化转型步伐，业内从通用模型训练逐渐走向了行业模型训练。根据

国际数据公司（IDC）在《 2025 年中国人工智能计算力发展评估报告》、

《AI Agent 企业级应用现状与推荐，2025》的分析，预计 2025年42%

的中国企业已经开始进行大模型初步测试和重点概念验证，并且随着

AI 智能体的快速成熟，预计在 2028 年中国企业级 Agent 应用市场

规模将达 270 +亿美元。同时，根据 Gartner 在《2025 年十大战略技

术趋势》报告显示，预计 2030 年AI 渗透率将达到 80%，将有 1200

万家大中小企业使用 AI 推理，真正实现 AI 推理普惠。

AI 大模型训练与推理（以下简称 “训推”）技术加速融入企业生

产环节，帮助企业提升生产率。典型行业 AI 训推技术应用如下表所

示：

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

表1 典型行业 AI 训推技术应用情况表

行业

应用

金融

智能投顾、信贷风控、智能客服、智能获客

政府

公文写作、政务热线、城市治理、应急预警等

能源

智慧综采、无人巡检、规范检测、异物识别

交通

货车质检、智慧路网、出行服务、道路养护

制造

工业质检、自动设计、智能排产、智慧物流

教育

智能教学、智能问答、数字人指导、视频生成

医疗

医疗咨询、病毒筛选、远程医疗、辅助诊断

科研

数据迁移、科学计算、数据分析

来源：中国信息通信研究院

当前企业用户在 AI 训推技术应用中的两种典型应用场景分别为

模型微调训练、推理场景（以下简称 “大模型微调训推”）。模型微调

训练场景是指通过模型微调，让模型理解行业术语、适配业务逻辑，

提升应用精准度。企业需筛选与业务场景高度相关的专属数据集，对

预训练大模型的参数进行二次优化。实现领域化适配，让模型贴合实

际业务。推理场景是指模型微调完成后，将模型应用于实际业务，实

现 “技术—业务” 的价值转化，推动企业实现智能化、高效化转型。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

二、大模型微调训推场景面临的挑战

在企业人工智能数字化转型进程中，面对企业 AI 模型微调训练、

推理等场景产生的算力需求，目前通常有三种算力解决方案：一是企

业通过自建算力中心的方式解决算力需求；二是企业通过租赁第三方

智算中心的算力服务器，运输到企业本地进行使用；三是企业通过网

络访问租赁的第三方智算中心的算力资源。如下图所示：

来源：中国信息通信研究院

图 1 当前企业大模型微调训推场景算力解决方案示意图

综合来看，这些方式都面临着安全和成本两重挑战：

一是训推过程的数据安全难以保障。国家数据局等部门提出 “原

始数据不出域、数据可用不可见、数据可控可计量” 的治理理念，明

确数据需在原始产生域内处理，以规避跨域流动中网络攻击、恶意篡

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

改等安全威胁。这里的数据，既包括企业、机构用于训练的样本数据，

也包括模型微调训练数据和推理输出的 Token 结果。可能会造成数据

泄漏的环节包括数据上传、Token 传输、云服务器攻击等。

二是训推过程的投资成本及算效成本过高。企业自建、自维智算

资源需要大量 CAPAX 及人员投入，一般企业难以承担。通过网络租

用算力资源，在现有的 IP 广域网技术架构下，由于网络丢包及智算

“大象流”难以得到精细化识别与负载均衡，导致第三方智算资源池

计算效率大大下降，同样提高用算成本。

综合上述三种算力解决方案的分析可见，在企业开展大模型训练

与推理的核心业务场景中，算力应用的关键矛盾点已清晰凸显——如

何在保障数据安全、用算安全的前提下，实现用算成本的合理控制与

优化，成为企业选择算力方案时需优先考量的核心诉求。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

三、基于智能 IP 广域网（AI WAN）的存算分离与云边

协同训推技术方案

（一）方案总体架构

政企等行业用户在 AI 算力使用中，面临着严峻的数据安全、

用算安全、降低用算成本等挑战。在此背景下，本报告提出基于智

能IP 广域网的存算分离与云边协同训推技术方案，希望兼顾用算安

全与成本，帮助破解行业痛点问题。

来源：中国信息通信研究院

图 2 存算分离与云边协同训推技术方案

基于智能 IP 广域网的存算分离与云边协同训推技术方案，面向

存算分离模型微调训练与云边协同推理两大场景解决行业痛点问题。

场景一：存算分离模型微调训练。包含“存、网、算、控”四个

部分，基于 SRv6 的智能 IP 广域网构建连接枢纽，采用精准流控、

自动流级调度技术实现用户私有存储与远端算力中心之间的高效无

损传输，使用数据加密技术保障数据传输安全，实现企业敏感数据园

区外“不落盘”、数据样本面跨智能 IP 广域网拉远、边训边传，可有

效降低企业本地部署算力成本，同时可解决企业用户安全租用云端算

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

力需求。

1）“存”和“算”：企业数据基于安全隐私或其他因素无法存储在

智算中心内的存储服务器中，样本数据存放于企业用户本地，用户租

赁运营商智算中心内的算力卡。

2）“网”：采用 RDMA 协议，基于 EVPN over SRv6 隧道 +精准

流控方案承载，云上算力调用。

3）“控”：基于 SDN 控制器，实现业务快速部署、流量业务可

视、秒级故障感知与主动运维。

场景二：云边协同推理。基于 SRv6 的智能 IP 广域网，利用模型

拆分学习技术、精准流控和自动流级调度技术，实现“算、网、端”

三层协同联动，实现企业数据不出域，同时减少企业边侧本地算力部

署规模，进一步降低了企业用算成本。

1）“算”：模型分层部署，数据不出域。模型首尾层部署在企业

侧，中间层部署在云端，中间交互梯度值、激活值等，保障样本/Prompt

数据不出域。

2）“网”：采用 RDMA 无损网络，业务 SLA 有保障。网络对训

推参数面 RDMA 业务流保证高性能传输，训练算效高，推理时延、

吞吐有保障。

3）“端”：端侧算网一体可视，极简部署运维。训推算力+RoCE

网络一体化，一键部署，开通、运维极简。

存算分离与云边协同训推技术方案在存算分离模型微调训练与

云边协同推理两大场景中，分别从资源调度、数据安全管理、算力分

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

配等维度提供针对性技术方案，为突破 AI 应用瓶颈提供了核心支撑。

支撑存算分离与云边协同训推技术方案的核心技术包括模型拆分学

习技术、精准流控技术和自动流级调度技术。通过模型拆分学习技术

实现智能 IP 广域网数据安全与算力平衡；通过精准流控技术实现智

能IP 广域网不同企业用户的用算业务无损传输，保障企业用算的算

效稳定性，降低企业用算成本，同时为存算分离模型微调训练提供技

术保障，解决企业安全租用云端算力需求；通过自动流级调度技术实

现智能 IP 广域网智算业务流与通算业务流的网络调优与负载均衡，

提高企业用算效率，降低企业用算成本。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

（二）模型拆分学习技术

大模型训推算力需求激增，为降低成本，企业常通过租用云侧服

务器缓解算力压力，但此模式会导致用户推理数据出园区，带来显著

的数据安全泄露风险。为解决企业租用隐私安全的风险，提出拆分学

习技术。

1.工作机制

来源：华为技术有限公司

图 3 模型拆分学习技术工作机制

1）企业园区（边侧）：靠近原始数据输入（如计算机视觉领域的

图像，广告推荐领域的等）的前几层以及靠近模型推理结果的后几层

作为客户端模型部署模型首尾层。

2）智算中心（云侧）：模型的剩余部分，通常是更深的、计算量

更大的层作为服务器端模型，部署模型中间层。

在大模型训推过程中数据拥有方仅将原始数据经过模型前几层

训推后的中间结果（即隐变量）发送到算力提供方，并未发送原始数

据，且隐变量是高维的向量，不可直接读取，进一步保护了数据隐私

安全。目前的大模型主要是依赖于 Transformer 架构，完整的模型由

多个 Transformer Block 层所堆叠组成，其中在 Transformer 层中引入

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

了非线性运算变换，仅获取经过非线性运算后的输出结果，将无法恢

复原始输入，因此只传输中间层输出便可更大程度的保护原始数据。

来源：Google

图 4 Transformer 模型架构

2.技术价值

在企业大模型训推业务场景中，敏感行业的核心诉求是 “数据不

泄露+模型不暴露”，基本诉求是“平衡算力+成本”。通过将模型与数

据按安全等级、处理需求拆分部署，从根源上避免了原始数据泄露的

风险。同时，解决算力获取、数据保护与成本控制的矛盾。

1）数据安全：关键数据全程闭环在企业侧，无跨域传输环节，彻

底规避数据拦截、窃取风险，满足等保监管与行业合规要求。

2）模型安全：首尾层与中间层物理隔离，远端中心无完整模型，

训推过程仅传递过程向量数据，无模型文件或核心参数泄露可能，确

保整体模型“0”暴露。

3）算力资源优化配置：通过 “企业侧保留少量算力（仅支撑首

尾层与数据处理）+ 远端租用大算力（支撑中间层计算）” 的模式，

大幅降低企业算力投入。因传输数据量精简、网络传输高效，整体算

效损失控制在 5% 以内，实现 “低成本不降算效”，完美契合企业对

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

成本、场地、用电、运维等轻量化诉求。

这种 “数据 + 模型 + 资源配置” 的三重保障，既解决了敏感

行业对数据安全与模型安全的刚性需求，又降低了企业用算成本，彻

底解决企业用算的根本诉求。相比现有大模型训推技术方案，通过模

型拆分学习技术，实现企业数据全程不出园区，网络中仅传输计算过

程产生的高维向量，远端智算中心处理的也为高维向量，真正实现了

“安全与效率、成本与性能” 的平衡，成为当前敏感行业 AI 应用

的最优路径之一。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

（三）精准流控技术

广域 RDMA 技术虽提供了高吞吐数据传输能力，但在长距传输

场景仍受到丢包、时延、网络带宽稳定性等方面制约，易导致远端存

储与计算节点间的数据交互 “时断时续”，AI 模型训练样本数据拉

取频繁卡顿，推理任务响应延迟波动大，极大影响用算效率。因此，

提出精准流控技术以解决上述难题。

1.工作机制

来源：华为技术有限公司

图 5 租户级拥塞导致整体算效下降示意图

传统的流量控制技术是 IEEE 802.3 定义的以太 Pause 机制：下游

设备通过发 Pause 帧给上游设备实现流量降速。基于优先级的流量控

制技术（PFC）在此基础上进一步增强，基于优先级为不同的业务来

提供不同服务。通过 “接收端主动反馈 + 发送端按需暂停” 的闭

环机制，实现端口级无损传输。然而，该技术存在潜在风险，PFC 对

具有突发性质的流能够很快地做出反应，但是当端口下某租户拥塞，

流量会流控反压，且逐跳扩散，引发全局性灾难，导致租户算效无保

证。

来源：华为技术有限公司

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

图 6 租户级拥塞不会导致拥塞扩散示意图

为解决租户级拥塞扩散问题，精准流控技术被提出。精准流控结

合SRv6 技术，在反压报文中除了携带需要进行流量控制的优先级外，

还携带了用户流量特征信息。相较于 PFC 则可做到更精细化的流量

控制，可实现租户间拥塞不扩散。

来源：华为技术有限公司

图 7 精准流控技术工作机制

在智能 IP 广域网中，精准流控技术与 SRv6 切片功能结合，通过

整网路径部署对应的切片，在满足不同业务对网络带宽、时延、抖动

等差异化 SLA 需求的情况下实现逐级反压。在网络边缘，如果连接

的设备不支持精准流控，可以向上游设备发送 PFC 反压，协同租户

感知拥塞变化，实现端网协同。

2.技术价值

针对在大模型训推场景多租户共享广域算力的需求，依托智能 IP

广域网 SRv6 切片与租户级精准流控技术，可实现多租户共享带宽，

解决多租户带宽共享中的拥塞扩散问题，基于租户级的精确流控技术

可有效保障企业用算业务无损传输，从而保障企业用算的算效稳定性，

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

降低企业用算成本。同时为存算分离模型微调训练提供技术保障，解

决企业安全租用云端算力需求。

（四）自动流级调度技术

来源：华为技术有限公司

图 8 现有流级调度技术

现有的 IP 广域网络通过部署 SRv6 TE Policy 进行流量调度以实

现网络负载均衡，但由于无法实时感知和统计各路径的流量大小，只

能根据预定义权重分配流量，调优效果有限，网络负载不均现象仍然

存在。而 AI 大模型技术中训推数据产生的流量呈现“大象流”特征。

大象流的出现会导致网络负载进一步不均衡加剧，流量拥塞，网络吞

吐率大幅下降，无法支撑多租户并发的训推任务，用户等待时间长，

造成算网资源浪费，显著增加企业用算成本。

为实现流量的精细化自动调度调优，提升整网高吞吐率，保障 AI

大模型训推效率，降低用算成本，基于大象流识别并实时调优的自动

流级调度技术被提出。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

1.工作机制

来源：华为技术有限公司

图 9 自动流级调度技术工作机制

基本工作流程：

1）整网流量路径信息收集。网络控制器纳管整网设备，实时收

集整网拓扑，包括节点信息、链路信息、带宽信息、SRv6 路径信息

等。

2）大象流精准识别。通过优化算法，设备完成高性能流量统计、

精准识别 TOP-N 大象流。

3）路径&流量信息上送。将获取到的整网拓扑信息、SRv6-Policy

集合、网络拥塞度、网络拥塞门限、TOP-N 大象流等信息上送控制器。

4）最优路径计算&策略下发。控制器基于获取到的信息，通过

优化算法进行实时计算，实时获取整网最大带宽利用率。当链路利用

率超过设定阈值，可感知到网络拥塞情况，实时动态调整大象流端到

端路径，确保整网链路负载均匀。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

2.技术价值

自动流级调度技术通过控制器纳管智能 IP 广域网设备，基于优

化算法以网络带宽利用率最大为目标进行路径规划，实现网络运力最

大化，进一步为企业用算提高效率，可有效降低企业用算成本。

1）优化整网带宽资源利用，降低企业成本。以 “网络带宽利用

率最大” 为核心目标，依托控制器对智能 IP 广域网设备的统一纳管，

结合调度算法进行动态路径规划，从根本上解决传统静态调度的缺陷。

通过提升网络带宽利用率，企业无需为缓解拥塞而盲目增加带宽采购

成本。

2）保障智算业务质量，支撑高效训推。通过精准识别大象流与

动态调整路径的机制，实时规避负载过高的拥堵链路，确保业务流始

终运行在最优路径上，减少因网络拥堵导致的业务延迟或效率损耗，

提高企业算力使用效率，也进一步间接降低了企业用算成本。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

四、关键技术典型场景实验

为验证存算分离与云边协同训推技术在智能 IP 广域网关键设备

上的可行性，在实验室针对大模型存算分离、云边协同训推、训推安

全等方面进行了系统性研究与多轮次验证。实验数据有效验证了模型

拆分学习技术的安全性，同时验证了精准流控技术与自动流级调度技

术对智能 IP 广域网络的无损与算效保障，在 LLAMA2-13B、

Qwen2.5vl-32B、CV 类模型 RESNET、DeepSeek 等大模型 100KM 和

400KM 存算拉远场景下，算效劣化低于 3%，Qwen 32B 模型在 200KM

云边协同推理场景下，劣化不超过 5%。

（一）存算分离拉远算效

为验证各 AI 大模型在不同拉远距离、不同带宽、是否使能 RDMA

无损能力、是否使能精准流控及自动流级调度能力不同条件下对于拉

远训练算效的影响，在实验室中，通过控制变量方式进行了系列对比

验证。

来源：中国信息通信研究院

图 10 实验室验证组网示意图

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

本次实验分别选择了具有代表性的稠密模型 LLAMA2-13B、多

模态模型 Qwen2.5vl-32B 大模型、CV 类模型 RESNET 大模型、MoE

类模型 DeepSeek 大模型。在 DC 内服务器节点部署各模型，样本挂

载本地，作为本地训练基线参考。横向对比接入节点-汇聚节点拉远

100KM、汇聚节点-核心节点拉远 400KM 训练数据。同时，在智能 IP

广域网部署基于 L3VPN/L3EVPN over SRv6 Policy 切片的 RDMA 专

线切片，使能精准流控及自动流级调度能力，同时横向对比未使能条

件下的算效差异。在 1G~100G 专线带宽中选择具备代表性的 1Gbps、

10Gbps 、20Gbps、50Gbps、100Gbps 带宽进行测试。

实测验证表明，在使能 RDMA 无损能力条件下，100KM 和

400KM 存算拉远场景，各模型算效劣化低于 3%。基于 1Gbps、10Gbps 、

20Gbps、50Gbps、100Gbps 带宽测试有效吞吐在 90%以上。基于自动

流级调度使得智算业务流和通算业务流整网负载分担均衡，负载分担

误差在 5%以内。基于精准流控技术的 RDMA 无损专线业务，租户带

宽共享，单租户拥塞故障不会导致其他租户业务受损。而未开启

RDMA 无损能力条件下，入口带宽 10G，出口带宽收敛 10G 场景下，

未使能 RDMA 无损能力，100KM 测试算效劣化 70%+。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

（二）云边协同推理安全性

模型拆分学习从理论上证明了数据在智能 IP 广域网上的不可还

原性与安全性，为进一步证明论证该技术在实施部署层面是否和理论

一致。在实验室模拟园区、智能 IP 广域网络、智算中心，设置了集中

式推理和云边协同推理的对比实验，并在园区出口、广域网络内、智

算中心出口进行抓包。试验结果证明，集中式推理企业推理请求及响

应内容全程抓包可获取，网络抓包在显示 prompt、model、key 等关键

信息可见，而协同推理则全以密文方式呈现，抓包内容不可见。

来源：中国信息通信研究院

图 11 集中式推理网络抓包示意图

来源：中国信息通信研究院

图 12 云边协同推理网络抓包示意图

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

（三）云边协同算力资源配置优化

云边协同推理相比集中式推理，通过 “近端少算力+ 远端大算

力” 的模式，大幅降低企业算力投入。同样在实验室进行了模拟对

比，在相同的配置算力、相同的 input/output 参数、并发数 128 条件

下，同时部署 Qwen-32B 大语言模型，广域网拉远 200KM 以上，查

看算力服务器 NPU 资源利用情况，如下图所示：

来源：中国信息通信研究院

图 13 集中式推理算力利用率

来源：中国信息通信研究院

图 14 云边协同推理算力利用率

38 41

74 75 74

0 1 2 3 4 5 6 7

算力利用率%

NPU 芯片

5 5 5 5 5 232

61 60

39 37

0 1 2 3 4 5 6 7

算力利用率%

NPU芯片

边侧（%）云侧（%）

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

集中式推理 NPU 芯片算力利用率平均为 51.25%，云边协同推理

边侧算力利用率平均为 4%，云侧算力利用率在 45.88%。实测显示，

对比集中式推理部署模式，云边协同推理可将服务器算力资源优化配

置，在企业侧（边侧）部署少量算力，在智算中心侧（云侧）部署大

量算力，实现大幅降低企业本地算力成本投入。同时经验证 Qwen 32B

模型在 200KM 云边协同推理场景下，劣化不超过 5%。实现 “低成

本不降算效”，完美契合企业对成本、场地、用电、运维等方面诉求。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

五、总结展望

面对企业安全用算需求，存算分离与云边协同训推技术方案为企

业在人工智能领域的安全用算、灵活用算提供了创新性的解决思路。

通过模型拆分学习、精准流控与自动流级调度等核心技术，有效应对

了数据安全、用算安全及降低用算成本等挑战。尤其针对企业数据安

全和用算安全，相比现有大模型训推技术方案，存算分离模型微调训

练场景实现了数据出园区外“不落盘”、云边协同推理场景实现了企

业完整敏感数据全程不出园区，从根本上杜绝了安全隐患，安全性得

到显著提升，解决企业安全用算的难题，为企业智能化转型奠定坚实

基础。

表2 各类网络训推技术方案安全性对比

技术方案

网络侧数据安全

智算中心数据安全

无加密数据入算训推

数据传输无加密，网络侧存

在劫持、监听风险

计算数据无保护，存在企业

数据泄漏风险

加密数据入算训推

数据传输加密，网络侧风险

低

计算数据无保护，存在企业

数据泄漏风险

存算分离与云边协同

训推

传输模型向量数据，网络侧

无法获取原始数据

智算中心不保存原始数据，

仅进行向量计算，无数据泄

漏风险

当前，存算分离与云边协同训推技术方案已经在实验室环境下得

到了验证。未来，随着 AI 大模型技术在各行业的持续深入应用，将

进一步开展技术验证与优化工作，扩大实验规模与场景覆盖，在更多

复杂真实环境中验证技术方案的可靠性与稳定性，确保其在不同行业、

不同业务场景下均能发挥最佳效能。同时，积极推动行业试点，与更

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

多医疗、金融、政务等行业的企业合作，将技术方案落地实施，在实

践中积累经验，不断完善技术方案细节，形成可复制、可推广的行业

应用案例，加速技术在各行业的规模化应用进程。

后续，我们将大力推进相关技术的标准化工作，联合产业各方力

量，共同制定统一的技术标准与规范，提升技术的通用性与兼容性，

促进产业链上下游的协同发展，打造健康、繁荣的人工智能技术生态，

为我国人工智能产业的高质量发展提供有力支撑，助力各行业在智能

时代实现创新突破与可持续发展。

最后，推进智能 IP 广域网用算安全体系建设与安全等级构建。

基于“企业资产价值”“外部威胁程度”“技术脆弱等级”等维度，从

端侧、网侧、算侧综合评估，给出不同等级衡量指标，为企业不同用

算场景对安全的需求提供借鉴参考。

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告（2025 年）

中国信息通信研究院技术与标准研究所

地址：北京市海淀区花园北路 52 号

邮编：100191

电话：010-62300064

传真：010-62300094

网址：www.caict.ac.cn

1 views·29 pages

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告 (2025 年) PDF Free Download

基于智能 IP 广域网（AI WAN）的存算分离与云边协同训推技术研究报告 (2025 年) PDF free Download. Think more deeply and widely.

Uploaded by Gilbert Jones on 2/4/2026

/29

100%