基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告 (2025 年) PDF Free Download

1 / 29
1 views29 pages

基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告 (2025 年) PDF Free Download

基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告 (2025 年) PDF free Download. Think more deeply and widely.

中国信息通信研究院技术与标准研究所
华为技术有限公司
20259
基于智 IP 广域网
AI WAN)的存算分离与
云边协同训推技术研究报告
(2025 )
本报告版权属于中国信息通信研究华为技术有限公
司,并受法律保护转载、摘编或利使本报告
文字或者观点的,注明“来源:中国信息通信研究院、
为技术有限公司”违反上述声明者,编者追究其相关法律
责任。
智能时代加速到来,企业模型训练、推理算力需求炸式增长。
对于企业来说采用第三方云上智算资源是降低资本支的最佳选择,
但在数据入算、模型微调、推理输出等过程中可能数据、型泄
漏的问题。对于企业和行业用户来说,一方面要降低力成本,同时
又要保障训练、推理过程中的数据安全、用算安全。告研究面向
政企模型微调训练、推理等业务场景,绕企业安全算需求,基于
智能 IP 广域网AI WAN研究并提出了存算分离与云边协同训推技
术方案,满足企业原始数据不出域、安全租用端算力降低企业用
算成本的需求。
在存算分离模型微调训练景下,企业敏感数据园区外“不
落盘”需求,采用精准流控自动调度技术实现用户私有存储与
远端算力中心之间的高效无损传输可保障拉远 100KM400KM
97%以上高算效,满足拉远训练需求。
在云边协同场景下,通过企业侧部署一体机提供少量算力,
利用模型拆分学技术、准流控和自动流级调度技术实现推理性
95%以上算效,满足业推理数据不出域的安全推理诉求。
本报告中同步给出了实验室环境下的测试验证,希望为业界提供
企业安用算、活用算的技术参考。
一、 概述 ...................................................................................................................... 1
(一)背景 ............................................................................................................. 1
(二)AI 大模型训练与推理技术应用 ............................................................... 2
二、 大模型微调训推场景面临的挑战 ...................................................................... 4
三、 基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术方案 ..... 6
(一)方案总体架构 ............................................................................................. 6
(二)模型拆分学习技术 ..................................................................................... 8
(三)精准流控技术 ........................................................................................... 11
(四)自动流级调度技术 ................................................................................... 14
四、 关键技术典型场景实验 .................................................................................... 17
(一)存算分离拉远算效 ................................................................................... 17
(二)云边协同推理安全性 ............................................................................... 18
(三)云边协同算力资源配置优 ................................................................... 19
五、 总结展望 ............................................................................................................ 22
1 当前企业大模型微调训推场景算力解决方案示意图 ..................................... 4
2 存算分离与云边协同训推技术方案 ................................................................. 6
3 模型拆分学习技术工作机制 ............................................................................. 9
4 Transformer 模型架构 ....................................................................................... 10
5 租户级拥塞导致整体算效下降示意图 ........................................................... 12
6 租户级拥塞不会导致拥塞扩散示意图 ........................................................... 12
7 精准流控技术工作机制 ................................................................................... 13
8 现有流级调度技术 ........................................................................................... 14
9 自动流级调度技术工作机制 ........................................................................... 15
10 实验室验证组网示意图 ................................................................................. 17
11 集中式推理网络抓包示意图 ......................................................................... 19
12 云边协同推理网络抓包示意图 ..................................................................... 19
13 集中式推理算力利用率 ................................................................................. 20
14 云边协同推理算力利用率 ............................................................................. 20
1 典型行业 AI 训推技术应用情况表 .................................................................... 3
2 各类网络训推技术方案安全性对比 ................................................................ 22
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
1
一、概述
(一)背景
近年来,我国人工智能创新成果持续涌现,技术加实体经
深度融合,自动驾驶汽车、智能医疗诊断,到人机互、能家居、
智能教育等场景人工智能的广泛应用不仅为人们生活诸多便利,
更推动生产模式实现从 “传统机械自动化” “智动化”
关键转型 —— 其作为新一代信息技术的通用性目的技术,已催生出
数据、算力、算法等新型生产要素凭借智能化自动化优势,
生产过程中实现对劳动要素的直接代,为千百业注入新动能。
与此同时,我国正不断加大力度,动人工智能技术迈向更高水
平的发展阶段。2024 年政府工作报告中出实施“人工智能+行动,
明确强调人工智能技术与实体经济度融合,将培育未来产业作为
重要目标。同年,工业和息化部四部门联合印发《国家人工智能
产业综合标准化体系建设指南2024 版),通过加强人工智能标准
化工作的系统谋加快构建足产业高质量发展与 “人工智能 +
高水平赋能求的标准体为技术落地与产业广泛应用筑牢根基
20257国务院常务会议进一步审议通过《关于深入实施“人工
智能+动的意标志着 “人工智能 + 进入规模化推进新阶
段。明确,依托我国产业体系完备、市场规模大应用场景丰
等优势推动工智能技术加速迭代演进,大力推进其规模化商业
化应用,使人工智能在经济社会发展各领域加快普及、深度融合
最终形成 “以创新带应用、以应用促创新” 的良性循环。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
2
(二)AI 大模型训练与推理技术应用
2025 年初开始DeepSeek 等通用大模型的开源加企业智
能化转型步伐,业内从通用模型训练逐渐走向了行业型训练。
国际数据公司IDC)在《 2025 年中国人工智能计算展评估告》
AI Agent 企业级应用现状与推荐,2025预计 202542%
的中国企业已经开始进行大模型初步测试和点概念并且随着
AI 智能体的快速成熟,预计在 2028 年中国企业级 Agent 应用市场
规模将达 270 +亿美元。同时,根据 Gartner 在《2025 十大战略技
术趋势》报告显示,预计 2030 AI 渗透率将 80%,将有 1200
万家大中小企业使用 AI 推理,真 AI 理普惠。
AI 大模型训练与推(以下简称 推”技术加速融入企业生
产环节,帮助企业提升生产率。典 AI 训推技术应用如下表所
示:
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
3
1 典型行业 AI 训推技术应用情况表
行业
应用
金融
智能投顾、信贷风控、智能客服、能获客
政府
公文写作、政务热线、城市治理、急预警等
能源
智慧综采、无人巡检、规范检测物识别
交通
货车质检、智慧路网、出行服务、路养
制造
工业质检、自动设计、智排产、慧物流
教育
智能教学、智能问答、数字人指导、视频生成
医疗
医疗咨询、病毒选、远程医疗辅助诊断
科研
数据迁移、科学算、数据分析
来源:中国信息通信研究院
当前企业用户在 AI 训推技术应用中的两种典型应用场景分别为
模型微调训练、推理场景以下简称 大模型微调训推”模型微调
训练场景是指通过模型调,让模型理解行业术语、适配业务逻辑
提升应用精准度业需筛选与业务场景高度相关的专属数据集,
预训练大模型的数进行二次优化实现领域化适配,让模型贴合实
际业务。推理是指模微调完成后,将模型应用于实际业务,
“技术业务 的价值转化,推动企业实现智能化、高效化转型。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
4
二、大模型微调训推场景面临的挑战
在企业人工智能数字化转型进程中面对企业 AI 微调训练、
推理等场景产生的算力需求,目前通常有三种算力解方案:
业通过自建算力中心的方式解决算力需求;二是企业通过租赁第
智算中心的算力服务器,运输到企业本地进行使用;是企业通过网
络访问租赁的第三方智算中心的算力资源。下图所
来源:中国信息通信研究院
1 当前企业大模型微调训推场景算力解决方案示意图
合来看,这些方式都面临着安全和成本两重挑战:
一是训推过程数据安全难以保障国家数据局等部门提出
数据不出域数据可用不可见、数据可控可计量 的治理理念,
确数据需在原始产生域内处理,以规避跨域流动中网络攻击、恶意篡
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
5
改等安全威胁。这里的数据,既包括企业机构用于训练的样本数据,
也包括模型微调训练数据和推理输出的 Token 结果可能会造成数据
泄漏的环节包括数据上传、Token 传输、云服务器攻击
二是训推过程的投资成本及算效成本过高。业自建智算
资源需要大量 CAPAX 及人员投入,一般企业难以承担过网络租
用算力资源,在现有的 IP 广域网技术架构下由于网丢包及智算
“大象流”难以得到精细化识别与负载均衡,导致第方智算资源池
计算效率大大下降,同样提高用算成本
综合上述三种算力解决方案的分见,企业开展大模型训练
与推理的核心业务场景中,算力应用的关键矛点已清晰凸显——如
何在保障数据安全、用算安全的前下,现用算成本的合理控制与
优化,成为企业选择算力方案时需考量的核心诉求。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
6
三、基于智能 IP 广域网(AI WAN)的存算分离与云边
协同训推技术方案
(一)方案总体架构
政企等行业用户 AI 算力使用中,面临着严的数据全、
用算安全、降低用算成本等挑战。在此背景下,本报提出基于智
IP 广域网的存算分离与云边协同训推技术案,希兼顾用算安
全与成本,帮助破解行业痛点问题
来源:中国信息通信研究院
2 存算分离与云边协同训推技术方案
基于智能 IP 广域网的存算分离与云边协同训推技术方案,面向
存算分离模型微调训练与协同推理两大场景解决行业痛点问题
场景一:存算分型微调训练。包含“存、网、算、控”四个
部分,基于 SRv6 的智 IP 广域网构建连接枢纽,采用精准流控、
自动流级调度技实现用户私有存储与远端算力中心之间的高效无
损传输,使用数加密技术保障数据传输安全,实现企业敏感数据园
区外“不落数据样本面跨智能 IP 广域网拉远、边训边传,可有
效降低企业本地部署算力成本,同时可解决企业用户安全租用云端算
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
7
力需求。
1“存”“算”企业数据基于安全隐私或其他因素无法存储在
智算中心内的存储服务器中,样本数据存放于企业用本地,
赁运营商智算中心内的算力卡。
2“网”:采用 RDMA 协议,基于 EVPN over SRv6 隧道 +精准
流控方案承载,云上算力调用。
3“控” 基于 SDN 控制器,实现业务快速部、流量业务可
视、秒级故障感知与主动运维。
场景二:云边协同推理。基于 SRv6 智能 IP 广域网,利用模型
拆分学习技术、精准流控和自流级调度技实现“算、网、端
三层协同联动,实现企业数据不出同时减少企业边侧本地算力部
署规模,进一步降低了企业用算成
1“算”:模型分层署,数据不出域。模型首尾层部署在企业
侧,中间层部署在云中间交梯度值、激活值等,保障样本/Prompt
数据不出域。
2“网” RDMA 无损网络,业务 SLA 有保障。网络对训
推参数面 RDMA 务流保证高性能传输,训练算效高,推理时延
吞吐有保障。
3“端:端算网一体可视,极简部署运维。训推算+RoCE
络一体化,一键部署,开通、运维极简。
算分离与云边协同训推技术方案在存算分离模型微调训练与
云边协同推理两大场景中,分别从资源调度、数据安全管理、算力分
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
8
配等维度提供针对性技术方案,为突破 AI 应用瓶颈提供了核心支撑。
支撑存算分离与云边协同训推技术方案的核心技术包括模型拆分学
习技术、精准流控技术和自动流级调度技术。通过模型拆分学习
实现智能 IP 广域网数据安全与算力平衡;通过精准流技术实现智
IP 广域网不同企业用户的用算业务无损传输,保障用算的算
效稳定性,降低企业用算成本,同时为存算分离模型训练提供技
术保障,解决企业安全租用云端算力需求过自动级调度技术实
现智能 IP 广域网智算业务流与通算业务流的网络调优与负载均衡
提高企业用算效率,降低企业用算本。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
9
(二)模型拆分学习技术
大模型训推算力需求激增,为降低成本,企业常通过用云侧服
务器缓解算力压力,但此模式会导致用户推理数据出区,带来
的数据安全泄露风险。为解决企业租用隐私安全的提出拆分学
习技术。
1.工作机制
来源:华为技术有限公司
3 模型拆分学习技术工作机制
1企业园区(边侧近原始数据输入(如计算机视觉领域的
图像,广告推荐领的等)的前几层以及靠近模型推理结果的后几层
作为客户端模型部署模型首层。
2智算中(云模型的剩余部分,通常是更深的、计算量
更大的层作为服器端模型,部署模型中间层。
在大模型训推程中数据拥有方仅将原始数据经过模型前几层
训推后的中间结(即隐变量)发送到算力提供方,并未发送原始数
且隐变量是高维的向量不可直接读取,进一步保护了数据隐私
安全。目的大模型主要是依赖于 Transformer 架构,完整的模型
多个 Transformer Block 层所堆叠组成,其中在 Transformer 层中引入
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
10
了非线性运算变换,仅获取经过非线性运算后的输出结果,将无法恢
复原始输入,因此只传输中间层输出便可更大程度的保原始数据
来源:Google
4 Transformer 架构
2.技术价值
在企业大模型训推业务场景中,敏感的核心诉求是 数据不
泄露+模型不暴露基本诉求平衡+成本通过将模型与数
据按安全等级、处理需求拆分部署根源上避免了原始数据泄露的
风险。同时,解决算力获取、数据护与成本控制的矛盾。
1数据安全:数据全程闭环在企业侧,无跨域传输环节,
底规避数据拦截窃取风险满足等保监管与行业合规要求。
2模型安全:首尾层与中间层物理隔离,远端中心无完整模型,
训推过程仅传递程向量数据,无模型文件或核心参数泄露可能,
保整体模型“0”暴
3力资源优化配置:通过 “企业侧保留少量算力(仅支撑首
与数据处理+ 远端租用大算力(支撑中间层计算) 的模式
大幅降低业算力投入。因传输数据量精简、网络传输高效,整体算
效损失控制在 5% 以内,实现 “低成本不降算效”完美契合企业
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
11
成本、场地、用电、运维等轻量化诉求。
这种 数据 + 模型 + 资源配置 的三重保障,既解决了敏感
行业对数据安全与模型安全的刚性需求,又降低了企业用算成本
底解决企业用算的根本诉求。相比现有大模型训推方案,过模
型拆分学习技术实现企业数据全程不出园区,网络仅传输计算过
程产生的高维向量,远端智算中心处理的也为高维向真正实现了
“安全与效率、成本与性能” 平衡,成为当前敏感行业 AI 应用
的最优路径之一
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
12
(三)精准流控技术
广域 RDMA 技术虽提供了高吞吐数据传输能力,长距传输
场景仍受到丢包时延、网络带宽稳定性等方面制约易导致远
储与计算节点间的数据交互 “时断时续”AI 训练样本
取频繁卡顿,推理任务响应延迟波动大,极大影响用算效。因此
提出精准流控技术以解决上述难题
1.工作机制
来源:华为技术有限公司
5 租户级拥塞导致整体算效下降示意图
传统的流量控制技术是 IEEE 802.3 定义的以太 Pause 机制:下游
设备通过发 Pause 帧给上设备实流量降速。基于优先级的流量控
制技术PFC在此基础上进一步增强,基于优先级为不同的业务来
提供不同服务。通 “接收端主动反馈 + 发送端按需暂停” 的闭
环机制,实现端级无损传输。然而,该技术存在潜在风险,PFC
具有突发性的流能快地做出反应,但是当端口下某租户拥塞
流量会流控反压且逐跳扩散,引发全局性灾难,导致租户算效无保
证。
来源:华为技术有限公司
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
13
6 租户级拥塞不会导致拥塞扩散示意图
为解决租户级拥塞扩散问题,精准流控技术被提出。精准流控结
SRv6 技术,在反压报文中除了携带需要进行流量控的优先级外,
还携带了用户流量特征信息。相较 PFC 则可做到更精细化的
控制,可实现租户间拥塞不扩散。
来源:华为技术有限公司
7 精准流控技术工作机制
在智能 IP 广域网中精准流控技术 SRv6 切片功能结合,通过
整网路径部署对应的切片,在满足同业务对网络带宽、时延、抖动
等差异化 SLA 需求的情况下实现逐级反压。在网络边缘,如果连接
的设备不支持精流控,可向上游设备发送 PFC 反压,协同租户
感知拥塞变化现端网协同。
2.术价值
对在大模型训推场景多租户共享广域算力的需求依托智能 IP
广域 SRv6 与租户级精准流控技术,可实现多租户共享带宽,
决多租户带共享中的拥塞扩散问题,基于租户级的精确流控技术
可有效保障企业用算业务无损传输从而保障企业用算的算效稳定性,
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
14
降低企业用算成同时为存算分离模型微调训练提供技术保障,
决企业安全租用云端算力需求
(四)自动流级调度技术
来源:华为技术有限公司
8 现有流级调度技术
现有的 IP 广域网络通过部署 SRv6 TE Policy 进行流量调度以实
现网络负载均衡但由于无法实时知和统计各路径的流量大小,
能根据预定义权重分配流量调优效果有限,网络负载不均现象仍然
存在。 AI 大模技术中训数据产生的流量呈现“大象流”特征。
大象流的出现致网络负载进一步不均衡加剧,流量拥塞,网络吞
吐率大幅下降,无法撑多租户并发的训推任务,用户等待时间长
造成算网资源浪显著增加企业用算成本。
实现流量的细化自动调度调优,提升整网高吞吐率,保障 AI
模型训推效率降低用算成本,基于大象流识别并实时调优的自动
流级调度术被提出。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
15
1.工作机制
源:华为技术有限公司
9 自动流级调度技术工作机
基本工作流程:
1)整网流量路径信息收集。网络控器纳管整网设备,实时收
集整网拓扑,包括节点信息、链路息、带宽信息、SRv6 路径信息
等。
2大象流精准识通过优化算法,设备完成高性能流量统计、
精准识别 TOP-N 象流。
3路径&量信息上送将获取到的整网拓扑信息、SRv6-Policy
集合、网络拥塞度网络拥塞门限、TOP-N 大象流等信息上送控制器
4优路径计算&策略下发 控制器基于获取到的信息,通过
优化算进行实算,实时获取整网最大带宽利用率当链路利用
率超过设定阈值可感知到网络拥塞情况,实时动态调整大象流端到
端路径,确保网链路负载均匀。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
16
2.技术价值
自动流级调度技术通过控制器纳管智能 IP 广域网设基于优
化算法以网络带宽利用率最大为目标进行路径规划网络运力
大化,进一步为企业用算提高效率,可有效降低企算成本
1优化整网带宽资源利用,降低企业成本 网络带宽利用
率最大” 为核心目标,依托控制器对智 IP 广网设备统一纳管,
结合调度算法进行动态路径规划从根本上解决传统静态调度的缺陷。
通过提升网络带宽利用率,企业无需为缓解拥塞而盲目增加带宽采购
成本。
2)保障智算业务质量,支撑效训推。通过精准识别大象流与
动态调整路径的机制,实时规避负过高的拥堵链路,确保业务流始
终运行在最优路径上,减少网络拥堵导致的业务延迟或效率损耗
提高企业算力使用效率,也进一步接降低了企业用算成本。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
17
四、关键技术典型场景实验
为验证存算分离与云边协同训推技术在智能 IP 广域网关键设备
上的可行性,在实验室针对大模型存算分离、云边协同训推、
全等方面进行了系统性研究与多轮次验证。实验数据有效验证了
拆分学习技术的安全性,同时验证了精准流控技术与自级调度
术对智能 IP 广域网络的无损与算效保障,在 LLAMA2-13B
Qwen2.5vl-32BCV 类模型 RESNETDeepSeek 等大模 100KM
400KM 存算拉远场景下,算效劣化低于 3%Qwen 32B 模型在 200KM
云边协同推理场景下,劣化不超过 5%
(一)存算分离拉远算
为验证各 AI 模型在不同拉远距离不同带宽、是否使能 RDMA
无损能力、是否使能精准流及自动级调度能力不同条件下对于拉
远训练算效的影响,实验室中过控制变量方式进行了系列对比
验证。
来源:中国信息通信研究院
10 实验室验证组网示意图
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
18
本次实验分别选择了具有代表性的稠密模型 LLAMA2-13B、多
模态模型 Qwen2.5vl-32B 大模型、CV 类模型 RESNET 大模型、MoE
类模型 DeepSeek 大模型。在 DC 内服务器节点部署各型,样本
载本地,作为本地训练基线参考。横向对比接入节-拉远
100KM汇聚节点-核心节点拉远 400KM 训练数据。同时智能 IP
广域网部署基于 L3VPN/L3EVPN over SRv6 Policy 切片的 RDMA
线切片,使能精准流控及自动流级调度能力,同时横对比未使能条
件下的算效差异 1G~100G 专线带宽中选择具代表性的 1Gbps
10Gbps 20Gbps50Gbps100Gbps 带宽进行测试。
实测验证表明,在使能 RDMA 损能力条件下,100KM
400KM 存算拉远场景,各模型效劣化低于 3%基于 1Gbps10Gbps
20Gbps50Gbps100Gbps 带宽测试有效吞吐在 90%以上基于自动
流级调度使得智算业务流和通算业流整网负载分担均衡,负载分担
误差在 5%以内。基于精准流控技术的 RDMA 无损专线业务,租户带
宽共享,单租户拥塞故障不会导致其他租户业务受损。而未开启
RDMA 无损能力条件下,口带宽 10G出口带宽收敛 10G 场景下,
未使能 RDMA 无损能力100KM 测试算效劣化 70%+
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
19
(二)云边协同推理安全性
模型拆分学习从理论上证明了数据在智能 IP 广域的不可还
原性与安全性为进一步证明论证该技术在实施部署层是否和理
一致。在实验室模拟园区智能 IP 广域网络、智算中心设置了集中
式推理和云边协同推理的对比实验并在园区出口、广域网络内、
算中心出口进行抓包。试验结果证明,集中式理企业理请求及响
应内容全程抓包可获取,络抓包在显示 promptmodelkey 等关键
信息可见,而协同推理则全以密文方式呈现,抓包容不可见。
来源:中国信息通信研究院
11 集中式推理网络抓包示意图
来源:中国信息通信研究院
12 云边协同推理网络抓包示意图
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
20
(三)云边协同算力资源配置优化
云边协同推理相比集中式推理,通 “近端少算力+ 远端大算
力” 的模式,大幅降低企业算力投入。同样在实验室行了模拟
比,在相同的配置算力、相同的 input/output 参数、并发 128 条件
下,同时部署 Qwen-32B 大语言模型,广域网拉 200KM 上,查
看算力服务器 NPU 资源利用情况,如下图所
来源:中国信息通信研究院
13 中式推理算力利用率
来源:中国信息通信研究院
14 云边协同推理算力利用率
27
38 41
28
52
74 75 74
0
10
20
30
40
50
60
70
80
0 1 2 3 4 5 6 7
算力利用率%
NPU 芯片
5 5 5 5 5 232
61 60
47
60
49
14
39 37
0
10
20
30
40
50
60
70
0 1 2 3 4 5 6 7
算力利用%
NPU芯片
边侧(% 云侧(%
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
21
集中式推理 NPU 芯片算力利用率平均为 51.25%云边协同推理
边侧算力利用率平均为 4%,云侧算力利用率在 45.88%实测显示
对比集中式推理部署模式,云边协同推理可将服务器算资源优化
置,在企业侧(边侧)部署少量算力在智算中心云侧)署大
量算力,实现大幅降低企业本地算力成本投入。时经验 Qwen 32B
模型在 200KM 云边协同推理场景下,劣化不超过 5%。实 “低成
本不降算效”完美契合企业对成本、场地用电、运维等方面诉求。
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
22
五、总结展望
面对企业安全用算需求,存算分离与云边协同训推技术方案为企
业在人工智能领域的安全用算、灵活用算提供了创新性的解决思路
通过模型拆分学习、精准流控与自动流级调度等核术,有效应对
了数据安全、用算安全及降低用算成本等挑战。尤其对企业数据安
全和用算安全,相比现有大模型训推技术方案存算模型微调训
练场景实现了数据出园区外“不落盘”、云协同推理场景实现了企
业完整敏感数据全程不出园区,从根本上杜绝了安隐患,安全性得
到显著提升,解决企业安全用算的难题,为企智能化转型奠定坚实
基础。
2 各类网络训推技术方案安全性对比
技术方案
智算中心数据安
无加密数据入算训推
计算数据无保护,存在企业
数据泄漏风险
加密数据入算训推
计算数据无保护,存在企业
数据泄漏风险
存算分离与云边
训推
智算中心不保存原始数据,
仅进行向量计算,无数据泄
漏风险
当前存算分离与云边协同训推技术方案已经在实验室环境下得
到了验。未来随着 AI 大模型技术在各行业的持续深入应用,将
一步开展技术验证与优化工作,扩大实验规模与场景覆盖,在更多
复杂真境中验证技术方案的可靠性与稳定性,确保其在不同行业、
不同业务场景下均能发挥最佳效能同时,积极推动行业试点,与更
基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)
23
多医疗、金融、政务等行业的企业合作,将技术方案落地实施,在实
践中积累经验,不断完善技术方案细节,形成可复制、可推广的行业
应用案例,加速技术在各行业的规模化应用进程。
后续,我们将大力推进相关技术的标准化工作联合业各方力
量,共同制定统一的技术标准与规范,提升技术的通用性兼容性
促进产业链上下游的协同发展,打造健康、荣的人工智能技术生态,
为我国人工智能产业的高质量发展提供有力支撑,助力各行业在智能
时代实现创新突破与可持续发展。
最后,推进智能 IP 广域网用算全体系建设与安全等级构建。
基于“企业资产价值”“外部威胁技术弱等级”等维度,
端侧、网侧、算侧综合评估给出同等级衡量指标,为企业不同用
算场景对安全的需求提供借鉴参考
基于智能 IP 广域网(AI WAN的存算分离与云边协同训推技术研究报告(2025 年)
24
中国信息通信研究院 技术与标准研究所
地址:北京市海淀区花园北路 52
邮编:100191
电话:010-62300064
传真:010-62300094
网址:www.caict.ac.cn