对标英伟达的Run:ai,华为在算力行业扔下一颗炸弹
在GPU虚拟化之前,平均利用率是25%,训练时间需要6小时,但在虚拟化之后,GPU利用率则为80%,训练时间则为3小时。
2025AI容器应用落地与发展论坛11月21日在上海举行。华为公司副总裁、数据存储产品线总裁周跃峰博士在论坛上正式发布AI容器技术——Flex:ai。同时,华为联合上海交通大学、西安交通大学与厦门大学共同宣布,将此项产学合作成果向外界开源,助力破解算力资源利用难题。
“希望释放AI潜力,让AI从此平民化,是我们发布这款软件的初心。”周跃峰在论坛上指出,希望把人工智能在企业落地,但不需要每个企业都买那么多卡,通过这个软件,更好地调配算力资源。

需求量大,算力利用率低
随着人工智能技术的迅猛发展,算力资源需求呈持续增长态势。
论坛数据显示,xAI计划将AI芯片数量扩增至20万颗,OpenAI正在着手搭建数百万颗AI芯片规模的集群,但单个XPU(包含GPU和NPU)的利用率却不高。Meta生产环境广告推理服务的GPU利用率只有30%左右。
厦门大学信息学院、上海交通大学计算机学院教授张一鸣指出,阿里超80%的算力资源利用率小于35%,字节有将近60%的算力资源利用率小于40%。
周跃峰梳理了目前算力服务中面临的三个痛点:一是小任务单卡不够用,另一个是大任务单机算力不够用,还有就是多任务调度时会遇到困难。他举了一个例子,瑞金医院病理医生用AI诊断时,一旦多个医生都在用NPU资源,就会面临资源的短缺,但这时不能简单增加NPU个数,我们需要提供的是NPU的使用效率和调度能力。
三大核心突破
张一鸣表示,所谓AI容器是一种灵活高效的XPU虚拟化系统、跨节点的XPU映射技术、性能感知的时空复用技术。他指出,Flex:ai容器软件系统落地的主要作用是用一个XPU同时服务于多个租户或多个用途。
本次发布并开源的Flex:ai XPU池化与调度软件,是基于Kubernetes容器编排平台构建,通过对GPU、NPU等智能算力资源的精细化管理与智能调度,实现AI工作负载与算力资源的精准匹配,可大幅提升算力利用率。
华为官方介绍,该技术形成三大核心技术突破:一是算力资源切分,一卡变多卡,服务多个AI工作负载。二是跨节点算力资源聚合,充分利用空闲算力。三是多级智能调度,实现AI工作负载与算力资源的精准匹配。
WitDisplay首席分析师林芝对财闻解释说,通俗来讲,就是通过切卡技术,把一张GPU/NPU显卡切成好几份,这样谁要用多少就切多少,互不干扰。同时也可以把别人闲置的卡借用过来,你可以通过Flex:ai,通过高速网线,直接“遥控”隔壁机房里闲置的显卡。最后,它也比较像一个AI界的滴滴派单,让系统随时盯着几个机房,哪个卡空,哪个卡忙,哪个任务急,哪个任务大,然后可以像派单一样,自动把闲置任务扔到最空闲和划算的显卡上。
对标英伟达Run:ai容器软件
论坛上,专家多次提到了与英伟达Run:ai在性能上的区别。Run:ai 是一家专注于 GPU资源池化与动态调度的以色列公司。2024年4月,英伟达宣布与Run:ai 达成最终收购协议。2024年12月,Run:ai官网发布消息称,英伟达计划将其软件开源。
专家提出,Run:ai面向更上层的应用,而Flex:ai AI容器软件则基于更底层的运用,同时,Flex:ai AI的颗粒度更细。与英伟达旗下Run:ai只能绑定英伟达算力卡不同,华为AI容器技术Flex:ai通过软件创新,可实现对英伟达、昇腾及其他第三方算力资源的统一管理和高效利用,有效屏蔽不同算力硬件之间的差异,为AI训练推理提供更高效的资源支持。
林芝表示,可以说华为这次发布的Flex:ai产品对标的是Run:ai,但与Run:ai公司的核心产品相比,华为Flex:ai在虚拟化、智能调度等方面具备独特优势。
大大缓解国产算力压力
当前,国内由于先进制程和产能的限制,国产AI芯片算力不如英伟达、AMD等国外厂商的水平,如何充分利用国内有限的算力资源显得非常关键。林芝表示:“华为Flex:ai通过提高不同AI芯片算力效率,可以有效缓解国内算力不如国外的压力。”
上海交通大学软件学院教授戚正伟在论坛上表示,在GPU虚拟化之前,平均利用率是25%,训练时间需要6小时,但在虚拟化之后,GPU利用率则为80%,训练时间则为3小时。
在发布之际就宣布全面开源,对AI行业也有着重要意义。林芝认为,全面开源有助于算力的提升,加快AI产业链的升级,带动AI产业的发展和成熟。
周跃峰指出,Flex:ai的全面开源将向产学研各界开发者开放所有核心技术能力。通过汇聚全球创新力量,共同推动异构算力虚拟化与AI应用平台对接的标准构建,形成算力高效利用的标准化解决方案,为全球AI产业的高质量发展注入强劲动能。

