PChome 3月23日消息,近日,华为云发布FlexNPU柔性智算操作系统,通过动态调度闲置算力资源,将AI推理池利用率从平均不足30%提升至70%以上,使同等硬件投入下Token吞吐量提升40%,大幅降低了企业部署智能体的使用门槛。
PChome 3月23日消息,近日,华为云发布FlexNPU柔性智算操作系统,通过动态调度闲置算力资源,将AI推理池利用率从平均不足30%提升至70%以上,使同等硬件投入下Token吞吐量提升40%,大幅降低了企业部署智能体的使用门槛。

据PChome了解,FlexNPU的核心创新在于突破物理硬件限制,大模型推理通过PD动态混部技术,解决传统架构中算力空转问题,Token吞吐效率提升40%,而小模型支持1%NPU卡算力粒度切割,实现“一卡多用”,小模型算力成本降低2–3倍。兼容昇腾NPU及第三方GPU,通过AI Infra OS层统一调度异构算力,企业无需更换硬件即可接入,降低改造门槛。

FlexNPU标志着AI算力供给从“资源模式”转向“效率模式”,阿里、华为分别从闭环生态与开放效率切入,企业需根据业务场景选择技术路线。