2026年2月11日消息,蚂蚁集团于今日发布并开源全模态大模型Ming-Flash-Omni 2.0,该模型在视觉理解、语音生成与图像编辑等方面实现显著提升,支持多模态输入输出。
2026年2月11日消息,蚂蚁集团于今日发布并开源全模态大模型Ming-Flash-Omni 2.0,该模型在视觉理解、语音生成与图像编辑等方面实现显著提升,支持多模态输入输出。

据了解,模型首次支持在单条音轨中同步生成语音、环境音效与音乐,用户通过自然语言指令即可精细控制音色、语速、情绪、方言等参数,其推理帧率低至3.1Hz,支持分钟级长音频的实时高保真合成,显著降低多模态串联复杂度。同时,基于Ling-2.0稀疏MoE架构,模型在保持多模态能力融合的同时,显著降低计算资源消耗,开发者可在同一框架调用视觉、语音、生成能力,避免传统多模型串联的工程冗余。

此外,该模型支持开发者通过Hugging Face获取模型权重,或通过蚂蚁百灵平台LingStudio在线体验。