PChome 6月22日消息,京东Joy Future Academy正式宣布全栈开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这也是业界首个完整开源的视觉驱动Interaction模型及可部署系统。
PChome 6月22日消息,京东Joy Future Academy正式宣布全栈开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这也是业界首个完整开源的视觉驱动Interaction模型及可部署系统,并已获得vLLM-Omni的Day-0原生支持。

区别于传统多模态大模型“上传视频—等待提问—给出回答"的回合制模式,JoyAI-VL-Interaction基于8B参数规模设计,可接入摄像头、直播流或监控画面,持续观察视频流并自主决策——是主动开口提示、保持沉默继续观察,还是将复杂推理任务委托给后台Agent。这种“边看边说、自主判断何时发言"的机制,使其能在火灾预警、老人跌倒检测、直播实时解说等时效敏感场景中真正“在场"。

此次开源不只放出模型权重,还包括超400万条时序对齐交互训练数据、完整训练方案及可一键启动的部署系统,支持语音I/O、长期记忆与自定义工具接入,开发者可直接基于此搭建安防监控、AI眼镜辅助等实时交互应用。在58例真人盲评中,该模型对比豆包视频通话助手总体胜率达77.6%,对比Gemini视频通话助手达87.9%,监控预警场景更是对两者均取得100%胜率。