6月10日消息,通义实验室发布并开源了MaskSearch预训练框架,让AI学会“主动搜索+多步推理”,从而更准确、更智能地回答复杂问题。
6月10日消息,通义实验室发布并开源了MaskSearch预训练框架,让AI学会“主动搜索+多步推理”,从而更准确、更智能地回答复杂问题。
据了解,MaskSearch提出了一种全新的预训练任务——检索增强掩码预测(RAMP) ,让AI在大量“填空题”中学习如何调用搜索引擎、多步推理、逐步还原缺失信息,从而掌握通用的搜索与推理能力。还采用了两种训练策略,分别是监督微调(SFT)和强化学习(RL)。

通过构建由规划器、重写器、观察器 组成的多智能体系统,MaskSearch 能够自动生成结构清晰、逻辑完整的推理路径(Chain-of-Thought),并借助自进化蒸馏方法快速扩展数据集,为训练提供高质量样本。
采用了DAPO算法 ,结合格式奖励(保证输出结构正确)与回答奖励(确保内容准确),打造高效强化学习流程,进一步提升模型在复杂任务中的表现。
实验表明,即使是小模型(如Qwen2.5-1.5B),在经过MaskSearch预训练后,也能在多个开放域问答任务中取得显著提升。例如,在Bamboogle数据集中性能提升超过11.78% ,真正做到了“小模型也能挑战大模型”。