美团开源新模型:与SOTA处于同一水平,可实现“重思考”

PChome | 编辑: 岳芸珊 2026-01-16 14:23:15

美团LongCat团队今日正式发布开源LongCat-Flash-Thinking-2601。在智能体搜索、工具调用、工具交互推理等核心评测基准上均达到开源模型SOTA水平,是首个完整开源并支持在线免费体验“重思考模式”的模型。

1月16日消息,美团LongCat团队今日正式发布开源LongCat-Flash-Thinking-2601。据介绍,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601在智能体搜索、工具调用、工具交互推理等核心评测基准上均达到开源模型SOTA水平,是首个完整开源并支持在线免费体验“重思考模式”的模型。

“重思考式”模式是指,模型在遇到高难度问题时会把思考过程拆成并行思考和总结归纳两步:1、并行思考阶段,模型会同时独立梳理出几条不同的推理路径;2、总结归纳阶段,对梳理出的多条路径进行优化与合成,并将优化结果重新输入,找出最优解。美团表示,该模型在依赖工具调用的随机复杂任务中性能超越了Claude,可大幅度降低真实场景下新工具的适配训练成本。此外还设计化学习环节,针对性提高模型的总结归纳能力,让LongCat-Flash-Thinking-2601实现“想清楚再行动”。

LongCat-Flash-Thinking-2601在LCB评测中取得82.8分;OIBench EN评测获47.7分,成绩处于同类模型第一梯队;此外,在AIME-25评测中获满分,IMO-AnswerBench中以86.8分达到当前SOTA水平。美团还提出通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务。每个生成的任务都配备了对应的工具集与可执行环境,以此来更好的评测模型实际运用能力。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑