美团发布LongCat-Flash-Thinking,推理性能刷新多项开源模型纪录

PChome | 编辑: 曹慧歆 2025-09-22 16:37:48

9月22日,美团LongCat团队正式推出新一代高效推理模型LongCat-Flash-Thinking,并已在Hugging Face 与 GitHub全面开源。

9月22日,美团LongCat团队正式推出新一代高效推理模型LongCat-Flash-Thinking,并已在Hugging Face 与 GitHub全面开源。相比此前的LongCat-Flash-Chat,该模型在保持高效响应的同时,强化了逻辑、数学、代码与智能体任务的综合能力,是目前全球开源模型中的先进水平之一。

值得关注的是,LongCat-Flash-Thinking在架构与训练策略上进行了系统化创新。团队采用多领域并行的强化学习方法,将STEM、代码和智能体任务分离优化,再融合训练,以提升模型能力的均衡性,并通过异步弹性共卡系统(DORA)实现三倍以上的训练提速。这一训练体系支持万卡集群稳定运行,为大规模模型迭代提供了硬件与算法层面的保障。

在应用能力上,模型引入了“双路径推理框架”,可自动筛选最优样本,并结合工具调用机制完成复杂任务。实测数据显示,该机制在确保准确率的同时,大幅减少了推理所需的Tokens消耗,提高了资源利用效率。同时,团队还通过基于 Lean4 的专家迭代数据生成方法,显著增强了模型在形式化定理证明中的可靠性。

多项公开评测结果显示,LongCat-Flash-Thinking在ARC-AGI、AIME、LiveCodeBench、τ2-Bench等基准测试中均刷新开源模型表现,部分指标已接近甚至对标顶级闭源模型。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑