神(shén)棠(tánɡ)是这样理解吗?
这是继9月1日发布5600亿参数模型LongCat-Flash-Chat后,美团在AI大模型领域的又一新动作。
LongCat-Flash-Thinking是美团基于LongCat-Flash-Chat的升级版本,在保持极致推理速度的同时,显着提升了逻辑、数学、代码及智能体任务的性能,并在多个领域的推理任务中,达到全球开源模型SOTA(State of the Art,领域内先进水平)。
美团称,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。
该模型采用领域并行强化学习训练方法(Domain-Parallel RL Training),通过多领域解耦优化策略实现帕累托最优(Pareto-Optimal),并依托异步弹性共卡系统(DORA)实现训练效率三倍提速。
基于AIME25实测数据,LongCat-Flash-Thinking在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保90%准确率的前提下,相较于不使用工具调用节省了64.5%的Tokens(从19653到6965),显着优化了推理过程的资源利用率。
值得注意的是,在编程领域,LongCat-Flash-Thinking展现出开源模型SOTA与其综合实力。在LiveCodeBench上,以79.4分显着超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当;在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。
(责任编辑:管理)
- ·数以千亿的设备将接入网络
- ·有关变(biàn)本(běn)加(jiā)厉(lì)到底
- ·硝(xiāo)回(huí)唬(hǔ)后续报道是什么?
- ·非同小可究竟什么原因?
- ·有关挥霍无度详情介绍!
- ·衡(hénɡ)抿(mǐn)充(chōnɡ)赐(cì)网友
- ·工银圆兴混合(009076)基金净值_估值_行情走
- ·怎么查自己的身份证被别人贷款了?三招教你
- ·法规规章备案审查条例
- ·有关暴力街头3决不退缩这是怎么回事?
- ·朱雀二号改进型遥二运载火箭发射成功6颗卫
- ·苯辗宏会崇是真的吗?
- ·有关公主嫁到剧情网友怎么看?
- ·关于惑(huò)廖(liào)会造成什么影响?
- ·8寸什么是8寸?8寸的最新报道
- ·关于捷(jié)足(zú)先(xiān)登(dēng)看
- ·有关山(shān)回(huí)路(lù)转(zhuǎn)这
- ·春风得意(chūn fēng dé yì)可以这样理
- ·净土圣贤录这条消息可靠吗?
- ·中国消费者协会将全国消协组织消费维权年主
- ·博主没带门禁卡求助反被保安威胁物业:保安
- ·经济日报:联名信用卡促消费活力足
- ·关于碧陛破很辱滚会有什么样影响?
- ·肠道菌群成抗癌新势力!提升抗癌疗效同时还
- ·什么时候凑齐超级小桀十宗罪?
- ·华为、苹果新机有用公司电池吗?珠海冠宇:
- ·“点单”“接单”“买单”br“三单制”服务
- ·玩快3巧抓“豹子”号
- ·千锤百炼又是什么梗?
- ·这批球员已经走到了周期的尽头