美团发布LongCat-2.0:全国产算力训练AI Agent模型
2026年6月30日,美团发布LongCat-2.0,总参数1.6万亿、激活参数约480亿,号称首个在五万卡国产算力集群完成全流程训练与推理的AI Agent模型,聚焦代码生成与长上下文。
外卖公司发布万亿参数大模型
2026年6月30日,美团正式发布新一代基础大模型 LongCat-2.0。总参数1.6万亿,激活参数约480亿。
这个数字意味着什么?在万亿参数这个级别,全球能拿出完整训练和推理能力的公司屈指可数。更特别的是,LongCat-2.0 是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型。
美团给 LongCat-2.0 的定位很明确:AI Agent、代码生成、长上下文处理和自动化工作流。它不是一个普通聊天模型,而是面向开发者和企业任务执行场景设计的底层能力。
市场反应印证了这个定位。正式版发布前,预览版已经跻身 OpenRouter 全球大模型调用量前三。OpenRouter 是全球最大的 AI 模型调用平台之一,开发者在上面选择模型时用脚投票。LongCat-2.0 Preview 能在 Hermes、Claude Code、OpenClaw 这些成名已久的模型中杀出来,说明它在特定场景下确实有吸引力。
但这个成绩也引发了争议。海外开发者通过聊天网站测试后发现,在 TeenBench 3 中 LongCat-2.0 得分仅 21.6%,一次性任务表现不佳。这和官方宣称的性能数据形成了鲜明对比。
五万卡国产算力集群完成万亿参数训练
LongCat 团队从2023年起探索国产算力。三年时间,从千卡起步到五万卡集群,这个扩张速度在行业里不算保守。
预训练数据规模超过30T tokens,覆盖中文、英文、多语言和代码。这个数据量放在2026年中期,属于主流偏上的水平。
真正的难点在万卡级容错恢复、NPU 确定性计算、算力利用率提升这些工程问题上。美团技术团队给出的数据是:稳态日吞吐超过 1T tokens/day,月均日故障率降低70%以上。
| 指标 | 数值 |
|---|---|
| 峰值算力卡规模 | 超过5万张国产算力卡 |
| 预训练数据规模 | 超过30T tokens |
| 稳态日吞吐 | 超过 1T tokens/day |
| 月均日故障率降幅 | 降低70%以上 |
故障率这个指标很关键。训练万亿参数模型,单次训练周期可能持续数周到数月。如果每天都有卡故障,导致训练中断,就得频繁回滚到上一个检查点,时间和算力成本都会大幅增加。月均日故障率降低70%,意味着团队在硬件可靠性、容错机制、检查点策略上都做了深度优化。
美团技术团队还验证了国产算力卡的计算正确性和精度。这不是一句空话。训练大模型对数值精度要求很高,梯度计算、参数更新、归一化操作都需要在特定精度范围内才能保证收敛。如果硬件在浮点运算、张量操作上有系统性偏差,模型质量会受影响。
训练和推理成本低于全球其他万亿参数级别大模型。这个说法没有给出具体对比对象和成本数据,但考虑到国产算力卡的采购成本、电力成本、维护成本相对海外 GPU 集群有优势,这个结论有一定可信度。
三大技术创新支撑 Agentic Coding
LongCat-2.0 的架构设计围绕 Agent 场景展开。三个核心创新:超长上下文、零计算专家、多专家融合。
1M 超长上下文
LongCat-2.0 采用 LongCat Sparse Attention(LSA)稀疏注意力机制。标准 Transformer 的注意力计算量是序列长度的平方,LSA 把这个复杂度降到线性级别。
原生支持1M tokens 上下文,最大输出128K tokens。这个能力对 Agent 场景很实用。开发者用 AI 重构代码库时,可能需要同时读入几十个文件的完整内容,外加技术文档、API 说明。如果上下文窗口只有几万 tokens,就得反复切割输入,模型看不到完整信息。1M tokens 的窗口让模型能一次性看到整个代码库的核心部分。
128K tokens 的输出长度同样重要。生成完整的技术文档、多文件代码重构、长篇报告分析,都需要这个输出容量。
零计算专家 + ScMoE
LongCat-2.0 总参数1.6万亿,但每个 token 平均只激活约480亿参数,动态范围在 33B~56B 之间。
这是业界首创的零计算专家机制。简单理解:模型内部有多组专家网络,每个 token 进来时,模型判断这个 token 的复杂度,决定激活几个专家。简单的 token(比如标点符号、常见介词)可能只激活 33B 参数,复杂的 token(比如专业术语、推理步骤)可能激活 56B 参数。
这种设计在保持大参数量优势的同时,大幅降低了推理成本。传统的稠密模型,每个 token 都要走完所有参数,计算量固定。稀疏专家模型(MoE)会在每个 token 上激活部分专家,但激活数量通常是固定的。零计算专家机制更进一步,让激活数量动态调整。
ScMoE 是 Sparse Conditional Mixture of Experts 的缩写,配合零计算专家机制,实现了 token 级的动态计算预算。
MOPD 多专家融合
LongCat-2.0 融合了三组专家能力:
- Agent Experts:工具调用与自主纠错。模型需要判断何时调用外部工具(搜索引擎、数据库、代码执行器),如何解析工具返回结果,如何在执行失败后自主纠错。
- Reasoning Experts:数学与 STEM 推理。解决多步骤推理问题,处理复杂的数学计算和科学问题。
- Interaction Experts:指令遵循与交互体验。理解用户意图,生成符合预期格式的回复,保持多轮对话的连贯性。
每组专家负责不同能力维度,通过 MOPD(Multi-expert Orchestration for Prioritized Dispatch,多专家编排与优先分发)机制协同工作。
LongCat-2.0 还扩展了 Embedding 空间,加入了 Ngram Embedding 模块。这部分参数约1350亿。Ngram Embedding 可以捕捉更丰富的词汇和短语组合模式,对代码生成和长文本理解有帮助。
全球调用量前三,但实际表现存在争议
LongCat-2.0 在 OpenRouter 上的表现确实亮眼。月调用量方面,Hermes、Claude Code、OpenClaw 分列全球第一、第二、第三位,LongCat-2.0 是最受全球 Agent 开发者欢迎的免费模型之一。
官方基准测试数据同样不错:
| 基准测试 | LongCat-2.0 得分 | 对比模型得分 |
|---|---|---|
| SWE-bench Pro | 59.5 | GPT-5.5: 58.6, Claude Opus 4.6: 57.3, Gemini 3.1 Pro: 54.2 |
| SWE-bench Multilingual | 77.3 | Claude Opus 4.6: 77.8 |
| Terminal-Bench 2.1 | 70.8 | - |
SWE-bench 是软件工程基准测试,专门评估模型解决真实 GitHub issue 的能力。LongCat-2.0 在 SWE-bench Pro 上得分 59.5,领先 GPT-5.5 的 58.6 和 Claude Opus 4.6 的 57.3。在 SWE-bench Multilingual 上得分 77.3,接近 Claude Opus 4.6 的 77.8。
真实用户场景表现也不错。RWSearch(真实世界搜索任务)获得 78.8,FORTE(长文档推理)获得 73.2,BrowseComp(网页浏览与信息提取)获得 79.9。这些分数接近前沿闭源模型水平。
但独立测试者给出了不同的结论。海外开发者通过聊天网站测试,在 TeenBench 3 中 LongCat-2.0 得分仅 21.6%。这个分数在主流模型中属于垫底水平。
差异可能来自测试方式。TeenBench 3 是一次性任务测试,给模型一个问题,看它能不能直接给出正确答案。这种测试方式对纯聊天模型比较友好。
LongCat-2.0 是 Agent 模型,不是 One-Shot 模型。Agent 模型的设计逻辑是:接收任务,分解步骤,调用工具,根据反馈调整,多轮迭代直到完成任务。如果把它放在一次性问答场景下测试,就像用螺丝刀当锤子用,测出来的结果不能反映真实能力。
测试者也意识到了这一点,表示等权重上传完或者等 API 能在中国以外开放后,会在完整的 Agent Loop 中重新测试。
目前 LongCat-2.0 的 API 和权重尚未全面开放。Coding Plan 和 API 只在中国开放,Hugging Face 权重文件还在上传中。这限制了国际开发者的测试和验证。
从 SQL 查询到 3D 演示的完整落地案例
美团在内测期间征集了大量真实工作场景的任务需求,发布了五个具体案例。
AI SQL Agent
业务人员用自然语言提问:"上个月哪些商品的销售额增长最快?"
LongCat-2.0 自动完成:理解问题(识别时间范围、目标指标、排序规则),规划步骤(确定需要查询的表、关联关系、聚合方式),生成 SQL 查询,执行并解析结果,转化为业务洞察("手机配件类增长47%,主要由无线耳机和充电器带动")。
全链路闭环,业务人员不需要懂 SQL。
插件代码重构
开发者给出旧版代码库和新版 SDK 文档,要求把插件从旧 API 迁移到新 API。
LongCat-2.0 分析旧代码架构,梳理核心逻辑,识别需要替换的 API 调用点,查阅新版文档找到对应方法,生成重构后的代码。编译一次通过。
这个案例的难度在于:模型需要理解整个代码库的依赖关系,不能只替换 API 名称,还要处理参数格式、返回值类型、错误处理逻辑的变化。
儿童 AI 游戏训练场
用户输入一句话:"做一个儿童 AI 游戏训练场,包含猜谜、简笔画识别、简单问答三个游戏。"
LongCat-2.0 完成技术选型(React + Vite + TailwindCSS),规划页面架构(导航栏、游戏选择区、游戏界面、结果展示),生成三个游戏页面的完整代码,包含 UI 组件、交互逻辑、API 调用。开箱即用。
Three.js 3D 演示
用户要求:"生成一个透明烧瓶,里面有荧光液体,加热后液体沸腾,泡沫喷发。"
LongCat-2.0 生成完整的 Three.js 代码,包含:烧瓶 3D 模型(透明材质、玻璃反射),液体粒子系统(荧光效果、波动动画),加热交互(鼠标点击触发,温度上升),泡沫喷发效果(粒子数量、速度、轨迹)。所有代码封装在单个 HTML 文件中,打开浏览器就能看到效果。
AI 小说工厂
用户输入小说设定:"科幻世界观,三条主线并行,百万字规模。"
LongCat-2.0 自动编排多个 Agent:世界观构建 Agent 生成星球、种族、科技体系设定;章节生成 Agent 并行创作三条主线;质量评估 Agent 检查人物性格一致性、设定冲突、情节逻辑;修订 Agent 根据评估结果调整内容。
保障百万字级设定一致性,这是纯人工写作很难做到的。
低门槛接入,近期开源核心技术
LongCat API Platform 同时兼容 OpenAI API 和 Anthropic API 格式。开发者可以用现有的 OpenAI SDK 或 Anthropic SDK 直接接入,只需要修改 API endpoint 和 key,代码逻辑不用改。
这个兼容性设计对推广很重要。开发者已经在用 GPT-5.5、Claude 构建应用,如果要接入新模型,最好不要重写代码。LongCat-2.0 做到了即插即用。
深度适配 Claude Code、OpenClaw、Hermes 等主流 Agent 框架。这些框架都有自己的 prompt 格式、工具调用协议、多轮交互逻辑。LongCat-2.0 针对每个框架做了优化,开发者可以直接用框架的标准接口调用模型。
美团宣布近期将在多平台同步开源 Infra 框架、推理引擎、模型参数等核心技术。这意味着开发者不仅能用 API,还能自己部署和微调模型。
开源的具体时间和平台尚未公布,但从 Hugging Face 权重文件正在上传来看,应该不会等太久。
从聊天到 Agent,大模型竞争转向任务执行能力
LongCat-2.0 标志着国产大模型竞争从单纯问答和文本生成,转向更复杂的任务执行能力。
2023年到2024年上半年,国产大模型主要比拼的是:聊天流畅度、知识覆盖面、文本生成质量。这些能力很重要,但对企业和开发者来说,更需要的是能完成实际工作的模型。
写代码、分析数据、重构系统、生成报告,这些任务需要模型具备多步骤推理、工具调用、自主纠错能力。LongCat-2.0 的定位就是瞄准这些场景。
国产算力训练万亿参数模型的成功,对激活存量国产芯片是重要突破。过去几年,国产 AI 芯片出货量不小,但真正用在前沿模型训练上的比例不高。原因是工程难度大,软硬件适配成本高,团队不愿意冒险。
美团用五万卡国产算力集群完成 LongCat-2.0 训练,证明了国产芯片在万亿参数级别上的可行性。这会给其他团队信心,也会倒逼芯片厂商和框架开发者进一步优化工具链。
外卖公司发布1.6万亿参数开源模型,给真正的 AI 实验室带来压力。美团不是传统意义上的 AI 研究机构,它的核心业务是外卖、酒旅、零售。但它能投入资源训练万亿参数模型,并且选择开源,这让那些一直保持闭源的 AI 实验室很难找理由继续封闭。
对开发者和企业团队而言,LongCat-2.0 更适合作为 AI Agent、编程助手和长任务处理系统的底层模型能力。如果你的应用需要多步骤任务规划、代码生成、文档分析,LongCat-2.0 是值得尝试的选择。如果你只需要一个聊天机器人,可能其他模型更合适。
模型性能的真实验证,需要等待权重全面开放和 API 国际化后,在完整 Agent 环境中进行测试。目前的争议主要来自测试场景不匹配。等到更多开发者能在实际项目中使用 LongCat-2.0,它的真实水平才会清晰。