
编辑|张倩、Panda
Anthropic 的 Opus 4.6 刚发布,智商确实高到让人头皮发麻,但看着那个价格表,我的钱包也开始发麻了。
这就很尴尬了。Opus 4.6 的出现,直接在开发者圈子里制造了一场「智力焦虑」:模型好用是真好用,贵也是真贵。原版价格纹丝不动就算了,那个号称「极速版」的家伙,每百万输出 Token 的成本居然从 25 美元直接飙到了 150 美元。
整整 6 倍的涨幅!看着 Token 计费表像风一样自由地狂奔,本来想用 AI 释放生产力的我,现在按回车键之前都得先在心里过一遍账单。这哪里是请了个助手,简直是供了个「吞金兽」。
这种「生产力税」的存在,逼得打工人不得不进入一种尴尬的模式:一边渴望顶级智力带来的效率,一边在按回车键时反复权衡账单。难道高智力和高性价比,真的像鱼和熊掌一样不可兼得?难道我们这些普通打工人,就不配拥有「智力自由」?
就在大家捂着钱包叹气的时候,MiniMax 反手甩出了一个王炸:MiniMax M2.5。
这个模型相当能打,无论是 coding 还是 agent 能力,都能与 Claude Opus 4.6 掰掰手腕,甚至在某些维度上掰赢了。
数据不会说谎:M2.5 在多语言任务 Multi-SWE-Bench 上拿下了行业第一;而在 SWE-Bench Verified 评测集上,基于 Droid 和 OpenCode 的实战测试中,它的通过率(79.7% / 76.1%)更是双双反超了 Opus 4.6。
在 BrowseComp、Wide Search 等搜索和工具调用榜单的评测中,M2.5 也达到了行业顶尖的水平。
更具冲击力的是它在 MiniMax 内部的真实表现:在 MiniMax 内部业务场景中,整体任务的 30% 由 M2.5 自主完成;而在编程场景中,M2.5 生成的代码已占新提交代码的 80%。
它不仅 Coding 和 Agent 能力硬刚 Claude Opus 4.6 不落下风,在专业的办公领域更是「偷偷补过课」。为了让模型真正懂行,MiniMax 拉来了金融、法律、社会科学等领域的资深从业者当「教官」,把行业隐性知识灌进模型。
在内部严苛的 Cowork Agent 评测(GDPval-MM) 中,M2.5 在 Word 排版、Excel 金融建模等高阶场景下,对主流模型拿下了 59.0% 的平均胜率。这意味着它交付的不再是简单的草稿,而是具备专业水准的「半成品」。
但最离谱的是,这样一个全能选手,居然参数量只有 10B,是第一梯队中参数规模最小的旗舰模型,不需要太昂贵的设备就能私有化部署。
好家伙,这哪是辅助驾驶啊,这分明是抢方向盘来了!
MiniMax M2.5 表现卓越,也为这家刚上市一个多月的公司的股价带来了一波强劲上涨:
1 美元时薪的顶级打工人
这么小的体积,再加上「思考」链路的深度优化,M2.5 的吞吐量可以达到 100 TPS,推理速度可以达到 Opus 4.6 的 2 倍。在 SWE-Bench Verified 测试中,M2.5 的端到端任务运行耗时从平均 31.3 分钟减少到了 22.8 分钟,这一速度与 Claude Opus 4.6 基本持平。
在需要即时反馈的场景里,这种「跟手」的感觉简直太爽了。更爽的是,你完全不需要有「每按一次回车就少喝一杯奶茶」的心理负担。来看看这个颠覆性的定价:
在每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美元,而在每秒输出 50 个 token 的情况下,只需要 0.3 美元。
1 美元就能雇佣一个顶级专家给你干一小时苦力!换算一下,1 万美金可以让 4 个 Agent 连续工作一年。
这就很有意思了。以前我们不敢跑复杂 Agent,是因为怕跑着跑着就破产了;现在有了 M2.5,我们终于实现了 Agent 自由;让 AI 24 小时持续上工,也不再是有余粮的地主家才能有的奢侈。
目前,M2.5 的 Vibe Coding 支持 PC 端、App 端、RN/Flutter 跨端甚至带数据库的前后端全栈开发,用起来非常方便,普通打工人可以随时上手。
为了验证这个「10B 战神」是不是真的能在性能比肩旗舰的同时,把生产力成本打下来,我们准备了几个真实的使用 Case。下面直接进入实测。
一手实测
MiniMax M2.5 真能成为打工人的得力助手吗?
作为苦逼的媒体人,我们最怕的就是在那堆长达几小时的圆桌论坛速记里「淘金」。大佬们聊嗨了往往也是车轱辘话来回说,我们要想提炼点干货,眼睛都得看瞎。
这种脏活累活,我是不敢交给 Opus 的,太贵。但现在既然 M2.5 这么便宜,那就不客气了。
我们决定搞个破坏性测试:直接把一堆巨大的 HTML 格式的速记文件「喂」给它,让它不仅要提炼观点,还要分析趋势、找分歧,甚至还要做横向对比。
你是一个专业的行业圆桌论坛速读分析师。我会逐个上传论坛速记 / 纪要文件,你的任务是:1)提取核心观点,用 bullet points 列出每位发言人的关键论断和论据;2)识别趋势信号(正在形成共识的方向)和分歧点(存在争议的立场或预测);3)标注任何提及的具体数据、产品名或时间节点。每处理完一篇,输出一份结构化摘要。待我告知 "全部结束" 后,综合所有文件,输出一份总览:横向对比各场论坛的重复主题与独特视角,提炼出 3-5 条跨论坛的强趋势,以及 2-3 个值得持续观察的核心分歧。保持简洁,避免泛化总结,优先引用发言人原话或具体案例。
MiniMax M2.5 接到任务后,丝毫没有「消化不良」。面对超大文件,它甚至自作主张地启动了多个 Agent 并行开工(颇有一种「兄弟们一起上」的既视感):
15 分钟后,几十万 Token 跑完,一份高质量报告出炉:
上下滑动查看
搞定了阅读,再来试试写代码。
作为小编,我们每天都要跟排版做斗争。虽然我们的排版规则不复杂(正文 15px、特定颜色加粗、版权信息居中……),但每次手动调也很烦。
既然官方宣称 M2.5 具备「架构师思维」,能原生 Spec 行为。也就是说,不同于普通模型上来就盲目堆代码,M2.5 在动手前会先像资深架构师一样做规划,主动拆解功能、结构和 UI。无论是 Rust、C++ 还是 Python,从 0-1 的系统设计到最后的 Code Review,它都能像老手一样 Hold 住全场。那我们就让它手搓一个「微信公众号 Markdown 编辑器」。
需求很简单:复制进来 →自动格式化 → 支持微调 → 一键复制带样式。
第一步,为了防止它「听不懂人话」,我们先让它把我的需求翻译成更专业的提示词。













