
金磊 发自 凹非寺
造AI这件事,目前的主角变成了AI。
因为就在刚刚,一个国产AI先我方写出了一套大模子预历练框架,然后再用这套预历练框架,历练出了一个新的小尺寸模子!

这即是面壁智能搞出来的big news。
这套由AI写出来的预历练框架叫作念ForgeTrain,它是人人首个十足由AI编写的分娩级大模子预历练框架,性能以致超过了英伟达的Megatron。
况兼ForgeTrain在华为昇腾上预历练MiniCPM5-1B,比较昇腾的框架也有10%的加快。
雅博体育app下载中国官网入口围绕它,面壁智能还提议了一套新的软件编程范式,叫Forge Engineering。
更直白少量说,即是当AI写代码的资本越来越低,将来软件不一定非要作念成一套通用大框架,也不错针对不同模子、不同硬件、不同任务,现场铸造一套专用代码。
而被ForgeTrain历练出来的新模子,即是MiniCPM5-1B。
至于三者的关系,我们用一张图来解释:

天然已往行业里对于“AI制造AI”的声息络续,但总清雅说,都还停留在特定的步伐,比如写一段函数、改一个剧本、调一组参数等等。
不外这一次,中国大模子公司第一次把“AI制造AI”从意见,鼓吹到了可展示、可评测、可复现的工程样本。
AI造出来的AI,颖悟啥?
既然MiniCPM5-1B是ForgeTrain历练出来的模子,最径直的问题来了:
AI造出来的AI,到底颖悟什么?
先看一个最直不雅的场景——桌宠。
这个1B参数限制的小模子,它不错常驻在电脑桌面上,变成一个随时反应的AI小伙伴。你不错跟它聊天,让它凭证坎坷文接话,也不错给它设立不同的东谈主格。

视频地址:https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w
(本名堂基于clawd-on-desk名堂二次开辟:https://github.com/OpenBMB/MiniCPM-Desk-Pet)
这个桌宠的重心在于,它不是一定要跑在云表的大模子服务,1B限制意味着它弥散小,部署门槛也弥散低。
按照面壁智能官方的说法,MiniCPM5-1B在FP16精度下权重体积约2GB,稳妥GPU、高端笔电和服务器;INT4/Q4精度约0.5GB,不错面向手机、平板、车机等缔造。
MiniCPM5-1B想解释的,是1B模子也不错更能打。
在详细常识、数学推理、代码推理、用具调用等方进取,MiniCPM5-1B都拿出了面向同尺寸端侧模子的对比终结。
公开评测中,MiniCPM5-1B/think平中分为42.57;在MMLU-Pro、MMLU-Redux、AIME-2025、AIME-2026、BFCL-v4、AA榜单等名堂上,也给出了对应收货。

尤其值得一提的是,MiniCPM5-1B再次刷新了小模子的智能密度上限。
仅以1B参数限制,它就在外洋着名榜单AA-Index上超过了统统2B参数以下模子。比较3个月前发布的Qwen3.5-2B,MiniCPM5-1B不仅恶果更优,参数目还减少了一半。
这背后其实指向一个越来越明晰的趋势:模子智力晋升,不再只靠把参数限制越堆越大。更小的模子,也正在承载更高的智能密度。按照这一趋势不雅察,大模子的智能密度正在以约每3.5个月翻一番的速率抓续晋升。

这也让MiniCPM5-1B的价值更明确了,它不仅仅一个小尺寸模子,而是一个在参数限制、部署资本和执行智力之间重新找均衡点的端侧模子。
除此以外,它还不错自界说东谈主格:

视频地址:https://mp.weixin.qq.com/s/Ci0BXKMJHy086MycdqH77w
天然这听起来像聊天产物里的基础功能,但在端侧模子上道理更大,因为端侧模子离用户更近,更容易成为土产货缔造上的轻量级智能进口。
它不错记着用户偏好的交互样式,也不错凭证不同场景切换作风。
淌若大模子要从云表走向每个东谈主的缔造,模子必须弥散小、弥散低廉、弥散好用,还要有齐备用具链。
这亦然它强调开辟者友好的原因。
MiniCPM5-1B提供了模子、推理、微调关系用具链。推理侧维持SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight等;微调侧维持LLaMA-Factory、ms-swift等用具。
对开辟者来说,这比单纯给一个模子权重更遑急。
因为模子能不可被用起来,时时不单取决于模子自己,也取决于部署、推理、量化、微调、接入职责流是不是顺遂。
还开端了英伟达Megatron
淌若说MiniCPM5-1B是AI制造AI的产物,那么ForgeTrain即是AI制造AI的工场。而这个工场,自己亦然AI造出来的。
面壁智能把AI制造AI分红了L1到L5五个阶段:
L1:AI 只给建议,东谈主类推行统统操作(代表:Github Copilot)
L2:AI 接济研发,完成具体步伐(代表:Cursor,Claude Code)
L3:AI 端到端产出下一代模子(代表:ForgeTrain)
L4:AI 递归自创新,开云IOS/Android通用版/手机app鼎新历练管线和自身
L5:AI 自主设定相关议程,灵通式探索
ForgeTrain对应的恰是L3-L4这个阶段。它还莫得到AI我方发明下一代Transformer的进度,但它也曾插足了大模子研发最中枢的基础设施层——预历练框架。
在此之前,全天下好多大模子预历练框架,都是东谈主类步伐员一排一排写出来的。英伟达的Megatron、Meta的 Fairseq、谷歌的TensorFlow,无一不是如斯。
但面壁智能提议了一个十足不同的想路,Forge Engineering。
已往的软件工程强调通用框架,一个框架要兼容各式模子、各式硬件、各式历练任务。平正是代码不错复用,代价是很难把每个具体场景都压榨到极致。就像一件均码的衣着,谁都能穿,但谁都穿分歧身。
Forge Engineering的想路则激进得多:既然AI写代码越来越快,代码分娩资本越来越低,那我们为什么还要追求通用?我们十足不错给不同的模子、不同的硬件、不同的任务,诀别写专用的代码。
这就像从工业化的批量分娩,回到了高档定制。AI即是阿谁不知困乏的顶级工匠,不错为每一个需求量身打造最稳妥的代码。
但AI我方写预历练框架,难点不单在写代码。更难的是:它奈何知谈我方写对了?奈何知谈速率够不够快?奈何知谈显存、并行、通讯、沉着性有莫得问题?
这就需要Harness。
我们不错把Harness涌现成一个科场,AI被放进这个科场里,一轮轮生成代码、运行测试、拿到反馈、不绝修改。这个进程十足自动,不需要东谈主类热闹。
面壁智能弃取了三阶段构建模式论:
从现存预历练框架网罗关节数据,酿成评测步伐和Harness
从评测Harness构建二进制一致的预历练框架版块
撤销二进制一致的限度,迭代优化到超过参考杀青
最终的终结是,ForgeTrain不仅在功能上十足对都了英伟达Megatron,而且在疏导的硬件条目下,历练速率还要快10%。
这意味着,相通的算力,用ForgeTrain不错简陋10%的历练时候和资本。
这是一件值得被风趣的事情
看到这里,你可能以为这是一场很酷的时代秀。但透过风景看本色,面壁智能的此次发布,正在揭示大模子行业正在发生的一场巨变。
开端,大模子的竞争,正在从堆资源走向极致提着力。
已往几年,统统大模子厂商都在拼狂放出遗迹,拼参数、拼语料、拼算力、拼十万卡集群。但这条Scaling Law的路,它是有绝顶的。
当堆料走到天花板,接下来的赢输手是什么?是着力。
在相通的算力预算下,谁能产出更多的研发迭代?谁的单代研发周期更短?面壁智能的AI制造AI给出了谜底:
用AI去替代东谈主类研发管线中的叠加行状,把东谈主类数周的代码开辟压缩到几至极钟。这是独一能拒抗资源瓶颈,杀青大模子智力不绝指数级攀升的解法。
其次,AI相关员的脚色,正在发生不可逆转的更正。
在ForgeTrain这么的系统里,东谈主类的脚色正在发生迁徙。从Human in the loop(在轮回中推行具体代码)变成了Human on the loop(在轮回外进行监督和狡计)。
将来的AI科学家,不再需要躬行去写那用之欺压的CUDA算子和底层通讯逻辑。他们将变成研发系统的狡计者和守界者。他们只需要界说目标、搭建Harness,剩下的脏活累活,全交给不知困乏的AI去完成。
终末,对于国产大模子和国产芯片而言,这是弯谈超车的绝佳机会。
已往,我们评价国产大模子,眼睛老是盯着参数大小、榜单跑分、长文本智力。但委果决定一家公司、一个生态始终中枢竞争力的,其实是底层系统——分娩模子的智力。
谁能更快地历练出模子,谁能以更低的资本试错,谁就能在霸道的百模大战中活到终末。
更深切的政策道理在于国产算力生态。人所共知,华为昇腾等国产芯片在硬件算力上正在淘气追逐,但最大的短板在于软件生态。英伟达罕有以百万计的开辟者花了十五年时候踩坑、优化,这是国产芯片靠东谈主力很难在短时候内抹平的差距。
但ForgeTrain提供了一种破局的可能。
淌若东谈主不够,那就用AI来凑!通过AI自动生成适配各式新模子、新硬件的专属预历练框架,国产芯片将有机会借由AI的分娩力,极大裁减追逐外洋顶尖生态的时候差。
当AI学会了造AI,齿轮就也曾启动加快动掸。一个新的纪元,正在我们目下张开。
MiniCPM5-1B 现已全面开源:
Hugging Face连气儿:https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B
GitHub连气儿:https://github.com/OpenBMB/MiniCPM
ModelScope连气儿:https://modelscope.cn/models/OpenBMB/MiniCPM5-1B
AtomGit:https://ai.gitcode.com/OpenBMB/MiniCPM5-1B
魔乐社区:https://modelers.cn/models/OpenBMB/MiniCPM5-1B
ForgeTrain开源连气儿:https://github.com/OpenBMB/ForgeTrain(5.26晚后上线)
— 完 —
量子位 QbitAI · 头条号
眷注我们开云足球世界杯官方手机APP下载,第一时候获知前沿科技动态