

机器之心发布
Mythos 被禁了。

Anthropic 阿谁让硅谷集体千里默的模子,好意思国政府不让卖给中国。X 平台上有东说念主径直问马斯克:中国什么时期能追上?Musk 说九个月。智谱首席科学家唐杰回了一句:用不了那么久。

GLM-5.2 刚发布,评测全面迫临前沿,基座差距在肉眼可眼光收窄。唐杰的底气粗略率来自于此。但咱们更暖和另一个问题:追上 Mythos,光靠基座迭代够不够?
不够。OpenAI 从 GPT-4 到 o1,中枢增量来后来查验。Anthropic 的 Constitutional AI,试验是后查验步地论。基座决定上限,后查验决定你能摸到上限的几许。事实上,GLM 从 5.1 到 5.2 的能力越过,自己便是后查验的得手。
而这恰恰引出一个关节事实:恰恰两周前,机器之心报说念了一家特意作念大模子后查验的团队:Mind Lab,附庸于 Mindverse(心洲科技)。从 HuggingFace 的数据来看,他们现时是环球唯逐个家完成了 GLM-5.1/5.2 系列后查验的外部团队。 他们基于 GLM-5.1 后查验的模子 Macaron-V1-Preview,评测截止依然卓越了基座自己,提分幅度不小。
这意味着什么?淌若 GLM 基座能力继续往上走,Mind Lab 在后查验上已熏陶证过的提分能力再访佛上去,通事后查验路子追平 Mythos 级别的智能,Mind Lab 不异有契机。
但此次看到唐杰那条回帖,咱们再行去看了一眼 GLM 的后查验生态。发现的事情挺立志东说念主心的。
去 HuggingFace 上翻了一圈
从 HuggingFace 上看来,Mind Lab 现时仍然是环球唯逐个家,完成了 GLM-5.1/5.2 系列模子后查验的实验室。 GLM-5.1 的 finetune 和 adapter 分类下,翻来翻去便是他们一家作念已矣全进程并公设立布。

一个有酷好的细节:HuggingFace 上 GLM-5.1 后查验模子下载量排第四的,其实是另一个团队(inferencerlabs)对 Macaron 作念量化后不错径直开动在 Mac 上版块。别东说念主的模子依然在被二次加工和传播了,生态影响力在自愿酿成。

GLM-5.2 发布之后咱们又去看了,Mind Lab 不异是第一个告示复古并启动后查验的。值得一提的是,2026美加墨世界杯中国官方网页版GLM-5.2 引入了一个全新的架构想象 IndexCache,这是该版块分袂于 5.1 的中枢时刻变化之一。Mind Lab 依然完成了对 IndexCache 的齐备适配,并将有策画径直开源了出来。新基座刚发布,中枢新架构的查验复古就依然到位并开源,这个反馈速率自己就评释问题。更早之前,他们在时刻博客里就露馅了对 DSA(动态疏淡详实力)和 MTP(多 token 瞻望)这些 700B 以上模子私有架构模块的适配有策画。
从架构适配到查验框架再到开源发布,每次 GLM 出新版,Mind Lab 跟进的速率皆是按天算的,这不是临时急时江心补漏能作念到的事。

后查验提了几许分
上一轮的收货单依然摆在那处了。
先前基于 GLM-5.1 的后查验,Mind Lab 的提分幅度特地可不雅:PinchBench 从 GLM-5.1 基座的 76.6 分晋升到 Macaron-V1-Preview 的 92.5 分,涨了 15.9 分,相对晋升约 20.8%;Terminal-Bench 2.0 从 63.5 分晋升到 67.4 分,涨了 3.9 分。这个幅度评释一件事:GLM 系列的基座能力远莫得被充分开释,斗球直播后查验还有很大的提分空间。

现时他们搬到了 GLM-5.2 上。5.2 比 5.1 基座能力有权贵跃升,后查验能开释的空间也随着变大。
GLM5.1 到 5.2 的越过,试验上便是后查验的得手。而 Mind Lab 是现时唯一具备 GLM5.1/5.2 后查验能力的外部团队,而且是现时唯一具备 GLM5 系列后查验能力的外部团队。智谱的基座能力还在抓续往上走,年底粗略率会发布新一代模子。到阿谁时期,基座自己的能力跨了一大步,Mind Lab 在后查验上积贮的提分能力再访佛上去,逻辑链条是连合的,Mind Lab 不异有契机追平 Mythos 同等水平的智能。
百家乐2026世界杯中国官方下载而且有少许容易被刻薄:作念后查验的团队,迭代周期自然比作念基座的短。基座查验动辄几个月,后查验的周期是按周算的。新基座一出来,后查验团队表面上不错比基座团队我方更快地把能力开释出来。在「从智谱新基座到 Mythos 级别居品」这段路上,Mind Lab 的节拍可能比你念念象的快,因为他们只押这一件事。
除了智谱我方,唯独他们
既然后查验价值这样大,为什么作念的东说念主这样少?
门槛不低。三个能力不能偏废:
对基座架构的深度相识。GLM 使用的 MTP 和 DSA 皆是在 700B 以上模子才用到的时刻,indexcache 更是复古 GLM5.2 查验到 1M 高下文的关节时刻,不是拿开源查验框架径直跑得通的。
高质料查验数据的构造能力。后查验和预查验用的数据实足不同,不是范畴取胜,而是质料和结构取胜。这部分的 know-how 在行业里高度不透明。
工程基础措施。大模子后查验不异吃算力,不异需要邃密无比到每个超参数的查验政策责罚。就在最近,Mind Lab 径直开源了一套复古 GLM-5.1 和 5.2 的 Megatron 查验框架。 这意味着他们不仅仅在现存框架上作念适配,而是从查验基础措施层面把 GLM 系列的后查验链路买通了,而这个工程量自己便是通盘很高的门槛。
GLM-5.1 发布到现时不短了,HuggingFace 上作念完后查验并开源的唯唯一家。除了智谱我方除外,Mind Lab 是现时唯一展现出有能力在 GLM 最新基座上作念后查验的外部团队。 这个位置自己便是稀缺的。

九个月够不够
Mythos 被禁,中国念念用上同等能力只可靠自研。马斯克说九个月。唐杰说用不了那么久。
唐磨真金不怕火默示,作念出中国的 Mythos,需要两条腿走路,即基座预查验迭代和后查验模子的自我迭代。智谱在前者的位置很明确,此后者的位置上,Mind Lab 是现时除智谱除外唯一交出公开服从、何况抓续在 GLM 最新基座上迭代的团队。
后查验赛说念在国内还莫得得到满盈关注。大部分询查集中在基座之争:谁的参数多、谁的评测高、谁又发了新版块。但当基座差距逐渐收窄,后查验的质料会越来越成为居品体验的分水岭。
九个月够不够,咱们不笃定。但有一件事是笃定的:在 GLM5.1/5.2 的后查验路子上,现时唯一看得到旅途、何况依然用收货评释注解过提分能力的外部团队,便是 Mind Lab。Mythos 级的智能不是唯独预查验一条路能到,后查验这条路上,Mind Lab 依然站在了最近的位置。
这件事,立志东说念主心。
© THE END
转载请筹商本公众号得回授权
投稿或寻求报说念:[email protected]斗球2026世界杯赛事直播入口