title: "Mythos 要被复刻了?OpenMythos 爆火背后,AI 推理路线可能要变了"
type: article
author: 棉花云
source_url: https://m.toutiao.com/article/7630364109338345984/
published: 2026-04-19
primary_topic: ai-architecture
secondary_topics:


Mythos 要被复刻了?OpenMythos 爆火背后,AI 推理路线可能要变了

来源: 今日头条 - 棉花云
发布时间: 2026-04-19 15:11
原文链接: https://m.toutiao.com/article/7630364109338345984/


一夜爆火,OpenMythos 为什么突然出圈

这两天,AI 圈一个新项目突然刷屏,它叫 OpenMythos。表面看,这只是一个刚上线不久的 GitHub 仓库,但它踩中的点太敏感了。它瞄准的不是普通模型复现,而是外界一直高度好奇、却始终没有公开真身的 Claude Mythos。

很多人第一次看到这个项目时,反应都差不多,以为是 Anthropic 的什么内部代码泄露了。可仔细一看并不是。作者说得很清楚,OpenMythos 是一个基于公开研究资料和外部推测做出的"理论性重建",和 Anthropic 没有官方关系。也正因为这样,它才更值得看,因为它把一件原本停留在猜测层面的事,第一次做成了能跑、能读、能研究的代码。

它到底想复现什么

OpenMythos 想复现的,不是一个普通大模型外壳,而是一种可能和现有 Transformer 不太一样的推理结构。

我们现在熟悉的大模型,大多都是固定深度。模型有多少层,输入一进来就老老实实从头算到尾,简单问题和复杂问题基本走的是同一条路。可 OpenMythos 提出的思路不一样,它认为更强的模型,可能不是单纯靠层数越堆越高、参数越做越大,而是让同一段计算模块可以循环执行很多轮。

你可以把它理解成,普通模型像是做题时只允许你看一遍题就交卷,而这种架构更像是允许你在脑子里反复推演几轮,再把答案说出来。问题越复杂,内部循环就越深,推理也越充分。

这件事为什么重要

OpenMythos 最吸引人的地方,不是"像 Claude",而是它代表了一种很可能影响下一代模型的方向,也就是"循环深度推理"。

过去几年,行业默认的升级逻辑很直接,就是堆参数、堆数据、堆算力。但这条路越来越贵,也越来越接近边际递减。于是大家开始重新思考一个问题,模型变强,能不能不只靠变大,还靠"想得更久一点"。

OpenMythos 给出的答案是,可以试试把模型做成 Recurrent-Depth Transformer。说白了,就是模型内部存在一个可循环的推理块,同一套权重会被重复使用,每多循环一次,就相当于多进行一轮内部思考。这样做最诱人的一点是,参数规模不一定同步膨胀,但推理深度可以随着任务难度增加。

换句话说,未来更强的 AI,也许不是"身体更大",而是"脑内推演更多轮"。

项目结构,和普通模型有什么不一样

从仓库代码看,OpenMythos 把整体结构分成了三段,分别是 Prelude、Recurrent Block 和 Coda。

Prelude 负责先对输入做一次常规编码,你可以理解成先把题目看明白。真正的核心在中间的 Recurrent Block,它不是只过一遍,而是可以循环很多次,每次都在前一轮状态基础上继续更新,同时保留对原始输入的注入,避免模型越想越偏。最后进入 Coda,做收尾和输出。

这套设计最关键的变化就在于,中间这段不再是固定一次通过,而是"按需多想几轮"。这和传统显式输出思维链不太一样。它不是把每一步推理都吐成文字给你看,而是在潜在空间里悄悄完成更深层的推演。

说得更直白一点,就是从"把思考写出来"转向"在内部真的多思考"。

它为什么看起来不像个玩票项目

OpenMythos 能引发关注,还有一个原因是它不是只抛概念,而是把很多严肃研究思路都塞进了代码里。

首先,它支持 GQA 和 MLA 两种注意力机制。前者是大家已经较熟悉的高效注意力方案,后者则更偏向用低秩方式压缩缓存,减少推理时的显存开销。其次,它在循环块里用了 MoE,也就是混合专家结构,让不同 token 可以按需调用不同专家,提升效率。再往下,它还加了 ACT,也就是自适应计算时间,让模型不一定每次都跑满最大循环次数,而是根据状态决定什么时候停下来。

这点非常重要,因为循环推理不是越多越好。循环太多,模型可能出现"想过头"的问题,反而把答案带偏。OpenMythos 试图解决的,正是"既能多想,又别乱想"。

更值得一提的是,它还认真处理了训练稳定性。循环模型最怕状态发散,算着算着就炸了。项目里专门用了带稳定性约束的注入机制,希望把谱半径控制在安全范围内,尽量避免训练崩掉。能看到这一步,说明作者并不是随手拼个热门词条仓库,而是真的在对照近年循环 Transformer 研究往下做。

OpenMythos 真能复刻 Claude Mythos 吗

这件事必须泼点冷水。至少从目前看,不能下这个结论。

OpenMythos 的准确定位,更像是"高质量猜想的代码化版本",而不是 Claude Mythos 的真实开源替身。它提供的是一种可能性,一种基于公开论文、行业线索和研究逻辑搭出来的推理架构原型。它有探索价值,但不等于已经证实 Anthropic 就是这么做的。

所以真正该关注的,不是"它是不是 Claude 本体",而是"如果未来顶级模型真往这条路走,OpenMythos 可能是第一批把这条路讲明白、做出来的人"。

AI 下一轮竞赛,可能真的要变了

OpenMythos 的爆火,本质上说明一件事,大家对下一代模型的期待,已经不只是参数更大、跑分更高,而是想知道,AI 有没有可能在内部形成一种更像"深度思考"的机制。

如果这条路最终被验证有效,那么 AI 的竞争重点就会发生变化。比拼的可能不再只是模型有多大,而是它能否在有限参数下,把推理深度、计算分配和泛化能力做得更聪明。

这也是 OpenMythos 最值得讨论的地方。它不一定已经回答了未来,但它至少把那个问题,第一次认真地摆在了所有人面前。