title: "Mythos 要被复刻了？OpenMythos 爆火背后，AI 推理路线可能要变了"
type: article
author: 棉花云
source_url: https://m.toutiao.com/article/7630364109338345984/
published: 2026-04-19
primary_topic: ai-architecture
secondary_topics:

deep-learning
model-optimization
tags:
OpenMythos
Claude
Recurrent-Depth Transformer
循环推理
MoE
ACT
entities:
OpenMythos
Claude Mythos
Anthropic
GitHub

Mythos 要被复刻了？OpenMythos 爆火背后，AI 推理路线可能要变了

来源: 今日头条 - 棉花云
发布时间: 2026-04-19 15:11
原文链接: https://m.toutiao.com/article/7630364109338345984/

一夜爆火，OpenMythos 为什么突然出圈

这两天，AI 圈一个新项目突然刷屏，它叫 OpenMythos。表面看，这只是一个刚上线不久的 GitHub 仓库，但它踩中的点太敏感了。它瞄准的不是普通模型复现，而是外界一直高度好奇、却始终没有公开真身的 Claude Mythos。

很多人第一次看到这个项目时，反应都差不多，以为是 Anthropic 的什么内部代码泄露了。可仔细一看并不是。作者说得很清楚，OpenMythos 是一个基于公开研究资料和外部推测做出的"理论性重建"，和 Anthropic 没有官方关系。也正因为这样，它才更值得看，因为它把一件原本停留在猜测层面的事，第一次做成了能跑、能读、能研究的代码。

它到底想复现什么

OpenMythos 想复现的，不是一个普通大模型外壳，而是一种可能和现有 Transformer 不太一样的推理结构。

我们现在熟悉的大模型，大多都是固定深度。模型有多少层，输入一进来就老老实实从头算到尾，简单问题和复杂问题基本走的是同一条路。可 OpenMythos 提出的思路不一样，它认为更强的模型，可能不是单纯靠层数越堆越高、参数越做越大，而是让同一段计算模块可以循环执行很多轮。

你可以把它理解成，普通模型像是做题时只允许你看一遍题就交卷，而这种架构更像是允许你在脑子里反复推演几轮，再把答案说出来。问题越复杂，内部循环就越深，推理也越充分。

这件事为什么重要

OpenMythos 最吸引人的地方，不是"像 Claude"，而是它代表了一种很可能影响下一代模型的方向，也就是"循环深度推理"。

过去几年，行业默认的升级逻辑很直接，就是堆参数、堆数据、堆算力。但这条路越来越贵，也越来越接近边际递减。于是大家开始重新思考一个问题，模型变强，能不能不只靠变大，还靠"想得更久一点"。

OpenMythos 给出的答案是，可以试试把模型做成 Recurrent-Depth Transformer。说白了，就是模型内部存在一个可循环的推理块，同一套权重会被重复使用，每多循环一次，就相当于多进行一轮内部思考。这样做最诱人的一点是，参数规模不一定同步膨胀，但推理深度可以随着任务难度增加。

换句话说，未来更强的 AI，也许不是"身体更大"，而是"脑内推演更多轮"。

项目结构，和普通模型有什么不一样

从仓库代码看，OpenMythos 把整体结构分成了三段，分别是 Prelude、Recurrent Block 和 Coda。

Prelude 负责先对输入做一次常规编码，你可以理解成先把题目看明白。真正的核心在中间的 Recurrent Block，它不是只过一遍，而是可以循环很多次，每次都在前一轮状态基础上继续更新，同时保留对原始输入的注入，避免模型越想越偏。最后进入 Coda，做收尾和输出。

这套设计最关键的变化就在于，中间这段不再是固定一次通过，而是"按需多想几轮"。这和传统显式输出思维链不太一样。它不是把每一步推理都吐成文字给你看，而是在潜在空间里悄悄完成更深层的推演。

说得更直白一点，就是从"把思考写出来"转向"在内部真的多思考"。

它为什么看起来不像个玩票项目

OpenMythos 能引发关注，还有一个原因是它不是只抛概念，而是把很多严肃研究思路都塞进了代码里。

首先，它支持 GQA 和 MLA 两种注意力机制。前者是大家已经较熟悉的高效注意力方案，后者则更偏向用低秩方式压缩缓存，减少推理时的显存开销。其次，它在循环块里用了 MoE，也就是混合专家结构，让不同 token 可以按需调用不同专家，提升效率。再往下，它还加了 ACT，也就是自适应计算时间，让模型不一定每次都跑满最大循环次数，而是根据状态决定什么时候停下来。

这点非常重要，因为循环推理不是越多越好。循环太多，模型可能出现"想过头"的问题，反而把答案带偏。OpenMythos 试图解决的，正是"既能多想，又别乱想"。

更值得一提的是，它还认真处理了训练稳定性。循环模型最怕状态发散，算着算着就炸了。项目里专门用了带稳定性约束的注入机制，希望把谱半径控制在安全范围内，尽量避免训练崩掉。能看到这一步，说明作者并不是随手拼个热门词条仓库，而是真的在对照近年循环 Transformer 研究往下做。

OpenMythos 真能复刻 Claude Mythos 吗

这件事必须泼点冷水。至少从目前看，不能下这个结论。

OpenMythos 的准确定位，更像是"高质量猜想的代码化版本"，而不是 Claude Mythos 的真实开源替身。它提供的是一种可能性，一种基于公开论文、行业线索和研究逻辑搭出来的推理架构原型。它有探索价值，但不等于已经证实 Anthropic 就是这么做的。

所以真正该关注的，不是"它是不是 Claude 本体"，而是"如果未来顶级模型真往这条路走，OpenMythos 可能是第一批把这条路讲明白、做出来的人"。

AI 下一轮竞赛，可能真的要变了

OpenMythos 的爆火，本质上说明一件事，大家对下一代模型的期待，已经不只是参数更大、跑分更高，而是想知道，AI 有没有可能在内部形成一种更像"深度思考"的机制。

如果这条路最终被验证有效，那么 AI 的竞争重点就会发生变化。比拼的可能不再只是模型有多大，而是它能否在有限参数下，把推理深度、计算分配和泛化能力做得更聪明。

这也是 OpenMythos 最值得讨论的地方。它不一定已经回答了未来，但它至少把那个问题，第一次认真地摆在了所有人面前。