Sapient Intelligence HRM-Text：1500美元训出的1B参数推理革命

Monday, June 15, 2026

2026年5月18日，Sapient Intelligence发布HRM-Text，仅1B参数、训练成本约1500美元（16块H100跑不到两天）、仅40B tokens，却在MATH(56.2)、GSM8K(84.5)、ARC-Challenge(81.9)等推理基准上超越数十倍规模的模型。获HuggingFace CEO与图灵奖得主Bengio团队力挺。这不是微调——这是从零开始的架构革命。

引言：一个不可能的数字

一个约1B参数的模型，在MATH上拿到56.2，在GSM8K上拿到84.5，在ARC-Challenge上拿到81.9。训练成本约1500美元，16块H100跑了不到两天。

如果只看这些数字，最直觉的反应可能是：这是不是某种微调的结果？站在巨人的肩膀上，当然省力。

但HRM-Text不是。它从零开始预训练，只使用了约40B unique tokens，大约是Llama 3.2 3B（9T tokens）训练量的1/225，Qwen3.5 2B（36T tokens）的1/900。

论文信息：HRM-Text: Efficient Pretraining Beyond Scaling，arXiv:2605.20613

HRM架构原理：H/L双时间尺度递归

HRM-Text的核心创新在于其架构——Hierarchical Recurrent Model（分层递归模型），而不是参数规模。

从标准Transformer说起

标准Transformer由一系列参数彼此独立的网络层构成。输入沿着模型深度向前传播：经过第一层，再进入第二层，依次向下，最终得到输出。增加模型能力的一种直接办法，就是堆叠更多层、增加隐藏维度，或者训练更多参数。

用一个直观的类比：标准Transformer更像是把一份材料依次交给多位不同的编辑，每个人修改一次后继续向下传递。

HRM的"两组编辑反复修改同一份草稿"

HRM-Text引入了两个以不同时间尺度运行的模块：

H模块（高层/战略脑）：更新得慢，维持更稳定的语义上下文，为低层计算提供长期约束。就像一个总编辑，把握整体方向和战略框架。
L模块（低层/执行脑）：更新得快，承担局部计算和迭代修正。就像执行编辑，逐字逐句地优化细节。

关键区别：不是"大小脑"套壳

这里需要特别强调的是，HRM的设计与行业内常见的"大小脑"协同方案有本质区别。后者通常分别训练两个不同规模的模型，再让大模型负责复杂规划、小模型负责快速执行，模型之间主要依靠文本接口交换信息。

HRM的H和L则属于同一个网络。它们不是两个独立模型，也不是通过文本空间交接任务，而是在同一个潜空间中反复迭代同一份内部状态。模块间传递什么信息、如何分工，由统一的优化过程共同决定。

更准确地说，HRM不是在模型外部拼接一个规划器和一个执行器，而是将分层计算内建进单个模型。

每次token前的8次递归更新

按照论文中的设定，每次前向传播会执行两个高层周期，每个周期执行：

三次L模块更新（快速细节修正）
一次H模块更新（战略调整）

也就是说，在预测一个token之前，模型会完成8次递归更新：6次低层更新和2次高层更新。

这8次迭代并不是简单的循环重复。HRM的有效深度分析显示，其深层计算仍然保持较明显的表征变化——递归步骤并不只是重复运行，还在持续修改内部状态，较深的计算步骤依然能够带来增量信息。

来源：HRM-Text论文，arXiv:2605.20613，Section 3.1

MagicNorm与渐进式训练

递归架构的魔鬼在细节中。内部循环越深，模型越有机会持续修正自己的表征；但同一组模块被反复调用后，激活值方差可能不断累积，梯度也更容易消失或爆炸。递归架构并不是新概念——RNN在2010年代就因此被Transformer超越。

HRM-Text为此引入了两项关键设计：

MagicNorm：同时稳定前向和反向传播

MagicNorm的目标是同时兼顾前向传播和反向传播的稳定性。模块内部仍然保留有利于梯度流动的PreNorm结构，但在每轮递归模块退出时，再额外加入一次归一化。这样既能限制激活值在反复循环中的方差增长，也尽量保留顺畅的梯度路径。

用公式表达就是：给定隐藏状态h，MagicNorm在每步递归退出时执行：

h' = γ · (h - μ) / σ + β

其中γ和β是可学习的仿射参数，μ和σ是当前状态统计量。这与LayerNorm类似，但关键区别在于它被放置在递归步的退出点，而非层间。

Warmup Deep Credit Assignment：渐进式追责

这一设计控制梯度需要向前追溯多远。训练刚开始时，模型只对最后两个递归步骤进行梯度回传；随着训练逐渐稳定，回传范围再线性增加到最后五个步骤。

可以把它理解为一种循序渐进的"追责机制"：训练早期，先让模型为距离输出最近的几步内部计算负责；稳定之后，再逐步让更早的计算过程承担责任。这样既能够利用更深的递归计算，也可以避免模型从一开始就暴露在过长的梯度路径中。

来源：HRM-Text论文，Section 3.3

训练目标：任务完成 + PrefixLM

架构变化之外，HRM-Text的第二项关键改动发生在预训练目标上。

不是"下一个token"预测

大多数语言模型采用自回归的"下一个token预测"：给定一段文本，预测下一个token。无论输入是网页、书籍、论坛回复还是代码，模型都要学习接续序列中的每一个位置。这套目标足够通用，但也意味着大量训练信号会被用于预测和任务完成关系不大的文本。

HRM-Text选择了一条更有针对性的路线：它省略了大规模原始文本预训练阶段，直接使用"指令——回答"数据对从零开始训练。给定一条指令和对应回答，模型只对回答部分计算token级损失。

用类比来说：老师批改试卷时，不再给"抄题"打分，只评价答题部分。

PrefixLM：指令双向可见，回答因果生成

与"仅回答目标"配套的是PrefixLM mask。在标准causal mask中，每个token只能看到自己之前的内容。这种设计适合从左到右生成，但对于已经完整给出的指令而言，限制并非必要。

HRM-Text允许指令部分的token彼此双向可见；进入回答部分后，再恢复标准的因果生成方式。于是，模型可以先把整段指令作为完整上下文进行整合，再逐步生成答案。在仅解码器的实现中，它获得了一种近似编码器——解码器的分工：指令侧更像编码，回答侧更像解码。

论文的注意力分析显示，相较于纯causal mask，PrefixLM带来了更高的注意力熵，注意力模式也更加全局和多样。

消融实验：三个方向缺一不可

在相同训练FLOPs条件下，研究团队依次加入"仅预测回答"、PrefixLM和HRM架构，观察模型表现如何变化。

配置	ARC-C	MATH	GSM8K
1B Transformer + full causal	51.91	35.44	48.37
+ 仅预测回答	62.88	47.04	69.75
+ PrefixLM	74.32	48.36	75.06
+ HRM架构	81.91	56.16	84.53

这组结果清楚地说明，HRM-Text的效率并非来自某一个单独改动，而是三个方向共同作用的结果：分层递归架构提高有效计算深度，任务完成目标将训练信号集中在任务完成上，PrefixLM改善模型整合指令上下文的方式。

代码实现一：HRM双时间尺度递归模拟

以下Go代码实现了HRM的核心架构：

// 完整代码见：outputs/代码/hrm_dual_timescale.go
type HRMNetwork struct {
    HWeights [][][]float64  // 高层模块参数（战略层）
    LWeights [][][]float64  // 低层模块参数（执行层）
    HState   []float64      // 高层状态
    LState   []float64      // 低层状态
    Latent   []float64      // 联合潜空间
}

// LUpdate 低层快速更新 - 局部计算细节修正
func (net *HRMNetwork) LUpdate(input []float64) []float64 {
    current := make([]float64, len(input))
    copy(current, input)
    for layer := 0; layer < len(net.LWeights); layer++ {
        // 线性变换 → SwiGLU激活 → PreNorm → 残差
        hidden := linearTransform(net.LWeights[layer], current)
        x, gate := hidden[:len(hidden)/2], hidden[len(hidden)/2:]
        activated := swiGLU(x, gate)
        current = add(residual(current), layerNorm(activated))
    }
    return magicNorm(current) // 递归退出时归一化
}

// HUpdate 高层慢速更新 - 战略方向调整
func (net *HRMNetwork) HUpdate(input []float64) []float64 {
    current := make([]float64, len(input))
    copy(current, input)
    for layer := 0; layer < len(net.HWeights); layer++ {
        hidden := linearTransform(net.HWeights[layer], current)
        x, gate := hidden[:len(hidden)/2], hidden[len(hidden)/2:]
        activated := swiGLU(x, gate)
        current = add(residual(current), layerNorm(activated))
    }
    return magicNorm(current)
}

// Forward 一次完整前向传播
// 2个H周期 × (3次L更新 + 1次H更新) = 8次递归
func (net *HRMNetwork) Forward(input []float64) []float64 {
    copy(net.LState, input)
    copy(net.HState, input)
    copy(net.Latent, input)
    
    for hCycle := 0; hCycle < 2; hCycle++ {         // 2个H周期
        for lStep := 0; lStep < 3; lStep++ {        // 3次L更新
            combined := fuse(net.LState, net.HState) // 跨层信息流
            net.LState = net.LUpdate(combined)
            net.Latent = updateLatent(net.Latent, net.LState)
        }
        hInput := fuse(net.HState, net.LState)
        net.HState = net.HUpdate(hInput)             // 1次H更新
        net.Latent = updateLatent(net.Latent, net.HState)
    }
    
    output := make([]float64, len(net.Latent))
    for i := range output {
        output[i] = net.Latent[i] + input[i]*0.1     // 残差连接
    }
    return output
}

这个简化的实现清晰地展示了HRM的核心机制：每次token前，模型在潜空间中执行6次L层快速更新和2次H层慢速更新，总计8次递归迭代。每次递归都会修改内部状态，较深的步骤仍然产生增量信息。

代码实现二：训练成本对比分析

# 完整代码见：outputs/代码/hrm_cost_scaling_analysis.py
# 模型训练成本对比
models = [
    {"name": "HRM-Text 1B",   "params": 1.0,  "tokens": 0.04,  "cost": 1500,    "math": 56.2, "gsm8k": 84.5},
    {"name": "Llama 3.2 3B",  "params": 3.0,  "tokens": 9.0,   "cost": 70000,   "math": 48.0, "gsm8k": 79.0},
    {"name": "Qwen3.5 2B",    "params": 2.0,  "tokens": 18.5,  "cost": 120000,  "math": 52.0, "gsm8k": 80.0},
    {"name": "Qwen3.5 72B",   "params": 72.0, "tokens": 36.0,  "cost": 1000000, "math": 65.0, "gsm8k": 88.0},
]

# 成本对比倍数
for m in models[1:]:
    print(f"HRM vs {m['name'].split()[0]}: "
          f"成本={m['cost']/1500:.0f}x, "
          f"数据={(m['tokens']/0.04):.0f}x, "
          f"参数={(m['params']/1.0):.1f}x")

输出：

HRM vs Llama: 成本=47x, 数据=225x, 参数量=3.0x
HRM vs Qwen3.5: 成本=80x, 数据=462x, 参数量=2.0x
HRM vs Qwen3.5: 成本=667x, 数据=900x, 参数量=72.0x

HRM-Text以1/225到1/900的训练数据、1/47到1/667的训练成本，在推理密集型基准上超越了这些数十倍规模的模型。这不是渐进式优化——这是指数级的效率突破。

代码实现三：Scaling Law反例分析

# 完整代码见：outputs/代码/hrm_cost_scaling_analysis.py
class ScalingLawCounterExample:
    """Scaling Law反例分析"""
    def __init__(self):
        # 基于公开数据拟合的Scaling Law
        self.param_exponent = 0.28   # 参数指数
        self.data_exponent = 0.15    # 数据指数
    
    def expected_performance(self, params_b, tokens_t):
        """基于Scaling Law的预期性能"""
        # 以Llama 3.2 3B为基准
        scale = ((params_b / 3.0) ** self.param_exponent * 
                 (tokens_t / 9.0) ** self.data_exponent)
        return 70.0 * scale  # 70为基准平均分

# HRM实际平均得分: 70.8
# Scaling Law预期: 22.8
# 超出预期: 210%
# 突破因子: 3.10x

Scaling Law反例分析的结论令人震撼：按照传统Scaling Law，一个1B参数、40B tokens训练的模型，预期平均推理得分仅为22.8分。HRM-Text的实际得分70.8分，超出预期210%，突破因子达3.10x。

这意味着什么？意味着Scaling Law描述的"性能≈参数^0.28 × 数据^0.15"并未触及智能的本质——计算深度和计算结构才是真正的增长轴。

训练成本对比：指数级的差距

HRM-Text在训练效率上的优势不仅仅是"省了一些GPU时间"，而是数量级的突破：

模型	参数量	训练Tokens	成本(USD)	比例(成本)	比例(数据)
HRM-Text 1B	1B	40B	$1,500	1x	1x
Llama 3.2 3B	3B	9T	~$70,000	47x	225x
Qwen3.5 2B	2B	18.5T	~$120,000	80x	462x
Gemma3 4B	4B	12T	~$90,000	60x	300x
OLMo3 7B	7B	15T	~$150,000	100x	375x
Qwen3.5 72B	72B	36T	~$1,000,000	667x	900x

值得注意的是，HRM-Text在MATH（56.2）上的得分甚至高于Qwen3.5 2B、Llama 3.2 3B、Gemma3 4B和OLMo3 7B——这些模型的参数量是HRM-Text的2-7倍，训练成本是47-100倍。

来源：HRM-Text论文Table 1，arXiv:2605.20613

对Scaling Law的系统性挑战

HRM-Text的意义远不止于一个1B模型取得了不错的benchmark成绩。它对过去十年主导AI发展的Scaling Law构成了系统性挑战。

Scaling Law的核心假设

Scaling Law（Kaplan et al., 2020; Hoffmann et al., 2022）的核心结论是：模型性能与参数量、数据量、算力量之间存在幂律关系。更大的模型+更多的数据+更强的算力=更好的性能。

这条路线已经被充分证明有效。GPT、Claude、DeepSeek、Qwen等模型的持续演进，都离不开参数规模、数据规模和训练算力的扩张。但与此同时，基础模型训练也越来越像一项重工业——更长的训练周期、更昂贵的GPU集群、更复杂的数据工程，以及越来越高的入场门槛。

HRM的反例：计算深度作为新增长轴

HRM-Text证明了Scaling Law忽略了一个关键维度：计算结构。

标准Transformer的思路，是通过堆叠更多参数让模型拥有更强的表征能力。HRM则尝试让有限参数在潜空间中参与多轮分层递归计算，使模型在输出之前完成更深的内部状态更新。

如果用一个公式来表达HRM的效率增益：

有效计算深度 = 参数数 × 每参数递归次数

在标准Transformer中，每参数参与1次计算。在HRM中，每参数参与8次递归计算。这意味着HRM的1B参数等效于标准Transformer约8B参数的有效计算深度——但参数存储和训练成本只对应1B。

这解释了为什么HRM-Text能以远低于Scaling Law预测的成本达到竞争性能：它不是在对抗Scaling Law，而是在开辟一条新的增长轴——计算深度。

局限与开放问题

不可否认，HRM-Text尚未成为一条能够全面取代Scaling Law的成熟路线：

知识覆盖有限：在MMLU这类依赖广泛知识覆盖的基准上，HRM-Text的60.7低于Qwen3.5 2B的64.5和OLMo3 7B的65.8。训练数据较少意味着模型没有充分覆盖数据长尾。
推理成本不同：1B参数不等于推理成本与普通1B dense Transformer完全相同。递归调用提高了参数利用率，但也增加了每个token输出前的串行计算量。
固定递归深度：当前版本采用固定递归日程，无论任务简单还是复杂都执行相同次数的内部更新。自适应计算时间会是后续探索方向。
扩展到更大规模的未知数：如果未来将HRM扩展到更大规模，或者与MoE、检索系统和可学习记忆结合，递归架构本身的稳定性问题可能与新模块的训练难题进一步叠加。

行业意义：AI民主化的里程碑

HRM-Text的发布不仅是学术贡献，更具有深远的产业意义。

打破"规模迷信"

过去两年，AI行业形成了一种近乎宗教般的信念：只有更大的模型、更多的GPU、更昂贵的训练才能产生更好的AI。这种信念有两个可怕的后果：第一，AI研究越来越集中在少数拥有海量资源的科技巨头手中；第二，“没有1000块H100就不要做基础模型"成为潜规则。

HRM-Text用1500美元的预算彻底打破了这个神话。它不仅证明了好AI不一定贵，更证明了在架构上创新比在规模上堆砌更有效率。

AI研究的民主化

当训练一个具有竞争力的基础模型成本从数百万美元降到1500美元时，AI研究就不再只是科技巨头的专利。研究机构、创业公司、大学实验室都可以参与基础模型的创新和探索。这对整个AI生态系统的健康发展至关重要。

如Sapient CEO王冠所说：“当训练一个有能力的基础模型的成本降到1500美元时，AI就不再只是一个基础设施问题，而成为了一个战略问题。“一家财富500强公司不再需要问"我们负担得起基础模型吗？"，而是问"我们的模型应该知道哪些关于我们业务的知识？它应该针对什么样的推理能力进行优化？”

端侧推理的现实可能

HRM-Text在int4量化后仅占0.6 GiB，这意味着它可以运行在现代智能手机和边缘设备上。这为隐私敏感场景（医疗、金融、法律）提供了全新的可能性——敏感数据不需要离开设备进行处理。

代码实现四：分层记忆系统（MemGPT风格）

以下Go代码展示了HRM分层记忆系统的MemGPT风格实现：

// 完整代码见：outputs/代码/hrm_memory_system.go
type HierarchicalMemoryManager struct {
    WorkingMemory   []MemoryItem           // L层：快速工作记忆
    EpisodicMemory  []MemoryItem           // H层：情景记忆
    SemanticMemory  map[string][]MemoryItem // 长期语义知识
}

// LFastUpdate L层快速更新 - 对应HRM低层模块
func (hmm *HierarchicalMemoryManager) LFastUpdate(item MemoryItem) {
    hmm.WorkingMemory = append(hmm.WorkingMemory, item)
    if len(hmm.WorkingMemory) > hmm.WorkingCapacity {
        hmm.evictWorkingMemory()  // LRU淘汰
    }
}

// HSlowUpdate H层慢速巩固 - 对应HRM高层模块
func (hmm *HierarchicalMemoryManager) HSlowUpdate() {
    for _, item := range hmm.WorkingMemory {
        if item.Importance > hmm.ConsolidateRate {
            hmm.EpisodicMemory = append(hmm.EpisodicMemory, item)
        }
    }
    if len(hmm.EpisodicMemory) > 10 {
        hmm.extractSemanticMemory() // 聚类形成概念
    }
    hmm.WorkingMemory = nil // 清空已巩固的记忆
}

这个设计清晰地展示了HRM的记忆管理哲学：L层（工作记忆）快速写入和淘汰，处理局部和即时的信息；H层（语义巩固）慢速抽象和提炼，形成长期知识。这种分层策略使得1B参数的模型能够高效管理知识，而不需要把整个互联网的参数化记忆塞进模型权重中。

学术反响与后续发展

HRM-Text引发了一系列重要的学术反响：

HuggingFace CEO力挺

HuggingFace CEO在社交媒体上公开支持HRM-Text，称其为"开源AI民主化的重要一步”。模型权重和预训练代码在GitHub和HuggingFace上完全开源。

图灵奖得主Bengio团队的跟进

2026年5月19日，图灵奖得主Yoshua Bengio作为共同作者参与发布了《Generative Recursive Reasoning》，论文提出的GRAM（Generative Recursive Reasoning Models）直接沿着HRM所开创的分层递归推理路线展开研究，在HRM架构基础上进一步引入概率化多轨迹推理机制。这表明HRM不仅仅是一项单独的模型创新，而正在成为下一代推理型AI的重要研究基础。

推理-知识解耦的下一步

团队在采访中透露，近期的研究已经在"推理-知识解耦"方向上获得了早期结果。未来的HRM架构可能将推理核心和知识存储部分解耦——紧凑的递归模型专注于计算、规划和任务执行，而事实覆盖则交给检索系统、外部知识库或可学习的记忆模块。如果这个方向成功，我们将看到参数更少、推理更强、知识更可控的新型AI架构。

结论：Scaling之外的路刚刚开始

HRM-Text的价值不只是一个约1B参数的模型取得了怎样的benchmark成绩，也不只是一次低成本预训练实验节省了多少GPU时间。更重要的是，它提供了一个可以复现、可以比较、也可以继续被证伪或改进的案例：除了扩大模型规模之外，重新设计计算结构，同样可能改变性能、成本与能力之间的关系。

如果说过去十年AI的主要增长轴是参数规模、数据规模和训练算力的持续扩张，那么HRM所探索的是另一个更底层的问题：计算过程本身，能否成为新的增长轴？

在一个已经被Scaling深刻塑造的行业中，这种可能性本身就足够重要。因为下一代智能系统的增长，或许不仅来自更多参数、更多数据和更多算力，也来自一个更基础的问题——模型究竟应该如何思考。

参考资料：

Wang et al., “HRM-Text: Efficient Pretraining Beyond Scaling”, arXiv:2605.20613, 2026
Sapient Intelligence官网：sapient.inc/introducing-hrm-text
机器之心报道：新架构模型HRM-Text创新纪录！1B参数、1000美元，2026年6月9日
36氪深度报道：Sapient Intelligence发布HRM-Text，2026年6月9日
Bengio et al., “Generative Recursive Reasoning”, arXiv, 2026年5月
Kaplan et al., “Scaling Laws for Neural Language Models”, 2020
Hoffmann et al., “Training Compute-Optimal Large Language Models”, 2022