当前位置：首页 > news >正文

David Silver 的豪赌：$11亿种子轮、零人类数据、用自博弈造超级智能

news 2026/6/5 20:42:56

2026年4月27日，一条新闻震动了全球AI圈：

David Silver——DeepMind的首席科学家、AlphaGo的缔造者——创办的Ineffable Intelligence，以$51亿估值完成了$11亿种子轮融资。

「种子轮」和「$11亿」这两个词放在一起，本身就是一种宣言。更何况，这家公司还未公开任何一个模型或是API产品。

投资人到底在赌什么？

答案是：一种全新的AI训练范式。零人类数据。纯自博弈强化学习。目标不是「更好的LLM」，而是「超级智能」。

要理解Ineffable Intelligence，必须先理解David Silver的技术哲学。

Silver是强化学习领域最重要的研究者之一。他在DeepMind领导了AlphaGo项目——2016年，AlphaGo击败李世石，震惊世界。但AlphaGo真正的技术启示不是「AI能赢围棋冠军」，而是自博弈（self-play）作为一种训练范式，可以产生超越人类水平的智能行为。

AlphaGo之后，Silver领导的AlphaZero进一步验证了这个范式：不给任何人类棋谱，纯靠自我对弈，从零开始学会围棋、国际象棋和将棋——每一项都超越了所有人类和所有之前的AI。

然后是AlphaStar（星际争霸）、AlphaCode（编程竞赛）……每一次，核心方法论都是同一个：让AI与自己对抗，在对抗中进化。

现在，Silver认为时机已经成熟，可以将自博弈RL从「游戏和特定任务」扩展到「通用智能」。

Ineffable Intelligence的核心概念叫「超级学习者」（Superlearner）。

与LLM依赖海量人类文本数据的训练方式不同，超级学习者的训练数据来自自我生成和自我验证的闭环：

这个闭环完全不需要人类标注数据。理论上，模型可以在没有任何人类输入的情况下，通过自我博弈无限提升能力。

David Silver 将此描述为「一种超越人类数据瓶颈的路径」。当前LLM范式面临的核心约束是：互联网上的高质量文本数据已经接近枯竭。而自博弈范式不受此限制——模型可以无限生成自己的训练数据。

Silver选择在2026年创立Ineffable，不是心血来潮。三个结构性条件刚好成熟：

1. 验证式反馈的规模化

代码执行、数学证明验证、科学模拟——这些领域都有了高效、可扩展的自动验证器。模型可以知道自己是对是错，而不需要人类来告诉它。这是自博弈RL的前提条件。

2. 自博弈RL的理论进展

从AlphaGo到AlphaZero到MuZero，自博弈RL的数学框架已经相当成熟。Silver本人就是这个领域最重要的贡献者——他现在要做的，是把这套方法论从「游戏」扩展到「一切」。

3. 算力成本的结构性下降

自博弈RL的算力需求极其巨大——每一轮自我对抗都需要成百上千次模型推理。但随着专用AI芯片（NVIDIA Rubin、Google TPUv6）的推出和算力成本的持续下降，大规模自博弈在经济上变得可行。