当前位置: 首页 > news >正文

David Silver 的豪赌:$11亿种子轮、零人类数据、用自博弈造超级智能

引言

2026年4月27日,一条新闻震动了全球AI圈:

David Silver——DeepMind的首席科学家、AlphaGo的缔造者——创办的Ineffable Intelligence,以$51亿估值完成了$11亿种子轮融资。

「种子轮」和「$11亿」这两个词放在一起,本身就是一种宣言。更何况,这家公司还未公开任何一个模型或是API产品。

投资人到底在赌什么?

答案是:一种全新的AI训练范式。零人类数据。纯自博弈强化学习。目标不是「更好的LLM」,而是「超级智能」。

一、从AlphaGo到Ineffable:一条技术基因的延续

要理解Ineffable Intelligence,必须先理解David Silver的技术哲学。

Silver是强化学习领域最重要的研究者之一。他在DeepMind领导了AlphaGo项目——2016年,AlphaGo击败李世石,震惊世界。但AlphaGo真正的技术启示不是「AI能赢围棋冠军」,而是自博弈(self-play)作为一种训练范式,可以产生超越人类水平的智能行为。

AlphaGo之后,Silver领导的AlphaZero进一步验证了这个范式:不给任何人类棋谱,纯靠自我对弈,从零开始学会围棋、国际象棋和将棋——每一项都超越了所有人类和所有之前的AI。

然后是AlphaStar(星际争霸)、AlphaCode(编程竞赛)……每一次,核心方法论都是同一个:让AI与自己对抗,在对抗中进化。

现在,Silver认为时机已经成熟,可以将自博弈RL从「游戏和特定任务」扩展到「通用智能」

二、什么是「超级学习者」?

Ineffable Intelligence的核心概念叫「超级学习者」(Superlearner)。

与LLM依赖海量人类文本数据的训练方式不同,超级学习者的训练数据来自自我生成和自我验证的闭环

  1. 生成:模型提出一个问题或挑战(如:证明一个数学定理)
  2. 尝试:模型尝试解决问题
  3. 验证:在可验证的领域(数学、代码、科学),答案正确与否有客观标准
  4. 学习:从成功和失败中更新策略
  5. 增加难度:模型自动生成更难的问题,进入下一轮

这个闭环完全不需要人类标注数据。理论上,模型可以在没有任何人类输入的情况下,通过自我博弈无限提升能力。

David Silver 将此描述为「一种超越人类数据瓶颈的路径」。当前LLM范式面临的核心约束是:互联网上的高质量文本数据已经接近枯竭。而自博弈范式不受此限制——模型可以无限生成自己的训练数据。

三、为什么是现在?三个结构性条件

Silver选择在2026年创立Ineffable,不是心血来潮。三个结构性条件刚好成熟:

1. 验证式反馈的规模化

代码执行、数学证明验证、科学模拟——这些领域都有了高效、可扩展的自动验证器。模型可以知道自己是对是错,而不需要人类来告诉它。这是自博弈RL的前提条件。

2. 自博弈RL的理论进展

从AlphaGo到AlphaZero到MuZero,自博弈RL的数学框架已经相当成熟。Silver本人就是这个领域最重要的贡献者——他现在要做的,是把这套方法论从「游戏」扩展到「一切」。

3. 算力成本的结构性下降

自博弈RL的算力需求极其巨大——每一轮自我对抗都需要成百上千次模型推理。但随着专用AI芯片(NVIDIA Rubin、Google TPUv6)的推出和算力成本的持续下降,大规模自博弈在经济上变得可行。

四、竞争格局:Ineffable 与 OpenAI、Anthropic 有何不同?

维度OpenAI / AnthropicIneffable Intelligence
训练数据互联网文本 + 人类标注自生成 + 自验证
核心方法大规模预训练 + RLHF纯自博弈 RL
能力边界受限于人类数据质量理论上无限
验证方式人类偏好客观可验证标准
可解释性低(黑箱)中(可验证推理链)
商业化路径LLM API + 产品未明确

两种范式并不互斥,但底层哲学截然不同。

LLM范式相信:智能可以从人类知识的压缩中涌现。自博弈范式相信:智能可以从自我对抗的经验中涌现。

前者是「读万卷书」,后者是「行万里路」。最大的区别在于:自博弈不受人类数据天花板的限制。

五、最大的赌注与最大的风险

Ineffable Intelligence的故事很美,但它面对的风险也是巨大的:

风险1:自博弈能否泛化到「不可验证」的领域?

数学、代码、科学——这些领域的答案可以自动验证。但写一篇文章、做一个商业决策、设计一个产品——这些「开放式」任务没有客观的对错标准。自博弈在这些领域能否产生智能,是一个悬而未决的问题。

风险2:$11亿种子轮的资金纪律

历史上,拿了太多钱太早的公司往往死于资金效率低下。$11亿的种子轮意味着团队可能缺乏「资源约束驱动创新」的压力。

风险3:DeepMind的人才依赖

Ineffable的核心团队来自DeepMind(Sergey Levine、Nando de Freitas等也都传闻将加入或合作)。但这批世界顶级研究者能否在创业公司的节奏中保持产出,是个未知数。

风险4:中国团队在自博弈RL上的追赶

值得注意的是,中国团队在Agent自进化方面进展迅速。MiniMax M2.7已经展示了模型自我优化scaffold的能力,Agent-World(人大+字节)则用自进化环境训练出了超越商业模型的Agent。自博弈范式并非Ineffable的独家领地。

结语

David Silver 的 $11亿种子轮,是2026年AI行业最值得关注的技术赌注。

它代表了一种与主流LLM范式截然不同的技术信仰:智能不是从数据中学到的,而是从经验中学到的。经验不需要人类来提供——AI可以自己创造。

如果这个赌注成功,我们将见证AI从「人类知识的镜像」进化为「自主智能的火种」。

如果失败,$11亿将是科技史上最贵的一堂RL课程。

无论哪种结果,David Silver的故事都将被写进AI的教科书。


本文基于CNBC、Sequoia Capital公告、Ineffable Intelligence公开信息、David Silver的学术论文等资料整理分析。

http://www.cnnetsun.cn/news/2420060.html

相关文章:

  • layerJS快速入门:10分钟学会构建交互式动画UI的终极指南
  • 10个使用Engineer Vocabulary List的高效学习技巧
  • Atlas TSDF技术揭秘:如何实现精准的3D几何表示
  • 为什么你的Windows系统总是越用越慢?Winhance中文版终极解决方案
  • AI教师分身应用:教育行业AI落地的终极实践指南 [特殊字符]
  • 抖音弹幕抓取工具DouyinBarrageGrab:3步实现实时弹幕数据采集与分析
  • 植物大战僵尸 (火影版 植物娘版 二战版)官方正版2026最新版pc免费下载(看到请立即转存 资源随时失效)手机版通用
  • 【信息科学与工程学】信息科学领域工程——第十一篇 数据库基础 10 算法系列(1)
  • txAdmin 终极指南:FiveM服务器管理的完整技术解决方案
  • BERTScore与其他评估指标对比:BLEU、ROUGE和METEOR的优劣分析
  • C++编解码库中的位流处理与边界校验
  • 鲸鱼蜣螂算法光伏MPPT优化技术【附代码】
  • Unity游戏开发实战:用EnhancedScroller插件5分钟搞定一个可复用的排行榜UI模块
  • Code-LMs代码生成技巧:温度参数调节与提示工程优化策略
  • 一次 PR 真实成本差42倍:我用Token 账单算清4 个AI 编程 Agent怎么选
  • Spring Data Redis流处理:Redis Streams在现代应用中的10个实战场景
  • tabtoy安全配置指南:使用TagAction实现客户端与服务器数据分离
  • layerJS与现代前端框架集成:Vue、React、Angular中的最佳实践指南 [特殊字符]
  • 如何在5分钟内掌握Unity GLTF导入:GLTFUtility完整使用指南
  • 借助模型广场与用量分析实现AI调用成本优化
  • Pydantic序列化进阶:自定义与性能优化实战
  • Ace-Translate终极指南:构建本地离线翻译工作流的完整解决方案
  • 多载波功放功率检测:从二极管峰值检波到真有效值方案的工程实践
  • 英特尔IDM 2.0战略解析:从Arm收购迷思到晶圆代工突围
  • 3大秘籍终结RGB灯光控制混乱:OpenRGB一站式解决方案实战
  • Winhance中文版:Windows系统优化管理工具的终极完整指南
  • 如何在Windows上实现实时屏幕绘图的终极解决方案
  • 告别风扇噪音与高温:FanControl让你的Windows电脑安静又冷静
  • ElevenLabs儿童语音合成性能瓶颈真相:RTF超限、情感延迟>380ms、多语种混读失真——用TensorRT加速+声学缓存双引擎压测实录
  • ElevenLabs粤语TTS落地全链路:从API密钥配置、声线微调到合规播音的5步闭环流程