当前位置: 首页 > news >正文

「Dynamia 密瓜智能」主导 HAMi-core 接入 KAI Scheduler,补齐 GPU 共享生产级硬隔离

导语:

KAI Scheduler 源自 Run:ai 核心调度引擎,由 NVIDIA 开源,并已进入 CNCF Sandbox。此次由「Dynamia 密瓜智能」主导发起的 HAMi-core 相关集成进入 KAI Scheduler 主干,为其 GPU sharing 能力补上运行时显存硬隔离。

过去一年,企业对 AI 基础设施的压力正在从"训练大模型"转向"持续运行 AI 应用"。当 Agent、知识库问答、多模态应用和推理服务进入企业生产系统,GPU 的问题已经不只是"够不够",而是"能不能被安全地共享"。GPU sharing 可以提高利用率,但如果调度器分配了显存额度,容器运行时却仍然能看到完整 GPU 显存,共享就还停留在"协作式约束",而不是生产级隔离。

正是围绕这一生产问题,HAMi-core 接入 KAI Scheduler 并补上运行时显存硬隔离能力。这远不是一次单点的技术适配,而是「Dynamia 密瓜智能」、HAMi 开源社区与 KAI Scheduler 社区长期技术协同的结果。早在 2025 年 4 月 KubeCon + CloudNativeCon Europe 2025 期间,「Dynamia 密瓜智能」创始人兼 CEO 张潇、联合创始人兼 CTO 李孟轩便带领其主要发起的 HAMi 项目,与 Run:ai / KAI Scheduler 社区围绕 AI 工作负载调度、GPU 共享和资源隔离展开交流。随后,相关合作脉络沉淀在 KAI Scheduler 社区 PR #60「Resource isolation design」中,并围绕资源隔离架构、组件边界、部署模型、API 设计、用户文档和端到端验证持续推进。

从 Run:ai 被收购、KAI Scheduler 开源并进入 CNCF,到 HAMi-core 集成进入主干,这条时间线也解释了此次合作为什么不是一次孤立适配。这次集成的价值,不只在于 HAMi-core 被 KAI Scheduler 采用,更在于它把"资源隔离"落到了生产链路中:调度完成之后,如何确保每个工作负载在容器运行时真正遵守显存边界。

补齐生产级 GPU 共享的关键短板:显存硬隔离

KAI Scheduler 是 CNCF Sandbox 项目,也是 Kubernetes 原生 AI 工作负载调度器。它面向大规模 AI 集群中的训练、推理和多团队资源共享场景,支持 Gang Scheduling、层级队列、公平调度、GPU 分片共享、拓扑感知和弹性工作负载等能力。

简单说,KAI Scheduler 解决的是企业 AI 平台如何在有限 GPU 资源下,把任务排得更公平、更稳定、更少浪费。

但在 GPU sharing 场景中,调度能力解决的是"任务放在哪里、分多少资源"。KAI Scheduler 的 GPU 分片共享(Fractional GPU)可以让多个工作负载按比例或按显存大小共享同一张 GPU;如果缺少运行时隔离,任务真正跑起来后仍可能越界。

也就是说,调度器可以把账算清楚,却不一定能在容器运行时拦住超额使用。这个差别在测试环境里不明显,但到了多团队、多租户的生产平台,就会变成稳定性和责任边界问题。

常见风险包括:

  • 工作负载可能超额使用显存,引发 OOM 或影响同卡其他任务。
  • 租户之间缺乏真正的资源边界,平台难以形成稳定的服务承诺。
  • GPU 共享虽然提高了利用率,但也增加了故障定位和责任划分难度。

HAMi-core 的价值就在这里。它通过 CUDA 拦截库,在容器级别实现 GPU 显存和算力隔离。接入后,KAI Scheduler 负责完成 AI 工作负载调度,HAMi-core 在运行时对显存使用边界进行强制约束。此次集成对象严格来说是 HAMi-core,而不是完整 HAMi 平台。KAI Scheduler 保留自身调度能力,引入 HAMi-core 提供 GPU Memory Isolation 能力。双方形成的是一种清晰、松耦合、可持续演进的技术协作关系。

这种分工对企业客户尤为重要。KAI Scheduler 不需要放弃自身调度体系,HAMi-core 也不需要替代调度器角色。双方围绕各自最擅长的能力形成闭环,使企业在使用 GPU sharing 时既能获得更高资源利用率,也能获得更清晰的隔离边界。

这使 GPU sharing 从"调度层面的资源分配",进一步进入"运行时层面的硬隔离"。对企业 AI 平台来说,GPU 共享才更接近可以稳定上线、持续运营的能力。

对 KAI Scheduler 社区而言,HAMi-core 补足了 GPU sharing 在资源隔离上的关键能力。对 HAMi 生态而言,进入 KAI Scheduler 主干使其 GPU 显存硬隔离能力进入更主流的云原生 AI 调度链路,后续可在更复杂的多租户场景中接受验证。

对企业市场的价值:降低 GPU 共享进入生产环境的风险

随着训练、推理、微调和 Agent 应用进入企业生产系统,GPU 集群正在变成多团队、多租户、多类型任务共同使用的基础设施。平台团队关心的不只是"还有多少 GPU",而是"这些 GPU 能不能被稳定、公平、可追责地共享"。

GPU sharing 是提升资源利用率的重要方向,但企业是否敢于在生产环境中大规模启用 GPU sharing,取决于平台能否回答三个问题。

第一,平台能否限制单个任务的真实显存使用,而不是只记录申请值?

第二,某个租户或任务越界时,是否会影响同卡其他任务?

第三,平台团队能否基于这些边界形成可解释、可追责的服务承诺?

这次集成直接回应的是这三个问题。KAI Scheduler 解决"任务如何被公平放到合适的 GPU 上",HAMi-core 解决"任务运行后是否真的守住显存边界"。两者结合后,GPU 共享不只是节省成本,也更接近企业平台可长期运营的能力。

对「Dynamia 密瓜智能」而言,这个位置也更清楚:HAMi 提供开源 GPU 虚拟化与异构算力治理底座,公司围绕企业级部署、兼容适配、可观测、运维支持和商业交付,推动这些能力进入真实 AI 基础设施场景。

对 HAMi 生态和「Dynamia 密瓜智能」的意义

从 HAMi 生态角度看,HAMi-core 被 KAI Scheduler 采用,是一次明确的技术路线验证。它说明 CUDA 拦截与 GPU 显存硬隔离这类底层能力,已经被纳入生产级 GPU sharing 的关键链路。

它带来的变化可以概括为两点。

第一,验证 HAMi 技术路线的生产价值

GPU 显存隔离是底层能力,但它直接影响企业能否安全启用 GPU sharing。KAI Scheduler 社区引入 HAMi-core 补足资源隔离能力,说明 HAMi-core 在这一问题上的技术路径具备现实生产价值。

第二,增强「Dynamia 密瓜智能」面向企业市场的商业信任

HAMi 是开源技术底座,「Dynamia 密瓜智能」是企业级产品化、生产落地、生态适配与商业服务主体。此次合作把 HAMi 的开源技术影响力,与「Dynamia 密瓜智能」的企业级交付价值连接起来,也为企业客户评估 GPU 共享方案提供了更清晰的参考。

结语:GPU 共享的下一步,是从"能分配"走向"可治理"

当 AI 工作负载进入生产系统,GPU 共享的核心问题已经不只是"能不能分",而是"分出去之后能不能守住边界"。HAMi-core 接入 KAI Scheduler,把调度、共享和运行时隔离放进同一条生产链路中,也释放出一个更清晰的行业信号:AI 基础设施的竞争,正在从单点资源效率,走向面向多租户、多任务和异构算力的系统化治理能力。


HAMi 是 CNCF 托管的开源项目与社区,核心方向是 GPU 虚拟化与异构算力调度,面向 AI 场景提升算力利用效率;其目标是实现 灵活、按需、弹性、可靠 的 GPU 虚拟化,并持续扩展对主流 AI 芯片生态的支持。

「密瓜智能(Dynamia) 」专注 GPU 虚拟化与异构算力调度,发起并主导 CNCF 开源项目 HAMi;同时基于 HAMi 提供商业发行版、企业产品与服务,帮助用户在真实业务中规模化使用相关能力

官网:dynamia.ai

邮箱:info@dynamia.ai

HAMi 项目地址:https://github.com/project-hami/hami

原文地址:https://mp.weixin.qq.com/s/aJ5D5EqGWb2bd2QOlR5MPg

本文作者「Dynamia密瓜智能」

本文侧重介绍此次生态合作的行业背景、企业价值与战略意义。完整技术实现、安装方式、参数配置和使用方法,可前往 HAMi 社区阅读技术版文档:https://project-hami.io/zh/blog/hami-core-adopted-by-nvidia-kai-scheduler

http://www.cnnetsun.cn/news/3035881.html

相关文章:

  • 【华为OD机试真题 新系统】1029、字符串处理 | 机试真题+思路参考+代码解析(C++、Java、Py、C语言、JS)
  • 零门槛部署Teable:PostgreSQL驱动的无代码数据协作平台终极指南
  • Python dumps,dump区别,以及详细用法
  • Bifrost:三星用户的固件管家,让刷机变得像点外卖一样简单
  • 3分钟掌握SuperImage:让手机上的模糊照片瞬间变清晰的AI神器
  • 3小时从零到精通:Ryujinx Switch模拟器终极使用手册
  • 三分钟搞定黑苹果:OpCore Simplify终极配置指南
  • 大模型 API 返回内容太短的完整排查:max_tokens、stop、stream 与上下文窗口配置
  • 山东春考网课:让备考更高效,让升学更有方向
  • 人工智能模型应用期末大作业|基于Flask实现带可视化前端的智能简历筛选系统
  • 企业公开信用信息处理,为什么要先做数据源拆解?
  • 职场成长内容平台哪个好用?工作忙想学方法,可以优先体验帆书
  • STM32的GPIO输出速率配置,从寄存器说起
  • DNS服务器到底部署在哪?浏览器域名解析全过程,一步不落讲透
  • 零壹教育:吃透Python基础逻辑,比死记语法更重要
  • 机器学习之集成学习AdaBoost
  • Crypto Lifeline:当“加密大佬”为你打工
  • 用数据说话 降AI率平台深度测评与推荐
  • 人生没有“标准答案”,唯一的标准是“跑得通”
  • 垂直领域真的需要给ai特定的某些东西吗?
  • 传统年轻人只爱潮牌,编程统计20到30岁新中式通勤服饰消费数据,验证国风成熟穿搭受众规模。
  • 系统门窗水密性等级标准(GB/T 8478-2020):500-700Pa抗风雨性能分析
  • Node| 如何创建一个自定义的验证中间件?
  • 第53篇:验证码识别 - CNN与深度学习实战
  • 第55篇:代理池架构与IP管理策略
  • 第60篇:爬虫安全与合规实战
  • 影刀RPA新手教程:OCR文字识别完全指南——让影刀读懂图片里的文字
  • 海王IM即时通讯----沟通工具的增多,并未带来协作效率的同步提升
  • Spring AI 集成 DeepSeek 原生供应商:告别 OpenAI 兼容层,获取结构化推理过程
  • OSINT Cheat Sheet:一份覆盖全场景的开源情报工具速查表