基于知识图谱InsightGraph — 让数据开口说话。
从Palantir的ontology思路出发,我们踩了一遍知识图谱的坑
让数据从"分散的资产",变成"会分析、会归因的业务伙伴"
💼你一定遇到过这些问题
- 这份数据和其他系统能不能关联?问了三个人有三个答案
- 运营问"为什么今天指标跌了",数据分析师连夜查数据
- 同一份指标,口径有好几个,各部门报数打架
- 想新增一个业务分析,得从零开始摸索上下游依赖
- Leader 问"这个改动会影响什么",谁也说不准
- 新同事入职,数据地图全靠人肉带
🔑核心:三级知识图谱
Palantir 的核心方法论是构建 ontology(本体)——把业务实体和它们之间的关系,用机器可读、可推理的方式表达出来。InsightGraph 的三级知识图谱,正是这个思路的工程实现。
Tier 1 · 数据层 — 数据知识图谱
Data KG — all your data, mapped
投入大量精力研发的解析引擎,自动将各类数据源(数据库、报表、文档)转化为统一的结构化数据地图,每一条边都经过多轮验证。
多数据源 隐式关联 跨源映射 自动发现
Tier 2 · 语义层 — 业务知识图谱
Business KG — what it actually means
在数据层基础上,利用大模型和专业知识,构建出覆盖指标、维度、分类的业务语义层。指标口径统一,业务语言可直接对应到数据。
模型构建 指标体系 口径统一 自然语言映射
Tier 3 · 应用层
Application Layer — ask anything, get answers
自研的分析引擎,将每一次归因结论都沉淀为图谱节点,图谱随分析不断积累,形成可积累、可推理的分析知识库。
指标归因 传导分析 因子归因 因果判断
📦数据源不只是数据库
InsightGraph 把所有数据源都纳入图谱,构建完整的资产视图。
📦 结构化数据
数据源,自动解析结构、发现关联、补全元数据。
📄 文档与定义
指标口径、数据定义、业务术语等非结构化文档,纳入图谱后统一口径,消除各部门之间的理解差异。
📊 报表与指标
现有报表、BI 看板中的指标和维度,自动建立与底层数据的映射关系,清楚知道每个数字从哪来。
⚡全流程自动化
传统的知识图谱构建,靠人工整理数据分类、手动打标签、逐个定义口径。一个中型企业的数据资产,光梳理一遍就需要两三周。Palantir 的 philosophy:让机器做机器擅长的事,把人类的时间留给更高层次的判断。
步骤
- 配置数据源连接(人工 · 1次)
各类型数据库、报表、文档路径,写入配置文件 - 自动扫描所有数据源(自动)
统一解析数据结构 - 自动发现跨数据源的隐式关联关系(自动)
- 自动补全数据源间的映射和口径定义(自动)
- 大模型自动识别指标、维度、分类(自动)
生成业务语义层 - 基于业务层图谱,自动回答归因问题(自动)
自然语言输入,直接出结论
步骤 2~6 完全由系统自动执行,不需要人工打标签、整理文档、定义口径。数据源变化时,图谱自动更新,不用人工维护。
🔧技术底座
RDF / RDFS / OWL
- RDF:三元组模型(Subject — Predicate — Object),所有数据以「主语-谓词-宾语」组织
- RDFS:在 RDF 基础上建立类/属性层级,让图谱具备基本推理能力
- OWL:在 RDFS 基础上扩展,支持等价类、逆属性、传递性等复杂约束和自动推理
SPARQL / SHACL
- SPARQL:W3C 标准图谱查询语言,支持 SELECT/CONSTRUCT/ASK/DESCRIBE 四种查询
- SHACL:数据质量校验标准,用 Shape 定义约束,支持 Violation 和 Warning 级别
🔄知识图谱赋能全生命周期
从需求梳理到持续迭代,知识图谱在数据分析的每一个环节发挥作用,实现真正的端到端智能化。
需求 → 方案 → 开发 → 验证 → 迭代
图谱从「文档」变成「活跃资产」,每一个阶段都能查询、校验、推理。
🎯具体能做什么
🗺️ 自动统一所有数据资产
InsightGraph 自动扫描所有接入的数据源,建立起完整的数据资产目录。数据之间能不能关联、口径是什么、有哪些维度,一目了然。新同事入职,自己在图谱里就能找到数据在哪里——不需要人肉带,不需要翻 old documentation。
🔗 自动发现数据之间的隐藏关系
"The most valuable relationships in your data are the ones that aren't declared anywhere." — Palantir
很多数据之间的关联关系没有物理声明(历史遗留或设计疏忽)。InsightGraph 研发了一套多路关系发现算法,能够精准地把这些隐藏关系补全,并经过多轮验证保证准确性。两个来自不同系统的数据,只要语义上相关,系统就能自动识别。
📊 自动统一指标口径
指标的口径是什么、各部门用的口径有什么差异,基于图谱自动梳理清楚。指标的口径可以直接追溯到最底层的数据定义,口径统一、可查、可推理。
❓ 直接用自然语言问数据问题
输入:"为什么今天指标下降了?",系统自动完成:意图解析 → 图谱匹配 → 数据查询拆解 → 结论输出。不需要写一句 SQL,不需要问任何人。
📈背后的分析能力
归因层图谱内嵌了一套完整的特征工程体系——让每一条结论都有数据支撑:
| 📈指标归因 | 将指标波动拆解到各维度,精确量化每个因子对结果的贡献 |
| 🔗关联分析 | 在众多维度中筛出真正有意义的相互关系 |
| ⚡传导分析 | 判断一件事会传导到哪里、持续多久、影响多大 |
| 🔮因子归因 | 从海量维度中定位关键因子,给出量化说法,帮助精准发力 |
| 📊数据校验 | 严格的数据质量体系,确保每一条结论都建立在可靠数据基础上 |
| 🎯因果判断 | 在时间维度上建立完整的验证体系,确保因果方向判断准确 |
💡场景举例:"为什么今天指标下降了?"
输入:为什么今天指标下降了?
InsightGraph 自动解析指标和时间范围,从业务层图谱匹配到相关数据源,启动分析链路:
① 指标归因
华东区贡献了 80% 的下降量,其中上海和杭州是主要拖累城市,线下门店渠道下降 31% 是品类维度的最大驱动因素。
② 关联分析
与指标关联最强的维度依次是:城市(关联度最高)、渠道(次之)、车型(再次之)。
③ 传导分析
门店客流每下滑一个台阶,指标在 3 天后开始受到明显拖累,影响持续约 2 周后逐步消退。
④ 因子归因
影响指标最重要的因子依次是:城市维度(贡献最大)、渠道维度(次之)、促销标记(再次之)。
⑤ 因果判断
数据证实——门店客流是指标的"先导信号":客流变化领先于指标变化,而非反过来。门店端流量恢复能直接带动指标回升。
综合结论:华东区线下门店流量下滑是核心原因,这种影响将在未来 2 周内持续存在,建议重点关注门店端流量恢复措施。
👥适合谁来用
数据分析师
查数据关系、做指标归因,不需要每次都找人问。分析效率提升,不用熬夜赶临时取数需求。
业务运营 / 产品
直接用自然语言问数据问题,降低取数门槛,专注业务决策。不用再等人给自己跑数据。
数据治理负责人
自动统一数据资产、发现隐式关联、评估数据变更影响。数据资产盘得清、管得住。
BI / 报表团队
建立指标-维度-数据的血缘关系,新增报表时快速定位上游数据源。报表开发从几天缩短到几小时。
🏭行业场景举例
Palantir 的客户遍布制造、金融、医疗、政府,核心场景都是同一个:在数据分散的环境下做出实时决策。InsightGraph 面向有指标管理需求、有数据团队、正在经历"数据多但用不起来"的中大型企业。
🏭 制造企业 · 供应链波动归因
问题:原材料成本突然上涨,数据团队花 3 天才能给出勉强能用的答案——数据分散在 ERP、MES、WMS 三个系统里,关联关系没有人整理过。
InsightGraph 的做法:
- 自动打通 ERP(采购订单)、MES(生产工单)、WMS(库存数据)三个系统
- 构建供应链知识图谱:供应商、物料、工单、库存水位、批次
- 当成本指标异常时,自动分析是哪类原材料、哪个供应商、哪个时间段开始出问题
输出:"铜材成本上涨 18%,主因是华东区某供应商交货延迟,导致库存消耗提前,采购被迫转向现货市场溢价 12%"
⏱归因时间:3天 → 30分钟
🏪 零售连锁 · 门店经营异常归因
问题:某区域门店业绩下滑,区域经理、督导、运营三个部门开两小时会对不出结论,数据分散在 POS、会员、促销、天气、竞品系统里。
InsightGraph 的做法:
- 打通 POS 系统、会员系统、促销配置、天气数据、周边竞品数据
- 构建零售知识图谱:门店、SKU、渠道、活动、客流、天气、竞对
- 输入"为什么华东区 3 月第二周 GMV 下滑了",系统自动输出多维度归因
输出:"主因是上海门店客流下滑 22%(与该周阴雨天气相关性达 0.87),其次是杭州门店折扣敏感性品类占比提升导致客单价下降,综合影响 GMV 下滑约 15%"
🔗跨系统数据自动关联,零人工协调
🏦 金融风控 · 指标口径统一与异常归因
问题:同一个"贷款余额"指标,信贷部门、风险部门、财务部门各有一套口径。监管报送和内部管理用的数字永远对不上,开会吵架是常态。
InsightGraph 的做法:
- 接入核心系统、信贷系统、财务系统、监管报送系统
- 在业务层图谱中定义统一的"贷款余额"本体,标注每套系统的计算口径差异
- 自动发现:信贷系统余额 = 核心系统余额 - 已核销 + 未入账
输出:"当前三类口径差异 2.3%,差异主要来自未入账科目(预计 1.8%)和核销时点不同步(0.5%)"
📋口径统一、可查、可解释
🌐 互联网产品 · 指标异动快速归因
问题:DAU 突然下降了 8%,产品和运营都急了——数据分散在埋点系统、业务数据库、AB 测试平台里,相关性分析要靠分析师连夜写 SQL。
InsightGraph 的做法:
- 接入埋点数据、业务数据库、AB 测试记录、Push 推送日志
- 构建产品知识图谱:功能模块、用户路径、实验标记、推送内容、版本发布
- 输入"为什么昨天 DAU 下降了",系统自动分析时间线上的所有变量
输出:"DAU 下降 8%,其中首页 UV 下滑 15% 是最大贡献因子,与 3 月 8 日版本更新强相关(AB 测试显示新版本留存率低 12%),次因是华北地区推送送达率下降导致拉活减少"
⏱从"连夜排查"到"30 分钟内给结论"
💰商业模式
InsightGraph 的商业模式核心是按数据资产规模计费,而非按用户数或查询次数收费——这样才能真正服务于"数据团队需要分析数据,而不是业务方偶尔查个数"的场景。
定价模式
标准版
数据资产少于 50 个数据源的中型企业
按年订阅,数据源数量阶梯计价。包含完整的三级图谱功能和标准支持服务。
企业版
多业务线、多数据源的中大型企业
平台授权费 + 图谱规模附加费,含多租户隔离和 SLA 保障。适合数据资产复杂、组织架构分散的企业。
行业版
金融、制造、医疗等强监管行业
行业定制 ontology 包 + 合规审计功能,价格面议。包含行业专属的指标体系和监管报告模板。
🧠GraphRAG:从知识图谱到智能问答
传统 RAG(Retrieval-Augmented Generation)只依赖向量相似度,容易出现「答非所问」和「孤岛效应」——每个文档独立检索,缺乏全局关联推理能力。GraphRAG 在此基础上引入知识图谱,实现跨文档的关联推理和可溯源的答案生成。
纯向量 RAG 的局限
- embedding 只捕获语义相似,不捕获实体关系
- 跨文档关联需要「猜测」
- 答案无法溯源到实体关系路径
- 复杂多跳问题(如「找出所有供应商的二级客户」)几乎无法回答
GraphRAG 的优势
- 利用图谱实体关系做精准检索
- 跨文档关联显式建模,可推理
- 每一条答案都对应图谱中的实体路径
- 支持多跳查询和复杂归因问题
三层图谱 × GraphRAG
📊 数据层图谱检索— 检索「资产在哪」
给定一个业务问题,快速定位相关数据源、表字段、报表。类比:数据资产的 GPS。
+31% 检索召回率
💬 业务层图谱检索— 检索「业务语义是什么」
将自然语言映射到指标、维度、口径,理解业务上下文的真实含义。类比:业务的翻译官。
+27% 问答准确率
🔍 归因层图谱检索— 检索「根因在哪」
结合统计归因结果和图谱关系路径,给出因果可解释的分析结论。类比:问题的福尔摩斯。
+42% 归因准确率
✨一句话总结
InsightGraph 的三级知识图谱体系,是企业数据智能化的基础设施——让数据从分散的资产,转变为可操作、可推理、可自我进化的智能生命体:
| 数据层 | 把分散的数据资产说清楚 |
|---|---|
| 业务层 | 把业务语义讲明白 |
| 归因层 | 把问题原因找出来 |
数据团队因此可以把有限的时间,用在真正创造价值的分析工作上——而不是消耗在找数据和理解数据上。
InsightGraph — 让数据开口说话。
