Agent 应用范式下,企业数据基础设施如何演进?
这个问题挺有意思的。
说实话,2024年到2025年,大家聊AI Agent的时候,重点基本都在模型能力、Prompt Engineering、Agent框架怎么搭。但到了2026年,行业开始集体意识到一个问题:模型本身已经不是瓶颈了,数据架构才是。
Anthropic那篇2026 Agent报告里有个数据很说明问题:42%的企业说数据质量和数据访问是他们落地Agent的主要障碍。这个比例高得离谱,说明问题不在于模型不够聪明,而在于模型"看不到"它该看到的东西。
Agent对数据基础设施的要求,跟人完全不一样
传统企业数据架构设计了几十年,默认的最终消费者是人。报表给管理层看,BI给分析师看,OLAP给运营看——人看数据的时候,会脑补上下文,会问同事,会根据自己的经验做假设。
但Agent不会。
一个客服Agent处理退款,光知道退款规则没用,它还需要知道这个客户是不是大客户、订单有没有关联销售承诺、当前客服有没有这个额度的审批权限。这些东西在人的脑子里,不在系统里。
所以企业数据基础设施面临的第一件事,就是从"给人看"到"给Agent用"的范式转换。这不只是技术升级,是整个设计哲学的变化。
三条明显的主线
第一条:批处理退位,实时流式上位。
T+1的小时级ETL链路,在Agent场景下基本没法用。财务Agent拿到的仓位数据如果落后一天,生成的交易指令可能直接就是错的。Gartner预测到2028年60%的企业数据平台会搭建HTAP架构,统一事务处理和分析负载。本质上就是因为Agent需要实时数据访问和持续智能。
现在主流的做法是在Lakehouse前面加一层流式SQL引擎,比如RisingWave,维持物化视图的增量更新,延迟压到毫秒级。数据从Kafka过来,经过流处理引擎实时写入,Agent查询的时候看到的是"当前"状态,不是"十五分钟前"的状态。
第二条:语义层/上下文层从可选变成必选。
这个问题之前在技术圈讨论过很多次。传统数仓里,口径不一致、字段命名混乱、历史包袱这些问题之所以还能跑,是因为人在兜底。Agent没有这个兜底能力,你给它一堆字段名,它只能按照字面意思理解。
所以2026年能看到一个明显趋势——企业开始建Ontology驱动的语义层。微软Fabric IQ把Ontology作为预览能力,Snowflake Cortex Analyst强调Semantic Views,Google Looker通过MCP把语义层接给Agent用。这些动作都在说明一个事情:光有数据不够,还得有Agent能理解的业务语义。
本体化语义层做的事,就是把"收入"这种不同系统有不同定义的概念,统一映射成Agent能理解的实体和关系。当一个billing Agent更新订阅状态的时候,retention Agent能理解这意味着什么,因为它们操作的是同一个语义表示。
第三条:MCP协议成为企业数据连接Agent的事实标准。
2024年11月Anthropic开源MCP的时候,可能没预料到它长得这么快。到2026年3月,MCP SDK月下载量从10万飙到9700万,OpenAI、Google、Microsoft、AWS全部支持了这个协议。
MCP的价值在于把N×M的集成问题简化为N+M。以前每个模型接每个数据源都要单独写适配代码,现在每个数据源写一个MCP Server,每个模型写一个MCP Client,就能互相通信。这对企业数据基础设施的影响很直接——数据平台必须支持MCP Server能力,才能被Agent发现和调用。
Navita Sood在Cloudera那篇文章里提了一个说法挺准确:Lakehouse正在从"回顾性分析的仓库"演变成"支撑自主Agent行动的高性能上下文层"。这个转型背后,MCP是关键的连接协议。
还有一个容易被忽视的点——多Agent共享状态问题。
单个Agent的场景还好办,但多Agent协同的时候,状态一致性变得很棘手。一个Agent更新了客户订阅等级,另一个Agent同时在处理退款,如果没有proper的隔离和协调,会出现race condition,数据就乱了。
SurrealDB那篇白皮书里专门讨论了这个问题——他们叫"agentic race condition"。解决方案是需要一个Context Graph:原生支持graph、documents、vectors和structured records的统一多模型底层,在亚毫秒延迟下提供ACID事务保证,让多个Agent能在同一个语义表示上协作而不破坏一致性。
IDC的2026预测报告里提到,到2028年60%的中国500强企业会部署企业级Data Agent,实现动态数据处理、治理和追踪。这个数字听起来激进,但考虑到现在的大厂动作(OpenAI、Google、Microsoft四月密集发布Agent Workspace产品),这个时间表可能还得再往前挪。
我的判断
Agent时代的数据基础设施,不是把原有数仓接个大模型就完事了。它需要:
实时性:流式链路替代批处理,Agent看到的必须是当前状态
语义化:业务概念要能被机器理解和推理,不能只靠人的经验传承
可发现性:数据资产要被Agent自动发现和调用,MCP这类标准协议是基础设施
一致性:多Agent协同需要事务保障,不能出现部分更新导致的脏数据
治理:合规、数据血缘、权限控制要内嵌到底层,而不是事后打补丁
对还没启动的企业来说,HTAP架构和语义层是两件最重要的事,前者解决实时性,后者解决语义可理解性。已经有数据平台的企业,重点是补齐MCP协议支持和流式链路。
这些变化不会在一夜之间发生,但如果不做,Agent落地大概率会卡在数据这个环节——模型很聪明,但它不知道该信哪份数据。
