当前位置：首页 > news >正文

Agent 应用范式下，企业数据基础设施如何演进？

news 2026/6/1 19:14:29

这个问题挺有意思的。

说实话，2024年到2025年，大家聊AI Agent的时候，重点基本都在模型能力、Prompt Engineering、Agent框架怎么搭。但到了2026年，行业开始集体意识到一个问题：模型本身已经不是瓶颈了，数据架构才是。

Anthropic那篇2026 Agent报告里有个数据很说明问题：42%的企业说数据质量和数据访问是他们落地Agent的主要障碍。这个比例高得离谱，说明问题不在于模型不够聪明，而在于模型"看不到"它该看到的东西。

Agent对数据基础设施的要求，跟人完全不一样

传统企业数据架构设计了几十年，默认的最终消费者是人。报表给管理层看，BI给分析师看，OLAP给运营看——人看数据的时候，会脑补上下文，会问同事，会根据自己的经验做假设。

但Agent不会。

一个客服Agent处理退款，光知道退款规则没用，它还需要知道这个客户是不是大客户、订单有没有关联销售承诺、当前客服有没有这个额度的审批权限。这些东西在人的脑子里，不在系统里。

所以企业数据基础设施面临的第一件事，就是从"给人看"到"给Agent用"的范式转换。这不只是技术升级，是整个设计哲学的变化。

三条明显的主线

第一条：批处理退位，实时流式上位。

T+1的小时级ETL链路，在Agent场景下基本没法用。财务Agent拿到的仓位数据如果落后一天，生成的交易指令可能直接就是错的。Gartner预测到2028年60%的企业数据平台会搭建HTAP架构，统一事务处理和分析负载。本质上就是因为Agent需要实时数据访问和持续智能。

现在主流的做法是在Lakehouse前面加一层流式SQL引擎，比如RisingWave，维持物化视图的增量更新，延迟压到毫秒级。数据从Kafka过来，经过流处理引擎实时写入，Agent查询的时候看到的是"当前"状态，不是"十五分钟前"的状态。

第二条：语义层/上下文层从可选变成必选。

这个问题之前在技术圈讨论过很多次。传统数仓里，口径不一致、字段命名混乱、历史包袱这些问题之所以还能跑，是因为人在兜底。Agent没有这个兜底能力，你给它一堆字段名，它只能按照字面意思理解。

所以2026年能看到一个明显趋势——企业开始建Ontology驱动的语义层。微软Fabric IQ把Ontology作为预览能力，Snowflake Cortex Analyst强调Semantic Views，Google Looker通过MCP把语义层接给Agent用。这些动作都在说明一个事情：光有数据不够，还得有Agent能理解的业务语义。

本体化语义层做的事，就是把"收入"这种不同系统有不同定义的概念，统一映射成Agent能理解的实体和关系。当一个billing Agent更新订阅状态的时候，retention Agent能理解这意味着什么，因为它们操作的是同一个语义表示。

第三条：MCP协议成为企业数据连接Agent的事实标准。

2024年11月Anthropic开源MCP的时候，可能没预料到它长得这么快。到2026年3月，MCP SDK月下载量从10万飙到9700万，OpenAI、Google、Microsoft、AWS全部支持了这个协议。

MCP的价值在于把N×M的集成问题简化为N+M。以前每个模型接每个数据源都要单独写适配代码，现在每个数据源写一个MCP Server，每个模型写一个MCP Client，就能互相通信。这对企业数据基础设施的影响很直接——数据平台必须支持MCP Server能力，才能被Agent发现和调用。

Navita Sood在Cloudera那篇文章里提了一个说法挺准确：Lakehouse正在从"回顾性分析的仓库"演变成"支撑自主Agent行动的高性能上下文层"。这个转型背后，MCP是关键的连接协议。

还有一个容易被忽视的点——多Agent共享状态问题。

单个Agent的场景还好办，但多Agent协同的时候，状态一致性变得很棘手。一个Agent更新了客户订阅等级，另一个Agent同时在处理退款，如果没有proper的隔离和协调，会出现race condition，数据就乱了。

SurrealDB那篇白皮书里专门讨论了这个问题——他们叫"agentic race condition"。解决方案是需要一个Context Graph：原生支持graph、documents、vectors和structured records的统一多模型底层，在亚毫秒延迟下提供ACID事务保证，让多个Agent能在同一个语义表示上协作而不破坏一致性。

IDC的2026预测报告里提到，到2028年60%的中国500强企业会部署企业级Data Agent，实现动态数据处理、治理和追踪。这个数字听起来激进，但考虑到现在的大厂动作（OpenAI、Google、Microsoft四月密集发布Agent Workspace产品），这个时间表可能还得再往前挪。

我的判断

Agent时代的数据基础设施，不是把原有数仓接个大模型就完事了。它需要：

实时性：流式链路替代批处理，Agent看到的必须是当前状态

语义化：业务概念要能被机器理解和推理，不能只靠人的经验传承

可发现性：数据资产要被Agent自动发现和调用，MCP这类标准协议是基础设施

一致性：多Agent协同需要事务保障，不能出现部分更新导致的脏数据

治理：合规、数据血缘、权限控制要内嵌到底层，而不是事后打补丁

对还没启动的企业来说，HTAP架构和语义层是两件最重要的事，前者解决实时性，后者解决语义可理解性。已经有数据平台的企业，重点是补齐MCP协议支持和流式链路。

这些变化不会在一夜之间发生，但如果不做，Agent落地大概率会卡在数据这个环节——模型很聪明，但它不知道该信哪份数据。

查看全文

http://www.cnnetsun.cn/news/2499278.html