当前位置: 首页 > news >正文

Agent 应用范式下,企业数据基础设施如何演进?

这个问题挺有意思的。

说实话,2024年到2025年,大家聊AI Agent的时候,重点基本都在模型能力、Prompt Engineering、Agent框架怎么搭。但到了2026年,行业开始集体意识到一个问题:模型本身已经不是瓶颈了,数据架构才是

Anthropic那篇2026 Agent报告里有个数据很说明问题:42%的企业说数据质量和数据访问是他们落地Agent的主要障碍。这个比例高得离谱,说明问题不在于模型不够聪明,而在于模型"看不到"它该看到的东西。

Agent对数据基础设施的要求,跟人完全不一样

传统企业数据架构设计了几十年,默认的最终消费者是人。报表给管理层看,BI给分析师看,OLAP给运营看——人看数据的时候,会脑补上下文,会问同事,会根据自己的经验做假设。

但Agent不会。

一个客服Agent处理退款,光知道退款规则没用,它还需要知道这个客户是不是大客户、订单有没有关联销售承诺、当前客服有没有这个额度的审批权限。这些东西在人的脑子里,不在系统里。

所以企业数据基础设施面临的第一件事,就是从"给人看"到"给Agent用"的范式转换。这不只是技术升级,是整个设计哲学的变化。

三条明显的主线

第一条:批处理退位,实时流式上位

T+1的小时级ETL链路,在Agent场景下基本没法用。财务Agent拿到的仓位数据如果落后一天,生成的交易指令可能直接就是错的。Gartner预测到2028年60%的企业数据平台会搭建HTAP架构,统一事务处理和分析负载。本质上就是因为Agent需要实时数据访问和持续智能。

现在主流的做法是在Lakehouse前面加一层流式SQL引擎,比如RisingWave,维持物化视图的增量更新,延迟压到毫秒级。数据从Kafka过来,经过流处理引擎实时写入,Agent查询的时候看到的是"当前"状态,不是"十五分钟前"的状态。

第二条:语义层/上下文层从可选变成必选

这个问题之前在技术圈讨论过很多次。传统数仓里,口径不一致、字段命名混乱、历史包袱这些问题之所以还能跑,是因为人在兜底。Agent没有这个兜底能力,你给它一堆字段名,它只能按照字面意思理解。

所以2026年能看到一个明显趋势——企业开始建Ontology驱动的语义层。微软Fabric IQ把Ontology作为预览能力,Snowflake Cortex Analyst强调Semantic Views,Google Looker通过MCP把语义层接给Agent用。这些动作都在说明一个事情:光有数据不够,还得有Agent能理解的业务语义。

本体化语义层做的事,就是把"收入"这种不同系统有不同定义的概念,统一映射成Agent能理解的实体和关系。当一个billing Agent更新订阅状态的时候,retention Agent能理解这意味着什么,因为它们操作的是同一个语义表示。

第三条:MCP协议成为企业数据连接Agent的事实标准

2024年11月Anthropic开源MCP的时候,可能没预料到它长得这么快。到2026年3月,MCP SDK月下载量从10万飙到9700万,OpenAI、Google、Microsoft、AWS全部支持了这个协议。

MCP的价值在于把N×M的集成问题简化为N+M。以前每个模型接每个数据源都要单独写适配代码,现在每个数据源写一个MCP Server,每个模型写一个MCP Client,就能互相通信。这对企业数据基础设施的影响很直接——数据平台必须支持MCP Server能力,才能被Agent发现和调用。

Navita Sood在Cloudera那篇文章里提了一个说法挺准确:Lakehouse正在从"回顾性分析的仓库"演变成"支撑自主Agent行动的高性能上下文层"。这个转型背后,MCP是关键的连接协议。

还有一个容易被忽视的点——多Agent共享状态问题

单个Agent的场景还好办,但多Agent协同的时候,状态一致性变得很棘手。一个Agent更新了客户订阅等级,另一个Agent同时在处理退款,如果没有proper的隔离和协调,会出现race condition,数据就乱了。

SurrealDB那篇白皮书里专门讨论了这个问题——他们叫"agentic race condition"。解决方案是需要一个Context Graph:原生支持graph、documents、vectors和structured records的统一多模型底层,在亚毫秒延迟下提供ACID事务保证,让多个Agent能在同一个语义表示上协作而不破坏一致性。

IDC的2026预测报告里提到,到2028年60%的中国500强企业会部署企业级Data Agent,实现动态数据处理、治理和追踪。这个数字听起来激进,但考虑到现在的大厂动作(OpenAI、Google、Microsoft四月密集发布Agent Workspace产品),这个时间表可能还得再往前挪。

我的判断

Agent时代的数据基础设施,不是把原有数仓接个大模型就完事了。它需要:

实时性:流式链路替代批处理,Agent看到的必须是当前状态

语义化:业务概念要能被机器理解和推理,不能只靠人的经验传承

可发现性:数据资产要被Agent自动发现和调用,MCP这类标准协议是基础设施

一致性:多Agent协同需要事务保障,不能出现部分更新导致的脏数据

治理:合规、数据血缘、权限控制要内嵌到底层,而不是事后打补丁

对还没启动的企业来说,HTAP架构和语义层是两件最重要的事,前者解决实时性,后者解决语义可理解性。已经有数据平台的企业,重点是补齐MCP协议支持和流式链路。

这些变化不会在一夜之间发生,但如果不做,Agent落地大概率会卡在数据这个环节——模型很聪明,但它不知道该信哪份数据。

http://www.cnnetsun.cn/news/2499278.html

相关文章:

  • 图形学面试常客:有效边表法(AET)的底层逻辑与性能优化要点
  • AI写作辅助网站的使用规范:如何让AI生成内容通过严格学术审查
  • 2026年,哪家智慧文旅服务商才是真正好用之选?且看答案揭晓
  • 别让几何清理拖后腿!ANSA新手必看的点、线、面高效处理指南(附19版新功能)
  • 大模型风口!从0基础到高薪Offer,他们是如何逆袭的?
  • 多平台覆盖小程序开发服务商怎么选?盘点6类常见品牌与避坑思路
  • 阅读APP书源导入完全指南:告别书荒,轻松获取全网小说资源
  • Ryujinx终极指南:免费开源Switch模拟器快速上手与深度优化
  • mysql课堂练习
  • Extensions 扩展库
  • 【Midjourney包豪斯风格实战指南】:20年设计+AI专家亲授7大构图法则与5类禁用提示词清单
  • UE5 Pak文件结构解析与FModel模型提取实战指南
  • MTK-Android12-系统设置一级菜单-适配遥控器
  • 【限时解密】ElevenLabs未公开的瑞典文语料权重配置表:仅限前200名开发者获取的/sv-SE/声道微调参数
  • AI翻唱魔法师:5分钟免费打造专业级AI音乐作品的终极指南
  • 系统设计:十万级并发电商商品详情页,如何设计
  • 使用 Taotoken CLI 工具一键配置团队开发环境中的模型接入参数
  • 从TTL到差分信号:手把手图解RS232/RS485电平转换电路,避坑STM32串口配置
  • 2026 高炉炼铁智能化技术全景与演进路径~系列文章00:高炉炼铁智能化的产业变革与2026技术全景
  • Product Hunt 每日热榜 | 2026-05-21
  • 安科士(AndXe)QSFP+ 40G SR4 光模块:数据中心短距高速互联的理想之选
  • 以图灵机为喻!交互式教程助开发者理解CRDT工作原理
  • 黑客教你月入过万小技巧:SRC漏洞挖掘_怎么挖漏洞赚钱
  • VR安全带防坠落体验平台助力高空作业安全培训
  • 程序员需求攀升:数字化浪潮下的行业必然
  • LangGraph 并发执行:为什么你的多 Agent 总是“一个卡住全军覆没”?
  • 小资金期货量化用什么软件:成本敏感型的现实选项
  • 2026 年苏州地面互动品牌,创新魅力等你来发现!
  • 旅游应该注意什么
  • 【ai员工】windows Pixelle Studio 部署并运行