跳到正文

更多文章

影响力日常操作系统:21天习惯养成计划 从技能雇佣者到价值创造者 互惠账户的运营 影响力的三层架构 组织的注意力经济学
80% 的库不是人建的了

有一个同行,在一家中型互联网公司做了六年数据工程师。

他最熟悉的事情,是一个人扛着一套数仓从无到有建起来——选型、建模、写 DDL、配调度、搭监控。他把每一张表的注释都写得清清楚楚,把每一个分区的逻辑都记在脑子里。公司里没有任何一个人,比他更懂那套系统。

前几天我们聊起 Databricks 的一组数据,他沉默了很久,说了一句话:

“我练了六年的东西,现在 Agent 两秒钟就建好了。“


先说清楚这个数字

Databricks 在 2026 年的《企业 AI Agent 现状报告》里披露了一组数字:

  • 平台上超过 80% 的数据库,现在是由 AI Agent 创建的
  • 97% 的测试和开发环境,也是由 Agent 自动构建的
  • 两年前,这两个数字几乎都是零

Databricks 企业 AI Agent 趋势报告

在解读这组数字之前,有必要说清楚 Databricks 是什么规模的平台。它是全球最大的数据湖仓平台之一,付费客户超过一万家,覆盖摩根大通、康卡斯特、壳牌、Shell、Regeneron 等金融、能源、医疗、零售各行业的头部企业。他们披露的数据,不是某个内部实验或 beta 项目,而是真实客户在真实生产环境里的操作统计。

“两年前几乎为零,现在是 80%“——这个加速曲线,才是最值得认真对待的部分。

不是渐进,是跃迁。


它是怎么发生的这么快

要理解为什么短短两年能从 0% 到 80%,得先想清楚 AI Agent 到底在这件事上赢在哪里。

不是因为 Agent 比人聪明,而是因为 Agent 比人快,而且不累。

一个数据工程师新建一套开发环境,哪怕流程已经很规范,也需要申请资源、等待审批、配置参数、验证连通性——快的话两三个小时,慢的话一两天。Agent 做同样的事,可以在几秒内完成,而且可以同时启动几十个并行环境,测完即销毁,成本趋近于零。

这在 AI 应用开发场景里尤其关键。一个 AI 团队在做模型评测时,可能需要同时跑几十组不同的数据配置来对比效果。如果每次都要等人工建环境,整个实验迭代周期会被拉长十倍。Agent 接管这个环节之后,工程师的时间从”建环境”解放出来,专门用来设计实验和解读结果。

Databricks 首席架构师 Reynold Xin 在报告中说了一句话,我觉得很能说明问题:

“四十年来,数据库的设计假设人类管理员始终在回路中。当 AI Agent 成为主要操作者,这个假设立刻就崩了。”

Databricks 首席架构师 Reynold Xin 的原文分析

这不只是说 Agent 可以做人的工作,而是说现有的数据库架构本身就不是为 Agent 设计的。传统数据库需要人工审批资源、需要手动复制数据、需要运维团队在旁边值守——这些假设在 Agent 操作速度下全部失效。

于是 Databricks 今年推出了 Lakebase,专门针对 Agent 重新设计了数据库架构。核心思路是把计算和存储彻底分离:Agent 可以瞬间启动无状态的计算实例,多个实例共享同一份底层数据,不需要跨环境搬运数据,也不需要人工审批资源配额。

工具在为 Agent 重新设计,不再假设有人在旁边。


这件事有多大

为了校准这个变化的量级,我找了一些配套数据。

Databricks 的报告里还提到:企业多 Agent 系统的采用率,在过去四个月内增长了 327%。78% 的企业现在同时在用多个不同的大模型家族。

IDC 的预测是:到 2026 年底,50% 的中国 500 强数据团队将使用 AI Agent 来执行数据准备和分析工作。

这不是”可能会发生”的事,而是”正在发生”的事。

有意思的是,使用数据治理工具的企业,AI 项目的成功部署量是不用的 12 倍。这个数字说明了一件事:Agent 能不能跑起来不是问题,能不能管好才是问题。


但速度背后有一个危险

速度是 Agent 的优势,也是它最大的风险来源。

没有人在看这些库是怎么建的。

Liquibase 的 VP Ryan McCurdy 把这个转变描述为:数据层正在变成”高频软件事件”(a high frequency software event)。Agent 每秒钟在创建、修改、销毁数据库结构,传统的人工审查根本来不及跟上。原来需要一个工程师审查一周的变更,现在可能在一秒内就完成了,没有任何人看过一眼。

安全公司 Averlon 的 CEO Sunil Gottumukkala 说得更具体:

“Agent 建库优先考虑速度,不考虑安全默认配置。当不安全的配置以机器速度扩散,整个基础设施的攻击面会在你不知道的情况下急剧扩大。”

还有一个更深层的问题。顾问 John Carberry 提出了”治理债”(governance debt)这个概念——AI 生成的代码极少经过人工审查,技术债和合规风险在积累,但没有人记账。

他有一句话让我印象很深:

“当 80% 的数据基础设施由 AI 建造,‘人在回路中’就成了一个神话。”

IT Nerd:数据与网络安全专家对 AI 建库趋势的评论

这不是在批评 Agent,而是在说一件事:Agent 带来了建造能力,但它没有带来判断能力。 它知道怎么建一个库,但它不知道这个库应不应该建、建了之后谁来负责、出了问题怎么追溯。

这个缺口,就是接下来的机会所在。


数据工程师的角色在往哪里移

先说一个容易犯的错误:把”建库的工作消失了”等同于”数据工程师消失了”。

历史上这种混淆出现过很多次。

1970 年,关系型数据库出现,DBA 不需要再手写磁盘 I/O 代码了,但 DBA 这个职业并没有消失,他们开始做索引优化、查询调优、备份恢复设计。1990 年代,SQL 普及,开发者不需要懂底层存储原理也能写查询了,但数据库工程师没有消失,他们去做了性能调优和分布式架构。2010 年代,云计算兴起,运维工程师不需要再扛服务器进机房了,但他们没有消失,他们变成了 DevOps 和 SRE。

每一次”机器替代了某种操作”,人都没有消失,只是换了一种稀缺性。

现在发生的事,本质上是同一件事的新一轮。

从建造者,变成审计者。

这不是降级,是另一种技能成为稀缺。以前稀缺的是”会建”,现在稀缺的是”会判断”。具体来说,是三种判断力:

一、架构判断力

Agent 能建库,但它建的库对不对,只有懂业务的人才能判断。

一个 Agent 可能会为你生成一个在技术上完全合法的 schema,但如果你的业务三年后要支持多租户,这个 schema 的设计就是错的。如果你的数据量级会从百万增长到百亿,Agent 没有考虑分区策略的话,这个库早晚要重建。

这类判断,需要同时理解业务走向和技术约束,Agent 目前做不了。做这件事的人,会越来越值钱。

怎么练:参与真实的数据架构评审,不只是看自己负责的那一块,而是看全局。读别人的 schema 设计,想想它三年后会遇到什么问题。

二、治理能力

“治理债”是真实存在的威胁,但治理不只是审查代码。

真正的治理是:在 Agent 大量自动建库的情况下,依然能回答这几个问题——这份数据从哪来?经过了哪些变换?谁可以访问?如果出了错,从哪里开始查?

这需要建立数据血缘追踪机制、权限管理框架、自动化合规检查流水线。不是一次性的工作,而是持续运行的体系。

根据前面提到的数据,用了数据治理工具的企业,AI 项目成功率是不用的 12 倍。治理不是”合规部门的事”,它直接决定 AI 能不能在你的数据上真正跑起来。

怎么练:主动参与数据质量和合规相关的项目,哪怕只是从搞清楚现有数据血缘关系开始。

三、业务理解力

这是最难被自动化的一层。

Agent 建的库,字段名是 user_id,它不知道这个 user_id 在你们公司有三套不同的定义,分别来自 CRM、电商系统和 APP,而且它们不能直接关联。Agent 不知道某些字段是敏感数据,不能出现在分析报表里。Agent 不知道某个指标的口径在上个季度刚改过,历史数据需要重新处理。

这类知识,存在于业务会议记录、产品文档、口头约定和历史 bug 里,没有办法被系统化地喂给 Agent。

懂业务逻辑的数据工程师,是 Agent 和真实业务之间的翻译器。这个角色没有人能替代。


我们正在经历的是哪种变化

有一个框架我觉得可以帮助理解这件事。

每次技术浪潮替代人的工作,替代的都是”执行层”,留下来的是”判断层”。蒸汽机替代了体力劳动的执行,但工程师的设计判断没有被替代。自动化流水线替代了装配的执行,但质检工程师的质量判断没有被替代。ERP 系统替代了财务数据的手工录入,但财务分析师的商业判断没有被替代。

AI Agent 现在在替代数据工程的执行层——建库、配环境、写初始 DDL。留下来的,是架构决策、治理设计、业务理解这些判断层的工作。

问题在于,很多数据工程师花了大量时间在执行层上,对判断层的投资相对不足。不是因为他们懒,而是因为执行层的工作本来就足够把时间塞满了。

Agent 接管执行层,客观上给了数据工程师一个强迫升级的机会。

当然,也是一个强迫淘汰的威胁。取决于你怎么用这个空出来的时间。


最后说一件具体的事

我认识一个数据工程师,她在一家零售公司工作,主要负责数仓建设。

去年她们团队引入了 AI Agent 辅助建库,她本以为自己的工作会被压缩。结果发现,Agent 建的库有 30% 在三个月内出现了数据质量问题——字段定义歧义、口径不一致、血缘断掉了。清查、修复这些问题,反而比原来更忙了。

她现在做的事情变了:不再花大量时间写 DDL,而是花时间建数据质量规则库,和业务方对齐每一个核心指标的定义,设计 Agent 建库时必须遵循的模板和约束。

她说:“以前我是建筑工,现在我是建筑法规的制定者。”

这句话我觉得比任何分析都准。


回到开头那位做了六年数据工程师的同行。

他说 Agent 两秒钟就建好了他练了六年的东西。

我的回应是:他练的从来不只是怎么建。他练的是知道应该建什么、怎么建才能支撑未来三年、建完之后谁负责、出了问题从哪里查。

这些东西,Agent 还没有。

这不是安慰,是一个还有效的事实。但它有效的时间,也许没有那么长了。


我叫石头,在数据行业里摸爬滚打了十几年,这一轮 AI,我也是边看边想。这里写的,就是这些教训——我觉得值得说出来的那部分。


来源:Databricks 2026 State of AI Agents · Fanatical Futurist, 2025-12 · IT Nerd, 2026-02 · Databricks Enterprise AI Agent Trends Blog

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →
← 上一篇 数据工程师高频面试真题精讲 下一篇 → 数据工程月报 | 2026 年 3 月:Databricks 收购安全初创、dbt+Fivetran 合并、Flink CDC 3.6 发布