80% 的库不是人建的了：数据工程师的角色正在悄悄变形

有一个同行，在一家中型互联网公司做了六年数据工程师。

他最熟悉的事情，是一个人扛着一套数仓从无到有建起来——选型、建模、写 DDL、配调度、搭监控。他把每一张表的注释都写得清清楚楚，把每一个分区的逻辑都记在脑子里。公司里没有任何一个人，比他更懂那套系统。

前几天我们聊起 Databricks 的一组数据，他沉默了很久，说了一句话：

“我练了六年的东西，现在 Agent 两秒钟就建好了。“

先说清楚这个数字

Databricks 在 2026 年的《企业 AI Agent 现状报告》里披露了一组数字：

平台上超过 80% 的数据库，现在是由 AI Agent 创建的
97% 的测试和开发环境，也是由 Agent 自动构建的
两年前，这两个数字几乎都是零

Databricks 企业 AI Agent 趋势报告

在解读这组数字之前，有必要说清楚 Databricks 是什么规模的平台。它是全球最大的数据湖仓平台之一，付费客户超过一万家，覆盖摩根大通、康卡斯特、壳牌、Shell、Regeneron 等金融、能源、医疗、零售各行业的头部企业。他们披露的数据，不是某个内部实验或 beta 项目，而是真实客户在真实生产环境里的操作统计。

“两年前几乎为零，现在是 80%“——这个加速曲线，才是最值得认真对待的部分。

不是渐进，是跃迁。

它是怎么发生的这么快

要理解为什么短短两年能从 0% 到 80%，得先想清楚 AI Agent 到底在这件事上赢在哪里。

不是因为 Agent 比人聪明，而是因为 Agent 比人快，而且不累。

一个数据工程师新建一套开发环境，哪怕流程已经很规范，也需要申请资源、等待审批、配置参数、验证连通性——快的话两三个小时，慢的话一两天。Agent 做同样的事，可以在几秒内完成，而且可以同时启动几十个并行环境，测完即销毁，成本趋近于零。

这在 AI 应用开发场景里尤其关键。一个 AI 团队在做模型评测时，可能需要同时跑几十组不同的数据配置来对比效果。如果每次都要等人工建环境，整个实验迭代周期会被拉长十倍。Agent 接管这个环节之后，工程师的时间从”建环境”解放出来，专门用来设计实验和解读结果。

Databricks 首席架构师 Reynold Xin 在报告中说了一句话，我觉得很能说明问题：

“四十年来，数据库的设计假设人类管理员始终在回路中。当 AI Agent 成为主要操作者，这个假设立刻就崩了。”

Databricks 首席架构师 Reynold Xin 的原文分析

这不只是说 Agent 可以做人的工作，而是说现有的数据库架构本身就不是为 Agent 设计的。传统数据库需要人工审批资源、需要手动复制数据、需要运维团队在旁边值守——这些假设在 Agent 操作速度下全部失效。

于是 Databricks 今年推出了 Lakebase，专门针对 Agent 重新设计了数据库架构。核心思路是把计算和存储彻底分离：Agent 可以瞬间启动无状态的计算实例，多个实例共享同一份底层数据，不需要跨环境搬运数据，也不需要人工审批资源配额。

工具在为 Agent 重新设计，不再假设有人在旁边。

这件事有多大

为了校准这个变化的量级，我找了一些配套数据。

Databricks 的报告里还提到：企业多 Agent 系统的采用率，在过去四个月内增长了 327%。78% 的企业现在同时在用多个不同的大模型家族。

IDC 的预测是：到 2026 年底，50% 的中国 500 强数据团队将使用 AI Agent 来执行数据准备和分析工作。

这不是”可能会发生”的事，而是”正在发生”的事。

有意思的是，使用数据治理工具的企业，AI 项目的成功部署量是不用的 12 倍。这个数字说明了一件事：Agent 能不能跑起来不是问题，能不能管好才是问题。

但速度背后有一个危险

速度是 Agent 的优势，也是它最大的风险来源。

没有人在看这些库是怎么建的。

Liquibase 的 VP Ryan McCurdy 把这个转变描述为：数据层正在变成”高频软件事件”（a high frequency software event）。Agent 每秒钟在创建、修改、销毁数据库结构，传统的人工审查根本来不及跟上。原来需要一个工程师审查一周的变更，现在可能在一秒内就完成了，没有任何人看过一眼。

安全公司 Averlon 的 CEO Sunil Gottumukkala 说得更具体：

“Agent 建库优先考虑速度，不考虑安全默认配置。当不安全的配置以机器速度扩散，整个基础设施的攻击面会在你不知道的情况下急剧扩大。”

还有一个更深层的问题。顾问 John Carberry 提出了”治理债”（governance debt）这个概念——AI 生成的代码极少经过人工审查，技术债和合规风险在积累，但没有人记账。

他有一句话让我印象很深：

“当 80% 的数据基础设施由 AI 建造，‘人在回路中’就成了一个神话。”

IT Nerd：数据与网络安全专家对 AI 建库趋势的评论

这不是在批评 Agent，而是在说一件事：Agent 带来了建造能力，但它没有带来判断能力。 它知道怎么建一个库，但它不知道这个库应不应该建、建了之后谁来负责、出了问题怎么追溯。

这个缺口，就是接下来的机会所在。

数据工程师的角色在往哪里移

先说一个容易犯的错误：把”建库的工作消失了”等同于”数据工程师消失了”。

历史上这种混淆出现过很多次。

1970 年，关系型数据库出现，DBA 不需要再手写磁盘 I/O 代码了，但 DBA 这个职业并没有消失，他们开始做索引优化、查询调优、备份恢复设计。1990 年代，SQL 普及，开发者不需要懂底层存储原理也能写查询了，但数据库工程师没有消失，他们去做了性能调优和分布式架构。2010 年代，云计算兴起，运维工程师不需要再扛服务器进机房了，但他们没有消失，他们变成了 DevOps 和 SRE。

每一次”机器替代了某种操作”，人都没有消失，只是换了一种稀缺性。

现在发生的事，本质上是同一件事的新一轮。

从建造者，变成审计者。

这不是降级，是另一种技能成为稀缺。以前稀缺的是”会建”，现在稀缺的是”会判断”。具体来说，是三种判断力：

一、架构判断力

Agent 能建库，但它建的库对不对，只有懂业务的人才能判断。

一个 Agent 可能会为你生成一个在技术上完全合法的 schema，但如果你的业务三年后要支持多租户，这个 schema 的设计就是错的。如果你的数据量级会从百万增长到百亿，Agent 没有考虑分区策略的话，这个库早晚要重建。

这类判断，需要同时理解业务走向和技术约束，Agent 目前做不了。做这件事的人，会越来越值钱。

怎么练：参与真实的数据架构评审，不只是看自己负责的那一块，而是看全局。读别人的 schema 设计，想想它三年后会遇到什么问题。

二、治理能力

“治理债”是真实存在的威胁，但治理不只是审查代码。

真正的治理是：在 Agent 大量自动建库的情况下，依然能回答这几个问题——这份数据从哪来？经过了哪些变换？谁可以访问？如果出了错，从哪里开始查？

这需要建立数据血缘追踪机制、权限管理框架、自动化合规检查流水线。不是一次性的工作，而是持续运行的体系。

根据前面提到的数据，用了数据治理工具的企业，AI 项目成功率是不用的 12 倍。治理不是”合规部门的事”，它直接决定 AI 能不能在你的数据上真正跑起来。

怎么练：主动参与数据质量和合规相关的项目，哪怕只是从搞清楚现有数据血缘关系开始。

三、业务理解力

这是最难被自动化的一层。

Agent 建的库，字段名是 user_id，它不知道这个 user_id 在你们公司有三套不同的定义，分别来自 CRM、电商系统和 APP，而且它们不能直接关联。Agent 不知道某些字段是敏感数据，不能出现在分析报表里。Agent 不知道某个指标的口径在上个季度刚改过，历史数据需要重新处理。

这类知识，存在于业务会议记录、产品文档、口头约定和历史 bug 里，没有办法被系统化地喂给 Agent。

懂业务逻辑的数据工程师，是 Agent 和真实业务之间的翻译器。这个角色没有人能替代。

我们正在经历的是哪种变化

有一个框架我觉得可以帮助理解这件事。

每次技术浪潮替代人的工作，替代的都是”执行层”，留下来的是”判断层”。蒸汽机替代了体力劳动的执行，但工程师的设计判断没有被替代。自动化流水线替代了装配的执行，但质检工程师的质量判断没有被替代。ERP 系统替代了财务数据的手工录入，但财务分析师的商业判断没有被替代。

AI Agent 现在在替代数据工程的执行层——建库、配环境、写初始 DDL。留下来的，是架构决策、治理设计、业务理解这些判断层的工作。

问题在于，很多数据工程师花了大量时间在执行层上，对判断层的投资相对不足。不是因为他们懒，而是因为执行层的工作本来就足够把时间塞满了。

Agent 接管执行层，客观上给了数据工程师一个强迫升级的机会。

当然，也是一个强迫淘汰的威胁。取决于你怎么用这个空出来的时间。

最后说一件具体的事

我认识一个数据工程师，她在一家零售公司工作，主要负责数仓建设。

去年她们团队引入了 AI Agent 辅助建库，她本以为自己的工作会被压缩。结果发现，Agent 建的库有 30% 在三个月内出现了数据质量问题——字段定义歧义、口径不一致、血缘断掉了。清查、修复这些问题，反而比原来更忙了。

她现在做的事情变了：不再花大量时间写 DDL，而是花时间建数据质量规则库，和业务方对齐每一个核心指标的定义，设计 Agent 建库时必须遵循的模板和约束。

她说：“以前我是建筑工，现在我是建筑法规的制定者。”

这句话我觉得比任何分析都准。

回到开头那位做了六年数据工程师的同行。

他说 Agent 两秒钟就建好了他练了六年的东西。

我的回应是：他练的从来不只是怎么建。他练的是知道应该建什么、怎么建才能支撑未来三年、建完之后谁负责、出了问题从哪里查。

这些东西，Agent 还没有。

这不是安慰，是一个还有效的事实。但它有效的时间，也许没有那么长了。

我叫石头，在数据行业里摸爬滚打了十几年，这一轮 AI，我也是边看边想。这里写的，就是这些教训——我觉得值得说出来的那部分。

来源：Databricks 2026 State of AI Agents · Fanatical Futurist, 2025-12 · IT Nerd, 2026-02 · Databricks Enterprise AI Agent Trends Blog

更多文章

先说清楚这个数字

它是怎么发生的这么快

这件事有多大

但速度背后有一个危险