跳到正文

更多文章

数据团队正在被重新定价:会做报表的人,和能推动决策的人 报表慢不是小事:从一次查询超时看数据性能治理 AI 进了数据团队,最先被放大的不是效率,而是协作问题 一张宽表为什么会越用越乱:数据建模要先守住三个边界 接到一个模糊需求,数据人别急着写 SQL
数据周刊|2026年5月第3周:Airbnb 网关、Netflix 身份、Meta 迁移

这周的数据工程新闻,有点像搬办公室。

不是换一张工位,也不是多买几台显示器,而是重新决定:谁有钥匙,谁能进仓库,谁负责把门关上,出了问题又该找谁。

Data Engineering Weekly 在 2026 年 5 月 18 日更新了 #270。我把这一期看完,最明显的主线不是某个新工具突然冒头,而是几家大厂都在解决同一个老问题:数据系统变大以后,真正拖垮团队的不是计算不够快,而是边界不够清楚

Data Engineering Weekly #270 来源页面截图

Airbnb 在讲统一数据接口。Netflix 在讲项目级身份。Meta 在讲大规模迁移怎么不把生产弄坏。Databricks 在讲开放表格式和目录治理如何重新合在一起。几件事摊开看,像四张不同的病历,病根却差不多。

下面是本期值得看的几条。

一、Airbnb Viaduct 1.0:Data Mesh 不是口号,是一扇统一的门

Airbnb 发布了 Viaduct 1.0。

Airbnb Viaduct 1.0 原文页面截图

Viaduct 是 Airbnb 的数据导向服务网格,一个基于 GraphQL 的系统,目标是给公司内部各种数据源和业务能力提供统一访问接口。它不是传统意义上的“数据平台大一统”,更像是在公司内部修了一扇统一的门:外面的人从这扇门进来,里面各个团队仍然管理自己的房间。

这篇文章里有两个点值得数据团队看。

第一个点是中央 schema。Airbnb 希望整个组织的数据和能力,有一个一致、可发现、可治理的接口。客户端不需要知道后端到底应该调哪个服务,而是通过一个统一图谱来访问跨域能力。

第二个点是去中心化开发。中央 schema 如果只能由一个平台团队维护,很快会变成瓶颈。所以 Viaduct 用多租户运行时承载各团队模块:每个团队定义自己负责的 schema 和 resolver,平台负责执行、扩展、观测和集成。

这就是数据 Mesh 经常被说糊的地方。

很多团队谈 Data Mesh,容易谈成组织架构口号:域团队负责,平台团队支撑,大家自治。听起来很高级,落地时往往变成“每个团队各玩各的”。Airbnb 这套更朴素:统一入口,分散负责。没有统一入口,自治会变成散装;没有分散负责,统一入口会变成中央平台的排队窗口。

国内不少公司做数据平台,最容易卡在这一步。业务线希望快,平台希望稳,最后两边都不满意。Viaduct 给的启发不是“都去上 GraphQL”,而是:数据平台不能只提供工具,还要提供清楚的接口边界。

二、Netflix Data Projects:数据资产不要再挂在人名下面

Netflix 这周写了 Data Projects,用来管理大规模数据资产。

它家的背景很夸张:数据仓库里有数百万张表,调度系统里有数万条定时工作流。这个规模下,两个问题会反复出现。

第一,权限跟不上组织变化。一个团队合并、拆分、换人,就要成批修改表权限。权限维护一累,大家就会倾向于把访问开大一点,最后细粒度 ACL 形同虚设。

第二,工作流绑定在人身上。以前很多调度任务会以某个工程师的身份运行。这个人一换组、离职、权限变化,任务就可能失败。然后团队再临时换成另一个人的身份,新的权限问题又冒出来。Netflix 把这种状态称为权限打地鼠,挺形象的。

Data Projects 的做法,是把管理粒度从“单个资产 / 单个人”提高到“项目”。一个 Data Project 有两层含义:

  1. 它是相关资产的容器,表、工作流和其他数据资产可以放在同一个逻辑伞下;
  2. 它也是一个稳定的、可被授权的合成身份,调度任务用项目身份执行,而不是用某个员工身份执行。

更有意思的是 Netflix 提到一个概念:gravity,重力。项目身份创建的新资产,会自动归到这个项目下面。也就是说,组织关系不是靠人手维护出来的,而是顺着执行身份自然长出来。

这对国内团队太现实了。

我们经常把“数据资产管理”理解成目录、标签、血缘、文档。那些都重要。但还有一个更底层的问题:资产到底属于谁?任务到底代表谁在运行?权限到底跟着人走,还是跟着项目走?

很多公司出了数据事故,回头查才发现,关键任务挂在一个已经转岗同事的账号下面,表权限靠微信群里一句“先开一下”维持,责任边界像一团泡过水的毛线。

Netflix 这篇文章提醒我们:数据治理不是先买一个目录产品,而是先把“身份”这件事想清楚。

三、Meta 迁移数据摄取系统:真正的大迁移,先学会影子跑

Meta 分享了他们在超大规模下迁移数据摄取系统的经验。

Meta 数据摄取系统迁移原文页面截图

这套系统每天会把数 PB 级社交图谱数据从 MySQL 增量摄取到数据仓库,供分析、报表、机器学习训练和产品开发使用。旧系统在更严格的数据到达时间要求下开始不稳定,于是他们做了一次完整迁移,并且已经把 100% 工作负载切到新架构。

这类文章最容易被看成“大厂炫肌肉”。但我更关心它的迁移方法。

Meta 没有把迁移理解成“新系统写好了,找个窗口切过去”。他们先定义了清楚的迁移生命周期,每个任务只有满足几个条件,才能进入下一阶段:

  • 新旧系统产出的数据没有质量差异,要比对行数和 checksum;
  • 新系统的数据到达延迟不能退化,至少要和旧系统持平;
  • 计算和存储资源使用不能变差,至少要可比;
  • 关键表还要和依赖团队约定额外验收标准。

其中最关键的是 shadow phase,影子阶段。新系统先消费同样的生产源数据,但把结果写到隔离的 shadow table。团队持续监控行数和 checksum 差异,发现不一致就修,修完再验证。

这个方法听起来不新鲜,可是很少有团队真的做扎实。

很多国内数据平台迁移,最怕两种极端:一种是无限期双跑,跑到大家都忘了为什么迁;另一种是拍脑袋切换,出了问题再熬夜回滚。Meta 这篇的价值在于,它把迁移拆成可验证的门槛,而不是靠负责人经验和群里一句“应该没问题”。

对个人来说,这也是项目经历里很值得写的一类能力。简历里写“参与数据平台迁移”,分量不大;写清楚“设计新旧链路 shadow 对账,按行数、checksum、延迟和资源指标分阶段放量”,这才像真正做过生产系统。

四、Databricks Catalog Commits:开放表格式又回到了目录

Databricks 这周写 Catalog Commits 已经 GA。

Databricks Catalog Commits 原文页面截图

这件事表面看是 Delta Lake 和 Unity Catalog 的技术更新,往下看,其实是湖仓架构走到一定阶段后的补课。

过去几年,开放表格式很火。Delta、Iceberg、Hudi 解决了对象存储上表的事务、元数据和演进问题。可是系统一多,又冒出新问题:计算引擎直接写存储层,目录不知道;不同引擎从不同路径访问数据,权限和审计不统一;多表事务想做一致更新,又绕不开协调层。

Databricks 把这些问题总结为几个典型挑战:split brain,也就是目录元数据和真实表状态分裂;multi-engine access sprawl,也就是多引擎、多 Agent 直接访问存储路径带来的治理扩散;以及多表事务协调困难。

Catalog Commits 的思路,是让 catalog 重新进入读写路径,负责协调表访问并追踪最新表状态。这样不同引擎和 Agent 不再硬编码对象存储路径,而是通过标准目录 API 解析和访问表。

这条新闻放在 2026 年看特别有意思。

AI Agent 开始消费企业数据以后,过去那些“只要工程师知道路径就行”的做法会越来越危险。人类工程师还能凭经验绕一绕权限和路径,Agent 如果拿到一堆静态路径和粗粒度权限,后果就比较难看。

所以目录不再只是数据治理同学看的网页。它正在变成一个运行时控制点:发现、授权、审计、事务协调,都要回到这里。

一句话说,湖仓的下一步不是继续把文件格式做漂亮,而是把“谁能通过什么方式读写这些文件”重新管起来。

五、DuckDB 继续往缝隙里长

这一期还有两条 DuckDB 相关内容。

一条来自阿里云 AliSQL。文章讲的是把 DuckDB 作为存储引擎集成到 MySQL 体系里,让 MySQL 获得轻量级 OLAP 能力,同时保持 MySQL 协议、语法和运维体系兼容。文中提到,DuckDB 分析只读实例使用读写分离架构,通过 binlog 从主库同步数据,分析查询可比 InnoDB 提升最高 200 倍,存储空间通常约为主库的 20%。为了兼容 MySQL,他们还做了约 17 万条 SQL 自动化兼容测试,结果显示兼容率 99%。

另一条是 DuckDB 全文检索扩展。作者用邮件语料演示了 DuckDB 的 FTS 能力,包括安装扩展、创建索引、BM25 打分、调 k₁ 和 b 参数。它还不如 Postgres 或 Elasticsearch 那么完整,比如高亮、同义词等能力还弱,但对探索式文本分析已经够轻便。

这两条放一起看,会发现 DuckDB 的路线很有意思。

它不是只在一个方向上做“大数据库”。它更像一把锋利的小刀,开始钻进各种缝隙:嵌入 MySQL、挂进本地分析、处理临时文本语料、做轻量 OLAP。以前这些场景常常要搬一套沉重系统,现在可能一个扩展、一个只读实例、一个本地文件就能开始。

对数据从业者来说,这不是让你放弃数仓,也不是让你把所有东西塞进 DuckDB。更现实的启发是:很多“小而急”的分析任务,不一定需要上大平台。先用合适的小工具把问题看清楚,再决定要不要工程化,反而更稳。

拾穗解读:数据平台正在从“功能堆叠”回到“责任边界”

把本期几条放在一起,我看到的不是新技术列表,而是一个共同趋势:数据平台正在从功能堆叠,回到责任边界

数据平台的 4 个责任边界

过去几年,数据团队很喜欢讲能力地图:采集、存储、计算、治理、质量、血缘、调度、服务、AI。每一项都能买工具,每一项都能做项目。久而久之,平台像一间越堆越满的杂物房,什么都有,但找东西越来越慢。

这周几篇文章都在做相反的事。

Airbnb 问的是:统一接口在哪里?

Netflix 问的是:项目身份是谁?

Meta 问的是:迁移进入下一阶段的验收门槛是什么?

Databricks 问的是:多引擎和 Agent 到底通过谁访问表?

AliSQL + DuckDB 问的是:能不能在不推翻原有系统的情况下,把分析能力嵌进去?

这些问题都不炫。甚至有点像办公室行政工作:门禁、工牌、资产登记、验收单、值班表。可是大系统真正能跑稳,靠的就是这些不炫的东西。

AI 进入数据团队之后,这种边界感会变得更重要。

因为 AI Agent 会放大系统里原本模糊的地方。权限边界不清,它会放大权限问题;接口不清,它会乱找入口;目录不可信,它会基于错误上下文做判断;迁移没有验收门槛,它会把不确定性包装成很自信的说明。

所以这期周刊给我的提醒是:别急着给数据平台再加一个 AI 助手,先看看你的平台有没有清楚的门、稳定的身份、可信的目录和可验证的迁移流程。

这对个人成长也一样。

如果你是数据开发,不妨在下一个项目里多想一层:这个任务现在挂在谁的身份下?出问题谁负责?换人以后会不会断?

如果你是数据分析师,也可以多问一句:我现在调用的数据入口是稳定接口,还是某个同事告诉我的临时路径?这个指标背后的口径和权限,是否能被后人看懂?

很多时候,所谓高级能力,不是会更多工具,而是能把混乱的系统讲清楚、分清楚、稳住。

数据从业者全栈知识库

如果你想系统补齐数据工程、数据治理、AI 数据底座这些能力,我也会继续把这类案例整理进 数据从业者全栈知识库。周刊负责帮你看见风向,知识库负责把能长期复用的东西沉下来。

本周其他值得看

  • Eric Sun:A Query Proxy for Analytical and Fast Data。用 gRPC、Arrow/Parquet 和服务凭证,把 Snowflake、Databricks、StarRocks、Iceberg 等分析引擎包装成统一查询代理,适合关注“分析能力如何服务化”的同学。
  • Faire:重建搜索排序。Faire 用 Deep & Cross Network 替换 XGBoost,并通过多任务表示缩短新场景上线周期。对做推荐、搜索、广告特征工程的人有参考价值。
  • Marc Bowes:Aurora DSQL Coupler。讲 Aurora DSQL 的 CDC 设计,利用低延迟 journal fan-out 让 Coupler 作为订阅者工作,避免传统 CDC 对数据库造成太大压力。
  • DuckDB FTS。如果你平时会临时分析一批邮件、文档、工单,DuckDB 的全文检索扩展值得放进工具箱。

我叫石头,在数据行业里摸爬滚打了十几年,踩过的坑,比写过的文档多。这里写的,就是这些教训——我觉得值得说出来的那部分。

来源

《数据周刊》每周更新一期,挑数据行业值得看的动态,附拾穗的判断。拾穗数据|https://ss-data.cc

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →

1v1 咨询

有具体职业困惑?一小时说清楚

预约咨询 →
← 上一篇 报表慢不是小事:从一次查询超时看数据性能治理 下一篇 → 数据团队正在被重新定价:会做报表的人,和能推动决策的人