数据周刊｜2026年5月第3周：Airbnb 网关、Netflix 身份、Meta 迁移

这周的数据工程新闻，有点像搬办公室。

不是换一张工位，也不是多买几台显示器，而是重新决定：谁有钥匙，谁能进仓库，谁负责把门关上，出了问题又该找谁。

Data Engineering Weekly 在 2026 年 5 月 18 日更新了 #270。我把这一期看完，最明显的主线不是某个新工具突然冒头，而是几家大厂都在解决同一个老问题：数据系统变大以后，真正拖垮团队的不是计算不够快，而是边界不够清楚。

Data Engineering Weekly #270 来源页面截图

Airbnb 在讲统一数据接口。Netflix 在讲项目级身份。Meta 在讲大规模迁移怎么不把生产弄坏。Databricks 在讲开放表格式和目录治理如何重新合在一起。几件事摊开看，像四张不同的病历，病根却差不多。

下面是本期值得看的几条。

一、Airbnb Viaduct 1.0：Data Mesh 不是口号，是一扇统一的门

Airbnb 发布了 Viaduct 1.0。

Airbnb Viaduct 1.0 原文页面截图

Viaduct 是 Airbnb 的数据导向服务网格，一个基于 GraphQL 的系统，目标是给公司内部各种数据源和业务能力提供统一访问接口。它不是传统意义上的“数据平台大一统”，更像是在公司内部修了一扇统一的门：外面的人从这扇门进来，里面各个团队仍然管理自己的房间。

这篇文章里有两个点值得数据团队看。

第一个点是中央 schema。Airbnb 希望整个组织的数据和能力，有一个一致、可发现、可治理的接口。客户端不需要知道后端到底应该调哪个服务，而是通过一个统一图谱来访问跨域能力。

第二个点是去中心化开发。中央 schema 如果只能由一个平台团队维护，很快会变成瓶颈。所以 Viaduct 用多租户运行时承载各团队模块：每个团队定义自己负责的 schema 和 resolver，平台负责执行、扩展、观测和集成。

这就是数据 Mesh 经常被说糊的地方。

很多团队谈 Data Mesh，容易谈成组织架构口号：域团队负责，平台团队支撑，大家自治。听起来很高级，落地时往往变成“每个团队各玩各的”。Airbnb 这套更朴素：统一入口，分散负责。没有统一入口，自治会变成散装；没有分散负责，统一入口会变成中央平台的排队窗口。

国内不少公司做数据平台，最容易卡在这一步。业务线希望快，平台希望稳，最后两边都不满意。Viaduct 给的启发不是“都去上 GraphQL”，而是：数据平台不能只提供工具，还要提供清楚的接口边界。

二、Netflix Data Projects：数据资产不要再挂在人名下面

Netflix 这周写了 Data Projects，用来管理大规模数据资产。

它家的背景很夸张：数据仓库里有数百万张表，调度系统里有数万条定时工作流。这个规模下，两个问题会反复出现。

第一，权限跟不上组织变化。一个团队合并、拆分、换人，就要成批修改表权限。权限维护一累，大家就会倾向于把访问开大一点，最后细粒度 ACL 形同虚设。

第二，工作流绑定在人身上。以前很多调度任务会以某个工程师的身份运行。这个人一换组、离职、权限变化，任务就可能失败。然后团队再临时换成另一个人的身份，新的权限问题又冒出来。Netflix 把这种状态称为权限打地鼠，挺形象的。

Data Projects 的做法，是把管理粒度从“单个资产 / 单个人”提高到“项目”。一个 Data Project 有两层含义：

它是相关资产的容器，表、工作流和其他数据资产可以放在同一个逻辑伞下；
它也是一个稳定的、可被授权的合成身份，调度任务用项目身份执行，而不是用某个员工身份执行。

更有意思的是 Netflix 提到一个概念：gravity，重力。项目身份创建的新资产，会自动归到这个项目下面。也就是说，组织关系不是靠人手维护出来的，而是顺着执行身份自然长出来。

这对国内团队太现实了。

我们经常把“数据资产管理”理解成目录、标签、血缘、文档。那些都重要。但还有一个更底层的问题：资产到底属于谁？任务到底代表谁在运行？权限到底跟着人走，还是跟着项目走？

很多公司出了数据事故，回头查才发现，关键任务挂在一个已经转岗同事的账号下面，表权限靠微信群里一句“先开一下”维持，责任边界像一团泡过水的毛线。

Netflix 这篇文章提醒我们：数据治理不是先买一个目录产品，而是先把“身份”这件事想清楚。

三、Meta 迁移数据摄取系统：真正的大迁移，先学会影子跑

Meta 分享了他们在超大规模下迁移数据摄取系统的经验。

Meta 数据摄取系统迁移原文页面截图

这套系统每天会把数 PB 级社交图谱数据从 MySQL 增量摄取到数据仓库，供分析、报表、机器学习训练和产品开发使用。旧系统在更严格的数据到达时间要求下开始不稳定，于是他们做了一次完整迁移，并且已经把 100% 工作负载切到新架构。

这类文章最容易被看成“大厂炫肌肉”。但我更关心它的迁移方法。

Meta 没有把迁移理解成“新系统写好了，找个窗口切过去”。他们先定义了清楚的迁移生命周期，每个任务只有满足几个条件，才能进入下一阶段：

新旧系统产出的数据没有质量差异，要比对行数和 checksum；
新系统的数据到达延迟不能退化，至少要和旧系统持平；
计算和存储资源使用不能变差，至少要可比；
关键表还要和依赖团队约定额外验收标准。

其中最关键的是 shadow phase，影子阶段。新系统先消费同样的生产源数据，但把结果写到隔离的 shadow table。团队持续监控行数和 checksum 差异，发现不一致就修，修完再验证。

这个方法听起来不新鲜，可是很少有团队真的做扎实。

很多国内数据平台迁移，最怕两种极端：一种是无限期双跑，跑到大家都忘了为什么迁；另一种是拍脑袋切换，出了问题再熬夜回滚。Meta 这篇的价值在于，它把迁移拆成可验证的门槛，而不是靠负责人经验和群里一句“应该没问题”。

对个人来说，这也是项目经历里很值得写的一类能力。简历里写“参与数据平台迁移”，分量不大；写清楚“设计新旧链路 shadow 对账，按行数、checksum、延迟和资源指标分阶段放量”，这才像真正做过生产系统。

四、Databricks Catalog Commits：开放表格式又回到了目录

Databricks 这周写 Catalog Commits 已经 GA。

Databricks Catalog Commits 原文页面截图

这件事表面看是 Delta Lake 和 Unity Catalog 的技术更新，往下看，其实是湖仓架构走到一定阶段后的补课。

过去几年，开放表格式很火。Delta、Iceberg、Hudi 解决了对象存储上表的事务、元数据和演进问题。可是系统一多，又冒出新问题：计算引擎直接写存储层，目录不知道；不同引擎从不同路径访问数据，权限和审计不统一；多表事务想做一致更新，又绕不开协调层。

Databricks 把这些问题总结为几个典型挑战：split brain，也就是目录元数据和真实表状态分裂；multi-engine access sprawl，也就是多引擎、多 Agent 直接访问存储路径带来的治理扩散；以及多表事务协调困难。

Catalog Commits 的思路，是让 catalog 重新进入读写路径，负责协调表访问并追踪最新表状态。这样不同引擎和 Agent 不再硬编码对象存储路径，而是通过标准目录 API 解析和访问表。

这条新闻放在 2026 年看特别有意思。

AI Agent 开始消费企业数据以后，过去那些“只要工程师知道路径就行”的做法会越来越危险。人类工程师还能凭经验绕一绕权限和路径，Agent 如果拿到一堆静态路径和粗粒度权限，后果就比较难看。

所以目录不再只是数据治理同学看的网页。它正在变成一个运行时控制点：发现、授权、审计、事务协调，都要回到这里。

一句话说，湖仓的下一步不是继续把文件格式做漂亮，而是把“谁能通过什么方式读写这些文件”重新管起来。

五、DuckDB 继续往缝隙里长

这一期还有两条 DuckDB 相关内容。

一条来自阿里云 AliSQL。文章讲的是把 DuckDB 作为存储引擎集成到 MySQL 体系里，让 MySQL 获得轻量级 OLAP 能力，同时保持 MySQL 协议、语法和运维体系兼容。文中提到，DuckDB 分析只读实例使用读写分离架构，通过 binlog 从主库同步数据，分析查询可比 InnoDB 提升最高 200 倍，存储空间通常约为主库的 20%。为了兼容 MySQL，他们还做了约 17 万条 SQL 自动化兼容测试，结果显示兼容率 99%。

另一条是 DuckDB 全文检索扩展。作者用邮件语料演示了 DuckDB 的 FTS 能力，包括安装扩展、创建索引、BM25 打分、调 k₁ 和 b 参数。它还不如 Postgres 或 Elasticsearch 那么完整，比如高亮、同义词等能力还弱，但对探索式文本分析已经够轻便。

这两条放一起看，会发现 DuckDB 的路线很有意思。

它不是只在一个方向上做“大数据库”。它更像一把锋利的小刀，开始钻进各种缝隙：嵌入 MySQL、挂进本地分析、处理临时文本语料、做轻量 OLAP。以前这些场景常常要搬一套沉重系统，现在可能一个扩展、一个只读实例、一个本地文件就能开始。

对数据从业者来说，这不是让你放弃数仓，也不是让你把所有东西塞进 DuckDB。更现实的启发是：很多“小而急”的分析任务，不一定需要上大平台。先用合适的小工具把问题看清楚，再决定要不要工程化，反而更稳。

拾穗解读：数据平台正在从“功能堆叠”回到“责任边界”

把本期几条放在一起，我看到的不是新技术列表，而是一个共同趋势：数据平台正在从功能堆叠，回到责任边界。

数据平台的 4 个责任边界

过去几年，数据团队很喜欢讲能力地图：采集、存储、计算、治理、质量、血缘、调度、服务、AI。每一项都能买工具，每一项都能做项目。久而久之，平台像一间越堆越满的杂物房，什么都有，但找东西越来越慢。

这周几篇文章都在做相反的事。

Airbnb 问的是：统一接口在哪里？

Netflix 问的是：项目身份是谁？

Meta 问的是：迁移进入下一阶段的验收门槛是什么？

Databricks 问的是：多引擎和 Agent 到底通过谁访问表？

AliSQL + DuckDB 问的是：能不能在不推翻原有系统的情况下，把分析能力嵌进去？

这些问题都不炫。甚至有点像办公室行政工作：门禁、工牌、资产登记、验收单、值班表。可是大系统真正能跑稳，靠的就是这些不炫的东西。

AI 进入数据团队之后，这种边界感会变得更重要。

因为 AI Agent 会放大系统里原本模糊的地方。权限边界不清，它会放大权限问题；接口不清，它会乱找入口；目录不可信，它会基于错误上下文做判断；迁移没有验收门槛，它会把不确定性包装成很自信的说明。

所以这期周刊给我的提醒是：别急着给数据平台再加一个 AI 助手，先看看你的平台有没有清楚的门、稳定的身份、可信的目录和可验证的迁移流程。

这对个人成长也一样。

如果你是数据开发，不妨在下一个项目里多想一层：这个任务现在挂在谁的身份下？出问题谁负责？换人以后会不会断？

如果你是数据分析师，也可以多问一句：我现在调用的数据入口是稳定接口，还是某个同事告诉我的临时路径？这个指标背后的口径和权限，是否能被后人看懂？

很多时候，所谓高级能力，不是会更多工具，而是能把混乱的系统讲清楚、分清楚、稳住。

数据从业者全栈知识库

如果你想系统补齐数据工程、数据治理、AI 数据底座这些能力，我也会继续把这类案例整理进数据从业者全栈知识库。周刊负责帮你看见风向，知识库负责把能长期复用的东西沉下来。

本周其他值得看

Eric Sun：A Query Proxy for Analytical and Fast Data。用 gRPC、Arrow/Parquet 和服务凭证，把 Snowflake、Databricks、StarRocks、Iceberg 等分析引擎包装成统一查询代理，适合关注“分析能力如何服务化”的同学。
Faire：重建搜索排序。Faire 用 Deep & Cross Network 替换 XGBoost，并通过多任务表示缩短新场景上线周期。对做推荐、搜索、广告特征工程的人有参考价值。
Marc Bowes：Aurora DSQL Coupler。讲 Aurora DSQL 的 CDC 设计，利用低延迟 journal fan-out 让 Coupler 作为订阅者工作，避免传统 CDC 对数据库造成太大压力。
DuckDB FTS。如果你平时会临时分析一批邮件、文档、工单，DuckDB 的全文检索扩展值得放进工具箱。

我叫石头，在数据行业里摸爬滚打了十几年，踩过的坑，比写过的文档多。这里写的，就是这些教训——我觉得值得说出来的那部分。

来源

Data Engineering Weekly #270 · Ananth Packkildurai · 2026-05-18
Airbnb Engineering：Viaduct 1.0 and the future of Airbnb’s data mesh · 2026-05-13
Netflix TechBlog：Data Projects: Managing Data Assets at Netflix Scale · 2026-05-11
Meta Engineering：Migrating Data Ingestion Systems at Meta Scale · 2026-05-12
Databricks：The Convergence of Open Table Formats and Open Catalogs
Alibaba Cloud：When MySQL Meets the Columnar Storage Engine DuckDB in the AI Era · 2026-05-13
Pete Doherty：Full-Text Search with DuckDB · 2026-04-29

《数据周刊》每周更新一期，挑数据行业值得看的动态，附拾穗的判断。拾穗数据｜https://ss-data.cc

更多文章

一、Airbnb Viaduct 1.0：Data Mesh 不是口号，是一扇统一的门

二、Netflix Data Projects：数据资产不要再挂在人名下面

三、Meta 迁移数据摄取系统：真正的大迁移，先学会影子跑

四、Databricks Catalog Commits：开放表格式又回到了目录

五、DuckDB 继续往缝隙里长

拾穗解读：数据平台正在从“功能堆叠”回到“责任边界”

本周其他值得看

来源

加入免费社群

成为会员

1v1 咨询

数据周刊｜2026年5月第3周：Airbnb 网关、Netflix 身份、Meta 迁移

更多文章

一、Airbnb Viaduct 1.0：Data Mesh 不是口号，是一扇统一的门

二、Netflix Data Projects：数据资产不要再挂在人名下面

三、Meta 迁移数据摄取系统：真正的大迁移，先学会影子跑

四、Databricks Catalog Commits：开放表格式又回到了目录

五、DuckDB 继续往缝隙里长

拾穗解读：数据平台正在从“功能堆叠”回到“责任边界”

本周其他值得看

来源

加入免费社群

成为会员

1v1 咨询

相关文章

数据周刊｜2026年5月第2周：Meta 第二大脑、Netflix 模型图谱、没人发现变慢的数据管道

数据周刊｜AI 已经会查 Spark 慢任务了，但它先问你要 3 份证据

数据周刊｜2026年6月第4周：语义层、治理台、拒答能力