数据周刊｜2026年4月第2周：Meta Agent 群组、Pinterest MCP 工厂、Markdown 干翻向量库

上周我们讲了 Databricks 和 Snowflake 同周掏出 AI 编程代理，数据岗位在被迫升级。

发布会开完了，PPT 也都刷屏了。但每次这种时候我都忍不住想问一句——这些东西，到底在谁家真的跑起来了？

这一周恰好看到几篇海外大厂的实战复盘，结论有点意外：跑起来了，但跑得很”土”。真正在生产里发挥作用的，都不是 PPT 上画满箭头的 Agent 编排架构，而是几个死磕具体问题的小工程。

这篇不讲理论，只讲谁真的做成了什么。

行业动态：Agent 真正落地的样子

Meta：50 个 Agent 组队啃 4100 个文件的老管道

Meta 数据工程团队放出一篇文章，讲他们怎么用 AI 解决一个所有大厂都有的老病——老数据管道的”部落知识”问题。

具体场景：一个跑了几年的数据管道，4100 个代码文件，原作者早就离职。新工程师接手要改一个字段，得先花 2 天时间读代码、问人、跑测试，才能搞清楚这个字段从哪儿来到哪儿去。

他们的解法不是搞一个大 Agent，而是50 个专门化的小 Agent 组成一个群组，每个 Agent 只负责一个窄任务（解析某种文件、提取某种依赖、识别某种模式），然后把结果汇总成一份”上下文文档”。

调研时间从 2 天压到 30 分钟。

Meta AI Pre-Compute Engine 架构：Agent 群组协同解析老管道的代码与依赖

原文：How Meta Used AI to Map Tribal Knowledge in Large-Scale Data Pipelines · Meta Engineering

拾穗视角：这个方案对国内团队的启发不是”我也得上 50 个 Agent”，而是**“不要试图让一个 Agent 做完所有事”**。国内很多团队现在做 AI 项目，上来就想搞一个通用的”数据助手”，结果每一步都做不好。Meta 这套思路更像流水线——把大问题切成窄任务，每个 Agent 负责一个细小的动作。这和十几年前 Unix 哲学是同一回事：“做一件事，做好。”

顺便，如果你们公司也有”原作者离职、没人敢动”的老管道，这是个可以直接抄作业的场景。

Netflix：用缓存把重复查询成本降三分之一

Netflix 讲了他们怎么优化 Druid 上的滚动窗口查询。过去 1 小时、过去 24 小时这种查询，每次触发都要把完整窗口重算一遍，哪怕只有最新一分钟的数据是新的。

他们做了个缓存代理，把窗口拆成分钟桶，只重算最新的那一桶，其余从缓存拿。命中率 82%，查询量降了 33%。

Netflix Druid 缓存效果：命中率与缓存结果占比双折线，稳定在 80%+

原文：Interval-Aware Caching for Druid at Netflix Scale · Netflix Tech Blog

拾穗视角：这种工程优化没什么”创新”，但这种东西恰恰是国内很多数据团队缺的——不愿意花时间做的”脏活”。一个缓存代理，没什么论文发，但能帮公司省实打实的算力钱。Netflix 的数据工程师一直比较”老派”，讲究把基础设施打磨得贼顺手。这一点值得国内团队学。

Databricks：Spark 4.1 Real-Time Mode，毫秒级

Databricks 上个月底发布了 Spark 4.1 的 Real-Time Mode，把延迟从秒级降到 100ms 以下。核心改动是用更长的 epoch、并发阶段和非阻塞算子，统一了吞吐和低延迟两种诉求。

Spark 4.1 Microbatch 与 Real-Time Mode 架构对比：非阻塞执行替代微批处理

原文：Breaking the Microbatch Barrier · Databricks

拾穗视角：过去 Spark 和 Flink 的分工很明确——Spark 批、Flink 流。Spark Streaming 只是 microbatch，做不了真流。这次 Real-Time Mode 的意思是 Databricks 想把 Flink 的饭也抢过来。国内做实时数仓的团队可以观察一下：如果 Spark 真能做到 100ms，之前为了实时专门引入 Flink 的技术栈负担，可能真的会减轻。但这一天还没到——Flink 在真正的事件驱动场景仍然更成熟。

职业与观察：Data Scientist 为什么在 AI 时代反而更值钱

Hamel Husain：数据科学家的复仇

Hamel Husain（老牌 ML 工程师，前 GitHub、Airbnb）写了一篇爆款博客，标题叫 “The Revenge of the Data Scientist”。

他的论点是：过去两年大家都在讨论 AI 工程师，觉得 Data Scientist 要被时代抛弃。但实际生产里，AI 产品的瓶颈不在会不会写 prompt，而在会不会做 eval、会不会设计实验、会不会分析生产 trace——这些恰恰是传统数据科学家的核心技能。

他举了一个具体例子：某 AI 产品团队一开始用”AI 工程师”写 prompt，上线后错误率 30%，不知道怎么降。后来加进一个数据科学家，做了一周的 eval 体系和 trace 分析，找到 3 个可以系统性优化的点，错误率降到 8%。

原文：The Revenge of the Data Scientist · Hamel Husain

拾穗视角：这和我们上周说的”数据岗被迫升级”正好是两面——升级不是让数据人变成 AI 工程师，而是让数据人把自己的老本行用到 AI 产品上。国内很多公司现在招”AI 产品工程师”，但干到后面发现真正能把 AI 产品质量做起来的，都是那些懂实验设计、懂数据分析的老派数据科学家。

如果你是数据人，不用焦虑 AI 抢饭碗。你该学的是怎么把你原来做 AB test、做 causal inference 的本事，搬到 AI 产品上。

BlaBlaCar：让 PM 用 AI 自助取数，错误率从 32% 降到 15%

法国拼车公司 BlaBlaCar 做了个面向 PM 的 AI 取数工具。关键不是用了多牛的模型，而是做了一份结构化的 schema 文档 + few-shot 示例库。

PM 问”上季度巴黎到里昂的用户留存是多少”，AI 生成的 SQL 一开始错误率 32%。加上结构化 schema 文档后降到 15%。PM 的取数需求从”提工单给数据组”变成”自己搞定”。

SQL 错误率：初始 32% → 加 schema 文档 + few-shot 后 15% 角色变化：PM 从”等数据组排期”到”自助查询” 关键不是模型：用的就是通用大模型，赢在 schema 文档的打磨

原文：How BlaBlaCar PMs use AI to self-serve data · BlaBlaCar Engineering

拾穗视角：这里面有一个国内团队常常忽略的点——“让 AI 会写 SQL”和”让 AI 写出你公司业务口径的 SQL”是两件事。你司的表里叫 user_id 其实是 device_id，字段注释十年没更新，这种情况下任何大模型都会瞎猜。

真正让 Text-to-SQL 可用的，从来不是模型强弱，而是你有没有花时间把 schema 文档整理清楚。这是个苦工，但做完之后收益长期存在。

观点辩论：MCP 到底行不行？

这周海外圈子围绕 MCP（Model Context Protocol）吵了一架。一边是 Pinterest 晒战绩，另一边是一个前 AWS 的老工程师泼冷水。

Pinterest：MCP 月调用 66k 次，节省 7000 工时

Pinterest 讲他们构建了一整套 MCP Agent 服务器生态，配了 JWT + SPIFFE 的安全机制。月调用量 66000 次，累计帮工程师节省了 7000 小时。

原文：Building an MCP Ecosystem at Pinterest

Julien Simon：MCP 在企业级还差关键件

前 AWS 主力布道者 Julien Simon 同一周发了一篇 “Still Missing Critical Pieces”，几乎是逐条反驳。

他的核心论点：MCP 在企业级场景下有三个硬伤——

Token 开销：每次 Agent 调用都要把大量上下文塞进 prompt，成本高
黏性路由：多 Agent 协作时 session 状态不好管
治理缺失：没有细粒度权限、审计、版本管理

他的观察是：真正跑在生产上的企业级 AI 系统，反而更倾向直接调 API + 代码生成，而不是用 MCP。

原文：Still Missing Critical Pieces

拾穗视角：这两边我看都是对的。Pinterest 那种场景——内部工具调用、单租户、工程师自己用——MCP 跑得很好。Julien 说的场景——多租户、强治理、审计合规——MCP 还没到。

国内团队如果现在要做 Agent 体系，可以这么想：

如果是工程师内部工具（调代码、查日志、跑任务），用 MCP 完全 OK，甚至推荐
如果是面向业务的 Agent 产品（涉及客户数据、需要权限隔离），老老实实用 REST API + 自己写 orchestration

别被”MCP 是未来”这种话忽悠住，选型永远是看你的场景，不是看哪个标准最时髦。

一个反直觉的故事：Markdown 文件如何干翻 5000 万美元的向量库

这是本期我最喜欢的一篇。

一个独立开发者 Michael Lanham 发了篇帖子，标题直接挑衅：“The Markdown File That Beat a $50M Vector Database”。

事情是这样的：他在做一个单线程的 Agent 工作流，一开始用了某家估值 50M 美元的托管向量数据库，每月账单高得离谱。后来他试了一把把所有文档塞进一个大 Markdown 文件，配上开源的 sqlite-vec，跑在本地一个 SQLite 文件里。

结果：

Token 成本降到托管向量库的 1/10
延迟下降（本地查询 vs 网络调用）
查询准确率没有下降

Markdown + sqlite-vec 与托管向量数据库对比：同样的 Agent 工作流，成本相差一个数量级

他的结论是：对大多数 Agent 场景，你根本不需要”向量数据库”。你需要的是”结构化的上下文 + 一点 embedding search”。

原文：The Markdown File That Beat a $50M Vector Database

拾穗视角：去年一整年，向量数据库公司融了多少钱？Pinecone、Weaviate、Chroma、Milvus、Zilliz，随便一家都是几千万美元估值。但现在越来越多的实战反馈是——对中小 Agent 项目，向量数据库是过度工程。

这个故事的真正启发是：技术选型要看实际负载，不要被融资新闻带偏。你的 Agent 每天处理 1000 个查询，用 SQLite + sqlite-vec 就够了；非要上 Pinecone，账单一个月能烧掉一个工程师的工资。

国内同理——如果你们公司正在评估向量数据库，先问自己：“我们的 QPS 真的到那个量级了吗？“没到就别上，老老实实用 PostgreSQL 的 pgvector 扩展，能省一大笔。

拾穗判断：跑得下去的 Agent，长得没什么气势

写完这一周的内容，我顺手把几篇文章甩给一个老朋友。他在一家中型银行带数据团队，去年立项了一个”数据智能体平台”，目标是”一个入口解决所有数据问题”。投了七八个人、干了大半年，还没上线。他读完 Meta 和 BlaBlaCar 那两篇，回我一句：“所以我们方向一开始就错了。”

其实错的不只是他们这一家。是这两年整个行业都默认一件事——做 AI 要做得”大”，要有”平台感”，要能”覆盖所有场景”。但翻完这一周的海外复盘才发现，真正跑下来的 Agent 全是反过来的：窄、小、专一，拒绝万能。Meta 用 50 个小 Agent 拼出一份上下文文档；Pinterest 把 MCP 拆成一个个服务器，只给工程师内部用；BlaBlaCar 的 AI 只解决 PM 自助取数这一件事。没有一个是”公司级助手”。

这里面有一个挺朴素的道理——能长期跑起来的系统，长得往往都不气派。就像我老家小区门口修了二十年的自行车摊，摊子看起来毫无章法，但什么车都能修。而那些 PPT 上画得满满当当、箭头飞来飞去的”AI 中台架构图”，经常是做给领导看的，不是做给工程师用的。

另一件让我感慨的，是 Hamel 那篇”Data Scientist 的复仇”。过去两年，身边不少数据分析师、数据科学家都在焦虑——是不是该转 AI 工程师了？要不要学 LangChain？要不要刷大模型证书？但真正把 AI 产品质量撑起来的人，往往还是那些会做 eval、会设计实验、会盯 trace 的老派数据人。你原先在 AB 测试里较过的真、在因果推断里想过的事，到了 AI 产品时代反而比任何时候都值钱。这不叫”风口回来了”，这叫”基本功没过期”。

最后一件事是关于钱。2023 年我陪一位朋友的公司做技术选型，他们坚持要上 Pinecone，理由是”大厂都在用”。那时候每月账单能顶一个中级工程师的工资。到了今年，这位独立开发者用 Markdown + sqlite-vec 把类似的活儿干了，成本降到 1/10，准确率没掉。很多事情都是这样的——风潮过去之后你才会发现，当初跟着跑的那群人，连方向都是别人指的。

如果让我给这一期做一个收束，大概就是一句话：Agent 时代最稀缺的不是新技术，是敢把事情做小的勇气。

📬 如果你在往下想这件事……

本期我自己最想再往下挖的，是 Meta 那个 50 个 Agent 群组——搬到 50 到 200 人的国内数据团队，到底要怎么切分？需要几个人？几个月？预算大概多少？

这不是随手能回答的问题。得攒几个真实案例，把成本账本算清楚，才值得写。

如果你们团队正在考虑类似的事，或者只是好奇国内能不能抄，欢迎直接加我微信聊聊（微信号：shisuidata，加的时候麻烦备注一下”数据周刊”）。攒够几位读者我就专门做一期深度拆解，讲落地路径 + 预算账本。

这类深度稿往后可能会作为拾穗 Pro 的专享内容，但现阶段拾穗所有内容都免费，我只是先收集”真在乎这事的人”。

本周其他值得看的

Beyond ETL - The Case for Context：Airbyte 创始人提出 Context Store 概念，认为 Agent 时代的数据基建核心从”数据搬运”转为”上下文管理”
Medallion Architecture Isn’t As New As You Think：一篇辩论文章，说 Bronze/Silver/Gold 就是分阶段建模的马甲
State of Context Engineering in 2026：管理 LLM 上下文极限的 5 种模式，很系统
Zapier outbox pattern at scale：基于 SQLite 的 outbox 模式，稳定支撑 15000 event/s，极简工程美学
Taming S3 Shuffle at Scale：S3 shuffle 成本降 95%，Spark 性能工程的一次硬核复盘

我叫石头，在数据行业里摸爬滚打了十几年，这一轮 AI，我也是边看边想。这里写的，就是这些观察——我觉得值得说出来的那部分。

《数据周刊》每周更新一期，挑海外值得国内数据人看的动态，附拾穗视角。拾穗数据｜https://ss-data.cc

更多文章