跳到正文

更多文章

Agentic Data Engineering 方法论 Agent 可观测性三件套:Trace、Eval、Guardrail Iceberg V3 深度解析:为 AI workload 重新设计的表格式 Agentic Analytics:分析师角色的终局推演 什么时候才该 Fine-tune:2026 决策框架
数据周刊|2026年4月第2周:Meta Agent 群组、Pinterest MCP 工厂、Markdown 干翻向量库

上周我们讲了 Databricks 和 Snowflake 同周掏出 AI 编程代理,数据岗位在被迫升级

发布会开完了,PPT 也都刷屏了。但每次这种时候我都忍不住想问一句——这些东西,到底在谁家真的跑起来了?

这一周恰好看到几篇海外大厂的实战复盘,结论有点意外:跑起来了,但跑得很”土”。真正在生产里发挥作用的,都不是 PPT 上画满箭头的 Agent 编排架构,而是几个死磕具体问题的小工程。

这篇不讲理论,只讲谁真的做成了什么。


行业动态:Agent 真正落地的样子

Meta:50 个 Agent 组队啃 4100 个文件的老管道

Meta 数据工程团队放出一篇文章,讲他们怎么用 AI 解决一个所有大厂都有的老病——老数据管道的”部落知识”问题

具体场景:一个跑了几年的数据管道,4100 个代码文件,原作者早就离职。新工程师接手要改一个字段,得先花 2 天时间读代码、问人、跑测试,才能搞清楚这个字段从哪儿来到哪儿去。

他们的解法不是搞一个大 Agent,而是50 个专门化的小 Agent 组成一个群组,每个 Agent 只负责一个窄任务(解析某种文件、提取某种依赖、识别某种模式),然后把结果汇总成一份”上下文文档”。

调研时间从 2 天压到 30 分钟

Meta AI Pre-Compute Engine 架构:Agent 群组协同解析老管道的代码与依赖

原文:How Meta Used AI to Map Tribal Knowledge in Large-Scale Data Pipelines · Meta Engineering

拾穗视角:这个方案对国内团队的启发不是”我也得上 50 个 Agent”,而是**“不要试图让一个 Agent 做完所有事”**。国内很多团队现在做 AI 项目,上来就想搞一个通用的”数据助手”,结果每一步都做不好。Meta 这套思路更像流水线——把大问题切成窄任务,每个 Agent 负责一个细小的动作。这和十几年前 Unix 哲学是同一回事:“做一件事,做好。”

顺便,如果你们公司也有”原作者离职、没人敢动”的老管道,这是个可以直接抄作业的场景。

Netflix:用缓存把重复查询成本降三分之一

Netflix 讲了他们怎么优化 Druid 上的滚动窗口查询。过去 1 小时、过去 24 小时这种查询,每次触发都要把完整窗口重算一遍,哪怕只有最新一分钟的数据是新的。

他们做了个缓存代理,把窗口拆成分钟桶,只重算最新的那一桶,其余从缓存拿。命中率 82%,查询量降了 33%

Netflix Druid 缓存效果:命中率与缓存结果占比双折线,稳定在 80%+

原文:Interval-Aware Caching for Druid at Netflix Scale · Netflix Tech Blog

拾穗视角:这种工程优化没什么”创新”,但这种东西恰恰是国内很多数据团队缺的——不愿意花时间做的”脏活”。一个缓存代理,没什么论文发,但能帮公司省实打实的算力钱。Netflix 的数据工程师一直比较”老派”,讲究把基础设施打磨得贼顺手。这一点值得国内团队学。

Databricks:Spark 4.1 Real-Time Mode,毫秒级

Databricks 上个月底发布了 Spark 4.1 的 Real-Time Mode,把延迟从秒级降到 100ms 以下。核心改动是用更长的 epoch、并发阶段和非阻塞算子,统一了吞吐和低延迟两种诉求。

Spark 4.1 Microbatch 与 Real-Time Mode 架构对比:非阻塞执行替代微批处理

原文:Breaking the Microbatch Barrier · Databricks

拾穗视角:过去 Spark 和 Flink 的分工很明确——Spark 批、Flink 流。Spark Streaming 只是 microbatch,做不了真流。这次 Real-Time Mode 的意思是 Databricks 想把 Flink 的饭也抢过来。国内做实时数仓的团队可以观察一下:如果 Spark 真能做到 100ms,之前为了实时专门引入 Flink 的技术栈负担,可能真的会减轻。但这一天还没到——Flink 在真正的事件驱动场景仍然更成熟。


职业与观察:Data Scientist 为什么在 AI 时代反而更值钱

Hamel Husain:数据科学家的复仇

Hamel Husain(老牌 ML 工程师,前 GitHub、Airbnb)写了一篇爆款博客,标题叫 “The Revenge of the Data Scientist”

他的论点是:过去两年大家都在讨论 AI 工程师,觉得 Data Scientist 要被时代抛弃。但实际生产里,AI 产品的瓶颈不在会不会写 prompt,而在会不会做 eval、会不会设计实验、会不会分析生产 trace——这些恰恰是传统数据科学家的核心技能。

他举了一个具体例子:某 AI 产品团队一开始用”AI 工程师”写 prompt,上线后错误率 30%,不知道怎么降。后来加进一个数据科学家,做了一周的 eval 体系和 trace 分析,找到 3 个可以系统性优化的点,错误率降到 8%。

原文:The Revenge of the Data Scientist · Hamel Husain

拾穗视角:这和我们上周说的”数据岗被迫升级”正好是两面——升级不是让数据人变成 AI 工程师,而是让数据人把自己的老本行用到 AI 产品上。国内很多公司现在招”AI 产品工程师”,但干到后面发现真正能把 AI 产品质量做起来的,都是那些懂实验设计、懂数据分析的老派数据科学家。

如果你是数据人,不用焦虑 AI 抢饭碗。你该学的是怎么把你原来做 AB test、做 causal inference 的本事,搬到 AI 产品上。

BlaBlaCar:让 PM 用 AI 自助取数,错误率从 32% 降到 15%

法国拼车公司 BlaBlaCar 做了个面向 PM 的 AI 取数工具。关键不是用了多牛的模型,而是做了一份结构化的 schema 文档 + few-shot 示例库

PM 问”上季度巴黎到里昂的用户留存是多少”,AI 生成的 SQL 一开始错误率 32%。加上结构化 schema 文档后降到 15%。PM 的取数需求从”提工单给数据组”变成”自己搞定”。

SQL 错误率:初始 32% → 加 schema 文档 + few-shot 后 15% 角色变化:PM 从”等数据组排期”到”自助查询” 关键不是模型:用的就是通用大模型,赢在 schema 文档的打磨

原文:How BlaBlaCar PMs use AI to self-serve data · BlaBlaCar Engineering

拾穗视角:这里面有一个国内团队常常忽略的点——“让 AI 会写 SQL”和”让 AI 写出你公司业务口径的 SQL”是两件事。你司的表里叫 user_id 其实是 device_id,字段注释十年没更新,这种情况下任何大模型都会瞎猜。

真正让 Text-to-SQL 可用的,从来不是模型强弱,而是你有没有花时间把 schema 文档整理清楚。这是个苦工,但做完之后收益长期存在。


观点辩论:MCP 到底行不行?

这周海外圈子围绕 MCP(Model Context Protocol)吵了一架。一边是 Pinterest 晒战绩,另一边是一个前 AWS 的老工程师泼冷水。

Pinterest:MCP 月调用 66k 次,节省 7000 工时

Pinterest 讲他们构建了一整套 MCP Agent 服务器生态,配了 JWT + SPIFFE 的安全机制。月调用量 66000 次,累计帮工程师节省了 7000 小时

原文:Building an MCP Ecosystem at Pinterest

Julien Simon:MCP 在企业级还差关键件

前 AWS 主力布道者 Julien Simon 同一周发了一篇 “Still Missing Critical Pieces”,几乎是逐条反驳。

他的核心论点:MCP 在企业级场景下有三个硬伤——

  1. Token 开销:每次 Agent 调用都要把大量上下文塞进 prompt,成本高
  2. 黏性路由:多 Agent 协作时 session 状态不好管
  3. 治理缺失:没有细粒度权限、审计、版本管理

他的观察是:真正跑在生产上的企业级 AI 系统,反而更倾向直接调 API + 代码生成,而不是用 MCP。

原文:Still Missing Critical Pieces

拾穗视角:这两边我看都是对的。Pinterest 那种场景——内部工具调用、单租户、工程师自己用——MCP 跑得很好。Julien 说的场景——多租户、强治理、审计合规——MCP 还没到。

国内团队如果现在要做 Agent 体系,可以这么想:

  • 如果是工程师内部工具(调代码、查日志、跑任务),用 MCP 完全 OK,甚至推荐
  • 如果是面向业务的 Agent 产品(涉及客户数据、需要权限隔离),老老实实用 REST API + 自己写 orchestration

别被”MCP 是未来”这种话忽悠住,选型永远是看你的场景,不是看哪个标准最时髦


一个反直觉的故事:Markdown 文件如何干翻 5000 万美元的向量库

这是本期我最喜欢的一篇。

一个独立开发者 Michael Lanham 发了篇帖子,标题直接挑衅:“The Markdown File That Beat a $50M Vector Database”

事情是这样的:他在做一个单线程的 Agent 工作流,一开始用了某家估值 50M 美元的托管向量数据库,每月账单高得离谱。后来他试了一把把所有文档塞进一个大 Markdown 文件,配上开源的 sqlite-vec,跑在本地一个 SQLite 文件里。

结果:

  • Token 成本降到托管向量库的 1/10
  • 延迟下降(本地查询 vs 网络调用)
  • 查询准确率没有下降

Markdown + sqlite-vec 与托管向量数据库对比:同样的 Agent 工作流,成本相差一个数量级

他的结论是:对大多数 Agent 场景,你根本不需要”向量数据库”。你需要的是”结构化的上下文 + 一点 embedding search”。

原文:The Markdown File That Beat a $50M Vector Database

拾穗视角:去年一整年,向量数据库公司融了多少钱?Pinecone、Weaviate、Chroma、Milvus、Zilliz,随便一家都是几千万美元估值。但现在越来越多的实战反馈是——对中小 Agent 项目,向量数据库是过度工程

这个故事的真正启发是:技术选型要看实际负载,不要被融资新闻带偏。你的 Agent 每天处理 1000 个查询,用 SQLite + sqlite-vec 就够了;非要上 Pinecone,账单一个月能烧掉一个工程师的工资。

国内同理——如果你们公司正在评估向量数据库,先问自己:“我们的 QPS 真的到那个量级了吗?“没到就别上,老老实实用 PostgreSQL 的 pgvector 扩展,能省一大笔。


拾穗判断:跑得下去的 Agent,长得没什么气势

写完这一周的内容,我顺手把几篇文章甩给一个老朋友。他在一家中型银行带数据团队,去年立项了一个”数据智能体平台”,目标是”一个入口解决所有数据问题”。投了七八个人、干了大半年,还没上线。他读完 Meta 和 BlaBlaCar 那两篇,回我一句:“所以我们方向一开始就错了。”

其实错的不只是他们这一家。是这两年整个行业都默认一件事——做 AI 要做得”大”,要有”平台感”,要能”覆盖所有场景”。但翻完这一周的海外复盘才发现,真正跑下来的 Agent 全是反过来的:窄、小、专一,拒绝万能。Meta 用 50 个小 Agent 拼出一份上下文文档;Pinterest 把 MCP 拆成一个个服务器,只给工程师内部用;BlaBlaCar 的 AI 只解决 PM 自助取数这一件事。没有一个是”公司级助手”。

这里面有一个挺朴素的道理——能长期跑起来的系统,长得往往都不气派。就像我老家小区门口修了二十年的自行车摊,摊子看起来毫无章法,但什么车都能修。而那些 PPT 上画得满满当当、箭头飞来飞去的”AI 中台架构图”,经常是做给领导看的,不是做给工程师用的。

另一件让我感慨的,是 Hamel 那篇”Data Scientist 的复仇”。过去两年,身边不少数据分析师、数据科学家都在焦虑——是不是该转 AI 工程师了?要不要学 LangChain?要不要刷大模型证书?但真正把 AI 产品质量撑起来的人,往往还是那些会做 eval、会设计实验、会盯 trace 的老派数据人。你原先在 AB 测试里较过的真、在因果推断里想过的事,到了 AI 产品时代反而比任何时候都值钱。这不叫”风口回来了”,这叫”基本功没过期”。

最后一件事是关于钱。2023 年我陪一位朋友的公司做技术选型,他们坚持要上 Pinecone,理由是”大厂都在用”。那时候每月账单能顶一个中级工程师的工资。到了今年,这位独立开发者用 Markdown + sqlite-vec 把类似的活儿干了,成本降到 1/10,准确率没掉。很多事情都是这样的——风潮过去之后你才会发现,当初跟着跑的那群人,连方向都是别人指的

如果让我给这一期做一个收束,大概就是一句话:Agent 时代最稀缺的不是新技术,是敢把事情做小的勇气


📬 如果你在往下想这件事……

本期我自己最想再往下挖的,是 Meta 那个 50 个 Agent 群组——搬到 50 到 200 人的国内数据团队,到底要怎么切分?需要几个人?几个月?预算大概多少?

这不是随手能回答的问题。得攒几个真实案例,把成本账本算清楚,才值得写。

如果你们团队正在考虑类似的事,或者只是好奇国内能不能抄,欢迎直接加我微信聊聊(微信号:shisuidata,加的时候麻烦备注一下”数据周刊”)。攒够几位读者我就专门做一期深度拆解,讲落地路径 + 预算账本。

这类深度稿往后可能会作为拾穗 Pro 的专享内容,但现阶段拾穗所有内容都免费,我只是先收集”真在乎这事的人”。


本周其他值得看的


我叫石头,在数据行业里摸爬滚打了十几年,这一轮 AI,我也是边看边想。这里写的,就是这些观察——我觉得值得说出来的那部分。


《数据周刊》每周更新一期,挑海外值得国内数据人看的动态,附拾穗视角。拾穗数据|https://ss-data.cc

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →

1v1 咨询

有具体职业困惑?一小时说清楚

预约咨询 →
← 上一篇 影响力日常操作系统:21天习惯养成计划 下一篇 → 先成为,再做到