AI 时代数据人的学习地图——表达力、阅读力，与那些不必再练熟的东西

我五年前每周刷 LeetCode 和 SQL 题。

那时候有个习惯——上下班路上听播客，到了公司打开 LeetCode，挑两道中等难度的题，闭着眼睛刷。pandas 的语法烂熟于心，Spark 的 join 优化我能在白板上画三种实现方式。那一年我觉得自己最值钱的就是这种”熟练度”——简历上一摆，比同段位的人强一截。

去年我打开 LeetCode 想随便练一下，发现页面边上多了个按钮：“AI 一键解答”。点进去，我那天准备做 30 分钟的题，AI 用 3 秒把代码 + 解释 + 复杂度分析全部给我了。

那一刻我突然意识到一件让我有点无措的事——我过去 5 年最值钱的那一身”熟练度”，正在被以小时为单位地折旧。

这一波 AI 对学习的真实冲击是什么

这不是一篇讨论”AI 会不会替代数据人”的文章——这种讨论已经够多了。这是一篇讨论**“已经在数据行业里的人，接下来到底该学什么”** 的文章。

先把判断说在前面：

AI 没有替代数据人，但 AI 把”熟练度”这件事的相对价值打到了零。剩下来真正稀缺的，是表达力、阅读力，和那些 AI 还做不好的判断。

我前几天写过《数据人的工具瘾》和《会用模型的能力清单》，分别讲了”不要再追工具""会用模型的 5 种能力”。这一篇是把这两条线合起来——给已经在数据行业里的人一张重新校准过的学习地图。

它的核心和《技能折旧表》不一样。折旧表讲的是”哪些区域该学、哪些该放”——是学什么。这一篇讲的是”怎么学、学到什么深度”——是学的方式本身该变。

论点一：表达力是 AI 时代最稀缺的能力之一

先讲我的核心判断——表达力会变成 AI 时代最稀缺的能力之一。

这听起来反直觉。“表达力”这个词模糊、文科、像是文学社的事。但 AI 时代的”表达力”完全是个工程能力——它是你让 AI 替你做事的关键接口。

具体讲，“表达力”在数据人这一行里至少包括下面几个形态：

第一种，把模糊需求翻译成具体指令的能力

业务方扔给你一句”看看用户活跃度怎么样”——含糊不清。你要在 30 秒内问出”看哪段时间？哪个产品线？要分群看吗？什么算异常？“——这是表达力。

这种能力在 AI 时代变得更重要——因为现在你不只是和业务方对话，还要和 AI 对话。AI 比业务方更愿意听你的，但 AI 更不能猜你的意思。你说不清，AI 就跑不准。

第二种，把复杂问题拆成可执行步骤的能力

数据建模就是这种能力的一种——把”一个用户行为”翻译成几十张表里的几百个字段。这件事 AI 永远做不好——它不知道你公司的具体业务、不知道哪些字段有歧义、不知道哪些维度需要保留可追溯性。

第三种，把分析结果说成”决策者听得懂”的话的能力

你跑出一组数据：DAU 上周下跌 7%，主要是新增用户下降。这是个 SQL 输出。

但你递给业务负责人的不该是 SQL，是这样一段话：

“上周 DAU 下跌 7%，但老用户活跃度其实是在涨的——下跌全部来自新增用户减少。结合上周市场投放预算降了 30%，我倾向是投放问题，不是产品问题。建议先看一下投放渠道的转化漏斗。”

前者 AI 能做，后者 AI 做不了——后者要求你理解决策者关心什么、有什么决策选项、用最少的话给最有用的判断。这是高阶表达力。

第四种，写文档、写复盘、写技术博客的能力

这一种最容易被低估，但实际复利最大。你能写清楚一件事，意味着你想清楚了这件事。反过来——写不清楚的东西，多半你也没想清楚。

写作是数据人最便宜的判断力训练器。

论点二：阅读力是另一个被严重低估的稀缺能力

第二个稀缺能力——阅读力。

这个词我用得很广。它指的不只是”看懂中文”,而是”在信息爆炸时代快速从陌生材料里提取要点的能力”。

具体形态：

第一种，读 AI 输出的能力

AI 给你写了 200 行代码、生成了一份 5 页的分析报告、推送了一段方案建议——你能不能 5 分钟之内判断它对不对、有没有 bug、哪些是真见解哪些是套话？

这是 AI 时代最直接的”阅读力”考验。能识别 AI 输出问题的人，越来越值钱。只能”接受 AI 输出”的人，就是在帮 AI 打杂。

第二种，读论文 / 技术文档的能力

技术变化太快，每周都有新的开源项目、新的论文、新的最佳实践。能不能 30 分钟读完一篇 arxiv 论文，提取关键贡献、判断是否值得跟进？ 这种能力以前就值钱，AI 时代更值钱——因为信息密度太高了，慢慢读会被节奏甩开。

第三种，读开源代码的能力

LangChain、DSPy、MCP——这些项目你用还是不用先不说，你能不能花一个下午读完核心代码、理解架构？ 这种能力是你独立判断”该不该用”的基础。只能跟着教程走、不能读代码的人，永远在被工具牵着走。

第四种，读人 / 读会议 / 读组织的能力

这是最高阶的阅读力——在一场会议里 30 分钟，听出谁是真做事的、谁在等结果、谁是潜在阻力。这种”读人”能力 AI 永远学不会，但它决定你能不能在公司里把事情推下去。

论点三：技术底层原理”知道和了解”，但不必再练熟

如果说表达力和阅读力是”加分项”，那么底层技术原理是”减分项”——该有，但不必深练。

这是这一篇里最反直觉、也最重要的一个判断。

过去数据人的学习模式是这样：

学一个新技术 → 读官方文档 → 跟着教程做几个项目 → 反复练习直到”闭眼能写”

这套模式的核心是”熟练度”。它在 AI 之前是对的——因为你的工作里需要每天写 SQL、每天调 Spark 参数、每天 debug pandas。熟练度直接决定你的产出速度。

但今天熟练度的边际价值已经不一样了：

你练了 100 小时的 pandas，AI Copilot 写得比你快、记得比你准
你练了 50 小时的 SQL，AI 一眼能看出比你优雅的写法
你练了一周的 LangChain，半年后 LangChain 已经被新框架替代

练熟练度，就是在和 AI 比赛”谁记得更多”——这场比赛你赢不了。

那应该投什么？应该投”知道和了解”——理解原理，能看懂、能判断、能在出问题时定位。

举几个具体例子，说明”练熟”和”知道”的区别：

Spark 性能调优：

练熟版本：背 100 个 spark.sql.shuffle.partitions 之类的参数、记住每个的默认值和场景
知道版本：理解 Spark 的执行模型、shuffle 是怎么发生的、partition 数对性能的影响逻辑——遇到具体问题让 AI 帮你查参数就行

SQL 优化：

练熟版本：背 30 种 SQL 重写技巧、能秒认 EXPLAIN 输出
知道版本：理解执行计划的核心元素（join 顺序、index 选择、cardinality 估算）——具体的 EXPLAIN 解读交给 AI

机器学习：

练熟版本：能从零实现 random forest、能手推 gradient boosting 的损失函数
知道版本：理解树模型 vs 神经网络的差异、bias-variance tradeoff、什么场景该用什么——具体的实现 sklearn 一行解决

Transformer 架构：

练熟版本：能从零实现 attention 机制、能默写 multi-head 的矩阵运算
知道版本：理解 attention 在做什么、自注意力为什么强、long context 为什么贵——这就够了

注意——这些”知道版本”也不是浅薄的科普。它们要求你真正理解”为什么”和”什么时候”——这种理解是判断力，不是熟练度。

判断力 = 知道边界，知道选择，知道何时不用。这不是 AI 能替代的。

学习时间该怎么重新分配

按上面三个论点，我建议把数据人的学习时间重新分配成下面这个比例：

AI 时代数据人的学习时间分配：表达力+阅读力 50%、判断力 30%、技术原理"知道"15%、新工具跟踪 5%

这和之前《技能折旧表》里给的 “保值 50% / 新生 30% / 中速 20%” 不一样——那一篇是从”内容”维度切的，这一篇是从”方式”维度切的。两个维度可以叠加用。

每一块的具体动作：

50% 表达力 + 阅读力

表达力训练：

每周写一篇 至少 2000 字的技术博客或业务复盘——发出去，被人读，接受批评
每天和 AI 对话之前先写”我想要什么”——具体到 schema、口径、格式。把 prompt 当文档写
看自己写的 prompt ——分析哪一步表达模糊。这是最直接的训练
学一两本经典写作书——William Zinsser 的《On Writing Well》、Steven Pinker 的《The Sense of Style》。这些书价值远超 AI 教程

阅读力训练：

每周读 1 篇 arxiv 论文 + 1 篇大厂工程博客 ——不要细读，练”快速提取要点”
每月读 1 个开源项目的核心代码 ——挑你正在用的，比如 LangChain、DSPy、Iceberg。读它的设计、不要只用 API
AI 每次给你输出之后，强迫自己挑出 1-2 个”它做得不够好的地方” ——这是最直接的阅读力训练

30% 判断力（建模 / 因果 / 业务）

这一块和之前那篇《技能折旧表》讲的”保值区”重合，不重复。简短列几条：

系统读完 Kimball 的《数据仓库工具箱》
学一遍因果推断（Pearl 的《Book of Why》入门 + Cunningham 的 Mixtape 进阶）
做完整的 AB test 设计——从假设、样本量、统计检验、解读
持续在公司接”模糊问题”——这是判断力的真实训练场

15% 技术原理”知道”

不用深练，但要”知道”：

LLM 架构：Transformer / attention / context window 的本质
向量检索：embedding / similarity / ANN 算法的核心思想
Spark / Flink 的执行模型——理解 shuffle、stage、checkpoint 是什么
数据库索引、查询优化、并发控制的核心概念
分布式系统的几个基本权衡（CAP / 一致性 / 容错）

这些不是为了在面试里答出来，是为了”出问题时能定位”。具体写代码、写 SQL、调参数的事情，让 AI 干。

学习方式建议：读 1-2 本入门好书（不是教程）+ 看几个高质量讲解视频——比如 3Blue1Brown 的 Transformer 系列、Andrej Karpathy 的零基础课。不要刷题、不要背参数、不要默写代码。

5% 新工具跟踪

保持这个比例——不要让它变成 50%。新工具有红利，但红利窗口期通常 6-12 个月。

具体做法：

订阅 1-2 个高质量 newsletter（Data Engineering Weekly、Benn Stancil）
每周 30 分钟扫一眼新动态
看到值得深入的，就深入；看不到就拉倒
不要追每一个 hype——“懒”在这一块是美德

几个反直觉的建议

写到这里有几条反直觉但我觉得真有用的建议：

第一，写代码越来越像写诗——不在量在质

5 年前我会觉得”写代码就是要快”。现在我反过来想——该慢的时候要慢。AI 帮你写出一段代码，你读一遍、想一遍、改一遍——慢的那部分时间比写本身值钱。

第二，每周留 4 个小时”无 AI 时间”

这听起来反 AI，但我自己跑了半年发现——每周强迫自己 4 个小时不用 AI、自己想问题、自己写代码、自己读资料，对判断力的训练效果惊人。AI 用太多会让你的”独立思考肌肉”萎缩。

第三，看一个工具值不值得学，先问”它的核心思想在 5 年后还存在吗”

如果一个工具的核心思想（不是 API）5 年后还会存在，可以学。如果它本身就是临时形态——比如某个具体框架的某个版本——浅尝辄止。

第四，不要追”全栈 AI 工程师”这种标签

我前一篇讲过《“AI 工程师”是不是泡沫》。同样的逻辑——追”全栈 AI”这种标签 5 年后会回头看是个坑。做深一两件事，比浅尝十件事更值钱。

第五，最值钱的不是”学得快”，是”学得对”

“学得快”在 AI 之前是有价值的——因为你能比同事先掌握新工具。AI 之后这个红利消失了——AI 学得比你快得多。剩下来真正重要的是”学得对”——投在对的方向、深到对的程度、放弃对的东西。

收束

如果让我给这一篇做一句话的收束：AI 时代数据人最值得投的两件事，是表达力和阅读力——剩下的事情，知道、了解、关键时让 AI 帮你。

这篇兑现了我前面几篇里反复出现的那个钩子——“工程路线学习地图”。但我后来想清楚了——地图本身不是这一篇的核心。核心是这套学习心法。有了这套心法，你自己就能给自己画地图——根据你所在的领域、你的段位、你的兴趣。

我自己接下来想做的事，是把这套心法在自己身上跑一遍——把过去花在”熟练度”上的时间挪给表达力和阅读力，看一年之后能不能感受到差异。

说到这里我自己一直在琢磨一件事——这套学习心法，对不同段位的数据人（应届 / 2-4 年 / 4-6 年 / 6+ 年）的具体落地动作会是什么？我应不应该按段位再写一份具体的实操指南？ 这是我最近在想的下一个题目，有想法的朋友可以加我微信（shisuidata）一起聊。

我叫石头，在数据行业里摸爬滚打了十几年，学到的东西大半是在做错之后才想明白的。这里写的，就是这些教训——我觉得值得说出来的那部分。

拾穗数据｜https://ss-data.cc

更多文章

这一波 AI 对学习的真实冲击是什么

论点一：表达力是 AI 时代最稀缺的能力之一

论点二：阅读力是另一个被严重低估的稀缺能力

论点三：技术底层原理”知道和了解”，但不必再练熟