AI 问数 Demo 很顺，为什么一上线就翻车？

AI 问数 Demo 最容易让人兴奋。

会议室里，产品同学打开一个聊天框，输入：

“看一下上周各渠道新客转化率。”

十几秒后，SQL 出来，表出来，图也出来。

屏幕前的人会点头。

老板说：“这不挺好吗？业务以后自己问就行了。”

可是到了上线评审，气氛通常会变。

数据负责人开始问：这个“新客”按注册算，还是按首单算？权限怎么控？模型能不能看到成本表？如果 SQL 写错，谁负责？同一个问题今天和明天回答不一样怎么办？

刚才还很顺的 Demo，突然像一辆开上真实道路的样车。展厅里转向很轻，上路以后才发现刹车、盲区、保险和责任都没说清楚。

AI 问数最容易被低估的地方在这里：它不是把 SQL 写快一点，而是把数据团队原来藏着的基础问题，一口气推到业务面前。

AI 问数 Demo 和真实上线之间隔着权限、口径、责任和失败样例

Demo 顺，是因为问题被提前打扫过

很多 Demo 的问题都很干净。

表是选好的，字段是讲过的，问题是设计过的，权限也暂时不管。模型只需要在一个小范围里表现聪明。

真实业务不是这样。

业务会问：

“上周活动效果怎么样？”
“为什么华东区掉了？”
“老客复购是不是变差了？”
“这个渠道还要不要投？”

这些问题听起来像一句话，里面却藏着一堆判断。

“活动效果”看成交、转化、利润，还是新客？“华东区”按收货地址、销售区域，还是门店归属？“老客”按历史购买，还是最近 90 天？“要不要投”还要看预算、库存、毛利和渠道周期。

模型如果不知道这些约定，就只能猜。

猜对了，大家觉得 AI 很强。

猜错了，业务会觉得数据不可信。

更麻烦的是，Demo 里的“顺”经常会被误读成“可以上线”。

这就像在空会议室里试一把伞。伞撑开了，颜色也好看，但外面有没有风，雨从哪个方向来，地铁口会不会挤，没人知道。真实上线以后，业务问题会带着脾气进来：时间模糊、口径含糊、权限交叉、老板要导出明细。那时候，AI 不只是写 SQL，它是在替公司暴露数据秩序。

第一处翻车：权限不是登录按钮

AI 问数上线前，最容易被轻描淡写的是权限。

很多团队会说：“我们接公司单点登录，按账号控制就行。”

这还不够。

数据权限不是能不能登录，而是能不能看到某些表、某些字段、某些行，以及能不能把这些信息组合起来。

一个销售经理可以看自己区域的客户，但未必能看全公司成本。一个运营同学可以看渠道转化，但未必能看用户手机号。模型生成 SQL 时，如果没有权限约束，就可能把本来不该组合的数据拼到一起。

所以 AI 问数的权限至少要回答 3 个问题：

模型能访问哪些数据资产；
用户能看到哪些查询结果；
生成 SQL 之前，权限过滤在哪里生效。

权限不是上线后再补的小功能。

它是 AI 问数能不能进公司的门槛。

AI 问数上线前要先把权限、语义层和指标口径放到同一张图里

第二处翻车：口径没有变成机器能懂的东西

过去做 BI，口径很多时候写在文档里。

人可以看文档，也可以问数据同学。虽然麻烦，但还能转。

AI 问数不一样。

如果口径只停在文档里，没有进入指标层、语义层或可检索的元数据，模型很可能不知道该用哪个字段、哪张表、哪段过滤条件。

比如“有效订单”。

文档里写得很清楚：排除测试订单、取消订单、退款订单，按支付时间统计。

可是模型如果只看到 orders 表和字段名，它可能会写出一个看起来很顺的 SQL，却漏掉退款过滤。

这不是模型笨。

是公司没有把业务约定变成机器可使用的知识。

AI 问数要上线，至少要先整理一批高频指标：

指标名称；
指标定义；
推荐使用表；
必要过滤条件；
常见误用；
负责人。

不用一口气做完全公司，先做 20 个高频问题就够了。

这 20 个问题不要坐在会议室里凭空想。

去翻真实记录。经营会里老板反复问的，业务群里每周都有人追的，数据同学临时取数最多的，才是第一批应该整理的对象。AI 问数最怕从“我们觉得业务会问什么”开始，因为这句话本身就很像一个没跑过生产的 Demo。

第三处翻车：模型会回答，但不会承担责任

公司里最怕一种 AI 答案：语气很确定，结果不可追溯。

业务问了一个问题，系统给了一个图。

图错了。

接下来大家开始问：当时用户问了什么？模型生成了哪段 SQL？用了哪些表？数据版本是什么？有没有人工审核？谁点击了导出？

如果这些都没有记录，这个系统就不是问数工具，而是一台责任雾化器。

它把错误分散到空气里，最后还是数据团队来吸。

AI 问数上线前，必须保留链路：

原始问题；
改写后的意图；
生成 SQL；
使用的数据表和字段；
执行时间和数据版本；
返回结果；
用户反馈。

这些记录不只是为了审计，也是为了让系统变好。没有记录，就没有复盘。

AI 问数必须留下从原始问题到 SQL、结果和反馈的审计链路

第四处翻车：只看成功样例，不看失败样例

Demo 喜欢展示成功。

上线要准备失败。

你需要收集一批业务真的会问、模型容易答错的问题。

比如：

模糊时间：“最近表现怎么样？”
模糊对象：“重点客户有哪些？”
口径冲突：“新客转化为什么和看板不一样？”
权限边界：“把所有客户明细导出来。”
业务归因：“为什么销售掉了？”

这些问题不能只靠 prompt 解决。

它们需要产品交互、权限规则、指标解释、拒答机制和人工兜底。

一个成熟的 AI 问数系统，应该敢于说：

“这个问题需要先选择统计口径。”

“你没有权限查看该字段。”

“这个指标存在两个定义，请选择经营口径或运营口径。”

拒绝乱答，比流畅胡答更重要。

这句话很不好听，但很实用。

很多系统上线后最先翻车，不是因为它不会回答，而是因为它太爱回答。业务问了一个不完整的问题，它不追问；用户没有权限，它绕过去；指标有两个定义，它挑一个看起来最顺的。表面上体验很丝滑，实际上把风险滑进了结果里。

上线前，先补 5 件小事

如果你的团队正在做 AI 问数，不用一上来就建一个宏大的平台。

先补 5 件小事：

第一，整理 20 个真实高频问题。

不要自己编，去看群聊、工单、经营会和临时取数记录。

第二，为每个问题标注推荐指标和表。

让模型知道该走哪条路。

第三，给核心指标写机器可用的定义。

不是长文档，而是能被检索、能被引用的短定义。

第四，保留问题到 SQL 到结果的链路。

错了能回放，才能改。

第五，设计拒答和澄清。

不知道就问，不该答就拒绝。

AI 问数上线前先补真实问题、推荐指标、机器定义、审计链路和拒答澄清

AI 问数的价值不是让数据团队消失。

它真正好的方向，是把数据团队从反复取数里解放出来，去维护口径、边界和信任。

这活不轻，但比天天救火值得。

我叫石头，在数据行业里摸爬滚打了十几年，这一轮 AI，我也是边看边想。这里写的，就是这些教训——我觉得值得说出来的那部分。

更多文章

Demo 顺，是因为问题被提前打扫过

第一处翻车：权限不是登录按钮

第二处翻车：口径没有变成机器能懂的东西

第三处翻车：模型会回答，但不会承担责任

第四处翻车：只看成功样例，不看失败样例

上线前，先补 5 件小事

加入免费社群

成为会员

1v1 咨询

AI 问数 Demo 很顺，为什么一上线就翻车？

更多文章

Demo 顺，是因为问题被提前打扫过

第一处翻车：权限不是登录按钮

第二处翻车：口径没有变成机器能懂的东西

第三处翻车：模型会回答，但不会承担责任

第四处翻车：只看成功样例，不看失败样例

上线前，先补 5 件小事

加入免费社群

成为会员

1v1 咨询

相关文章

AI 写了 1 条 SQL，看起来全对，直到 LEFT JOIN 被改没了

别让 AI 直接查库：企业问数 Agent 上线前必须补的 5 个底座

AI 写 SQL 越快，数据人越容易背锅