跳到正文

更多文章

数据质量不要只靠告警:真正有效的是把责任放进流程里 为什么你做的看板没人用:BI 自助分析不是把图放上去就行 临时分析别做完就扔:数据人如何把一次取数变成可复用资产 数据团队正在被重新定价:会做报表的人,和能推动决策的人 数据周刊|2026年5月第3周:Airbnb 网关、Netflix 身份、Meta 迁移
别让 AI 直接查库:企业问数 Agent 上线前必须补的 5 个底座

这半年,很多数据团队都会遇到一个问题:能不能做一个 AI 问数工具?

老板想在群里直接问:“上周华东区新客转化为什么下降?”业务希望不用等分析师,自己输入一句话就能拿到图表。技术团队看了几个 Demo,发现大模型确实能根据自然语言生成 SQL,接上数据库之后,似乎很快就能跑出结果。

于是很多项目的第一版设计都很直接:用户提问,大模型生成 SQL,系统执行查询,返回结果,再让模型总结。

这个链路在演示里很漂亮。

但在企业生产环境里,它也很危险。

因为企业问数真正难的,不是让模型写 SQL,而是让它在正确的口径、正确的权限、正确的上下文和可追责的流程里回答问题。

如果这些底座没有补齐,AI 问数上线得越快,风险扩散得越快。

第一件事:不要让自然语言直接撞数据库

自然语言的问题,天然是模糊的。

用户问“本月收入怎么样”,他可能想看 GMV,也可能想看实收,也可能想看财务确认收入。用户问“新客表现”,可能按首次注册算,也可能按首次下单算。用户问“华东区”,可能是销售大区、仓配大区,也可能是行政区域。

如果系统把这句话直接交给模型生成 SQL,模型会选择一个看似合理的解释。但这个解释未必是公司认可的解释。

AI 直接查库的风险

所以企业问数的第一条原则,是不要让自然语言直接撞数据库。

中间必须有语义层。

语义层不是一个时髦词,它的作用很朴素:把业务词和数据资产对应起来。收入是什么指标,新客是什么人群,华东是什么区域口径,订单表和支付表怎么关联,哪些字段可以被外部查询,哪些指标必须使用统一口径。

没有语义层,AI 只是会写 SQL 的实习生,而且是一个非常自信的实习生。

第二件事:指标口径要先有唯一入口

很多团队一上来就训练模型理解指标,其实顺序反了。

如果公司内部本来就没有统一指标入口,模型不可能凭空变出一致口径。它只会在一堆表名、字段名、历史 SQL、文档碎片里猜。

过去一个分析师猜错口径,影响一份报告。AI 问数猜错口径,可能影响几十个人的日常判断。

因此,上线问数 Agent 前,至少要先把高频指标整理出来。

不需要一开始覆盖全部指标。可以先覆盖 20 个最常用的经营指标:GMV、订单数、支付转化率、新客数、复购率、客单价、退款率、履约时长、库存周转、线索转化等。每个指标写清楚定义、计算逻辑、适用场景、时间粒度、负责人和禁用口径。

PRO 会员专属

本文为 PRO 会员专属内容,成为会员即可阅读全文。

PRO ¥199/年 · Pro 专属文章 + 2300+ 知识文档 + 会员社群

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →

1v1 咨询

有具体职业困惑?一小时说清楚

预约咨询 →
← 上一篇 数据团队正在被重新定价:会做报表的人,和能推动决策的人 下一篇 → 临时分析别做完就扔:数据人如何把一次取数变成可复用资产