跳到正文

更多文章

为什么你做的看板没人用:BI 自助分析不是把图放上去就行 临时分析别做完就扔:数据人如何把一次取数变成可复用资产 别让 AI 直接查库:企业问数 Agent 上线前必须补的 5 个底座 数据团队正在被重新定价:会做报表的人,和能推动决策的人 数据周刊|2026年5月第3周:Airbnb 网关、Netflix 身份、Meta 迁移
数据质量不要只靠告警:真正有效的是把责任放进流程里

数据质量问题出现时,很多团队的第一反应是加告警。

空值多了,加一个空值率告警。行数波动了,加一个同比环比告警。任务延迟了,加一个 SLA 告警。指标口径变了,加一个异常监控。告警越来越多,群消息越来越吵,最后大家开始静音。

告警不是没用。没有监控,数据问题只能等业务投诉。

但如果数据质量只靠告警,治理一定会变成救火。

因为告警只能告诉你“出事了”,不能自动回答“为什么会出事、谁负责、下次怎么避免”。真正有效的数据质量治理,不是把更多规则塞进监控系统,而是把责任放进流程里。

告警多,不代表质量好

很多团队会用告警数量衡量质量建设:我们有多少条规则,覆盖多少张表,监控多少指标。

这些数字有价值,但不能说明质量真的好。

如果告警经常误报,大家会忽略。如果告警没人响应,规则再多也只是摆设。如果告警只告诉你任务失败,却没人知道影响哪些看板和会议,它就很难进入优先级。如果告警修完之后没有复盘,下次还会以类似方式发生。

告警疲劳

数据质量治理最怕“看起来有系统,实际上没责任”。

系统能发现问题,但组织要解决问题。

质量问题要按影响分级

不是所有数据质量问题都一样。

一张实验表延迟半小时,和经营会核心指标延迟半小时,不是同一级别。一个低频字段空值率上升,和支付金额字段异常,也不是同一级别。

如果所有告警都用同样方式推送,团队迟早会麻木。

质量分级应该至少考虑三件事:下游影响、业务时效、指标重要性。

下游影响是看这张表或字段被哪些任务、看板、报告使用。业务时效是看问题是否会影响当天决策。指标重要性是看它是否属于核心经营口径。

高影响、高时效、核心指标的问题,需要立即响应。低影响、低时效、非核心字段,可以进入排期治理。

分级的目的,不是忽略小问题,而是让团队把注意力放在真正会伤害业务信任的地方。

质量要前置到开发流程

PRO 会员专属

本文为 PRO 会员专属内容,成为会员即可阅读全文。

PRO ¥199/年 · Pro 专属文章 + 2300+ 知识文档 + 会员社群

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →

1v1 咨询

有具体职业困惑?一小时说清楚

预约咨询 →
← 上一篇 为什么你做的看板没人用:BI 自助分析不是把图放上去就行