跳到正文

更多文章

AI 合规开始变严,普通数据人要知道哪几件事? 企业 AI 数据合规入门:数据人必须懂的四条边界 别把数据治理做成填表:从一次指标口径争议开始 业务反复改口径,不一定是业务不专业 数据人不要只盯互联网:制造、医保、政务正在释放新机会
高质量数据集为什么突然被反复提起?

一个做 AI 应用的团队,Demo 演示很顺利。

领导站在会议室前面看了一会儿,问了一句:“能不能接真实业务数据?”

空气突然安静。

不是模型不行,也不是工程师不努力,而是大家都知道,一旦接入真实数据,很多旧问题会一起冒出来:字段口径不统一,样本来源说不清,敏感信息没有标记,历史版本找不到,业务说“这个标签可能不准”。

这就是高质量数据集最近被反复提起的原因。

它不是一个新名词突然变时髦,而是 AI 把过去藏在报表背后的数据问题照亮了。以前报表错一点,可能靠人工解释过去;现在数据直接进入模型、问数系统和自动化流程,错一次,就可能被放大很多次。

高质量不是更多数据

高质量不是更多数据

很多团队一听到“高质量数据集”,第一反应是多找数据、多做标注、多整理文件。

这不算错,但很容易走偏。

数据多,不等于质量高。样本量大,不等于能用。字段齐全,也不等于业务敢信。

真正的质量,必须和场景绑在一起。

如果这批数据要服务智能客服,关键不是“问答对有多少”,而是问题表达是否覆盖真实用户、答案是否有时效、敏感信息是否被过滤、知识库更新后旧答案是否会失效。

如果这批数据要服务销售线索评分,关键不是“客户字段有多少”,而是阶段定义是否稳定、成交结果是否能回溯、渠道来源是否可信、不同团队对“有效线索”的理解是否一致。

所以,高质量数据集的第一句话不应该是“我们有多少数据”,而应该是“这批数据要服务哪个动作”。

没有动作,质量就没有方向。

AI 让旧的数据质量问题变贵

过去很多数据质量问题,不是不严重,而是代价没有马上显现。

报表里某个字段偶尔为空,业务同学可以问一句;指标口径有分歧,开会时可以解释;标签不太准,运营还可以人工筛一下。

到了 AI 应用里,这些缓冲区会变小。

模型不会自动理解公司内部那些没有写清楚的口径。它会把含糊当事实,把缺失当正常,把脏数据当输入,把历史错误包装成一个很自然的回答。

这才是高质量数据集变重要的地方。

它不是为了让数据目录好看,而是为了让后面的智能应用不要在一开始就吃错东西。

一个数据从业者要看到这里的变化:以前你交付的是一次取数结果,现在你交付的是一份可被反复调用的数据供给。

供给一旦被反复调用,质量、权限、版本和责任就不能靠临时解释。

数据集要服务具体业务动作

高质量数据集不是孤零零地存在。

它应该能回答四个朴素问题。

第一,谁会反复使用它?

如果找不到稳定使用者,它大概率只是一次性材料。

第二,它支撑什么动作?

是训练模型、回答问题、辅助审批、推荐内容,还是支撑经营复盘?不同动作,对质量的要求完全不同。

第三,错了会影响谁?

如果错误只影响一张试验报表,风险有限;如果错误会影响客户权益、审批结果、合规判断,就必须有更严格的边界。

第四,后续谁维护?

数据集不是做好一次就结束。字段会变,业务会变,权限会变,标签标准也会变。没人维护的数据集,很快就会从“高质量”变成“历史遗留”。

这四个问题问清楚,数据集才开始像资产。

普通数据人要从取数转向供给

对普通数据开发、数据分析师来说,这件事的变化很实际。

以前业务要数据,你把 SQL 写出来,把结果给过去,就算完成一次支持。

以后公司要做 AI 问数、智能客服、风控模型、自动化运营,你不能只交一份结果。你要让别人知道:这份数据从哪里来,字段怎么定义,哪些值不可信,哪些数据不能被模型使用,后续怎么更新,出了问题找谁。

这听起来像治理,其实也是职业机会。

因为越来越多公司会发现,真正稀缺的不是会调用模型的人,而是能把业务数据整理成可用、可信、可追溯供给的人。

这类人不一定站在聚光灯下,但会越来越靠近关键项目。

下次遇到类似问题,可以先做三件事

第一,先写一张场景卡。

不用复杂,写清楚使用者、业务动作、数据范围、错误影响和维护人。

第二,给数据集补一份说明书。

字段定义、样本来源、更新时间、缺失规则、权限边界、已知风险,都应该写下来。说明书不需要漂亮,但要能让接手的人看懂。

第三,把验收标准放到前面。

不要等标注完、文件夹建好、模型接上之后才讨论质量。先说清楚什么叫合格,谁验收,抽检多少,错了怎么改。

高质量数据集不是更多数据。

它是一种更认真地对待数据供给的方式。

以前大家总说数据是资产。到了 AI 应用真正落地的时候,这句话终于开始有了压力。

因为资产不能只放在文件夹里。

资产要能被使用,也要经得起追问。

数据从业者全栈知识库

如果你想系统补齐数据治理、AI 应用、指标体系和职业成长这些能力,可以继续看数据从业者全栈知识库。这些主题我会继续拆成公司里能真正用上的方法。


我叫石头,在数据行业里摸爬滚打了十几年,最近越来越感觉到,AI 时代最贵的不是模型热闹,而是数据能不能被放心使用。这里写的,就是这些教训——我觉得值得说出来的那部分。

参考资料

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →

1v1 咨询

有具体职业困惑?一小时说清楚

预约咨询 →
← 上一篇 你在公司做了很多数据工作,为什么没人觉得你重要? 下一篇 → 领导突然要高质量数据集:这不是标注任务,而是业务资产工程