月薪 3 万的数据专家，正在全职负责“垃圾分类”

摘要：世界是一个巨大的草台班子，而我们是在“屎山”上雕花的数据人。既然改变不了“垃圾进”，那就想办法别让它“垃圾出”。

北京这两天的风有点大，吹得人心里发慌。坐在工位上，看着窗外灰蒙蒙的天，突然觉得屏幕上跳动的那些数字，像极了菜市场里刚卸下来的萝卜白菜。

带着泥，带着水。若是赶上运气不好，可能心里还是烂的。

大家好，我是石头。

前两天，我在一个数据群里看到一个哥们儿在“发疯”。

大概意思是说，他辛辛苦苦跑了一周的模型，做了几十页的 PPT，结果汇报的时候，被老板当场把电脑合上了。

理由很简单：数不对。

老板指着第一页的一个数字问：“为什么这个月的 GMV 比财务那边少了 500 万？”

那哥们儿当时就蒙了，回去查了一宿。

真相让人极其下头：上游业务系统的一个开发，随手把订单状态枚举值从小写改成了全大写。就这么一个极其弱智的改动，导致数仓的数据清洗脚本漏掉了整整两天的量。

这件事听起来是个段子，但在咱们数据从业者的眼中，这是天天发生的恐怖故事。

我们经常自嘲是“炼丹的”。但如果你扔进炉子里的原材料，不是灵芝草药，而是一堆垃圾…

不管你的炉火多旺，你的算法多炸裂，最后练出来的，只能是一坨… 更有光泽的垃圾。

这就是数据领域最经典的定律：Garbage In, Garbage Out（垃圾进，垃圾出）。

今天，我想聊聊这个让无数数据人崩溃的话题——数据治理。或者说，聊聊为什么我们明明拿着高薪，却觉得自己每天都在“海量垃圾堆”里做保洁。

02 根本不存在“干净”的数据

首先，我要打破一个很多新人的幻想。

大家做练习项目的时候，拿到的数据集是不是都特别完美？泰坦尼克号的数据，每一列都整整齐齐。

醒醒，那是童话世界。