摘要:世界是一个巨大的草台班子,而我们是在“屎山”上雕花的数据人。既然改变不了“垃圾进”,那就想办法别让它“垃圾出”。
01
北京这两天的风有点大,吹得人心里发慌。 坐在工位上,看着窗外灰蒙蒙的天,突然觉得屏幕上跳动的那些数字,像极了菜市场里刚卸下来的萝卜白菜。
带着泥,带着水。若是赶上运气不好,可能心里还是烂的。
大家好,我是石头。
前两天,我在一个数据群里看到一个哥们儿在“发疯”。
大概意思是说,他辛辛苦苦跑了一周的模型,做了几十页的 PPT,结果汇报的时候,被老板当场把电脑合上了。
理由很简单:数不对。
老板指着第一页的一个数字问:“为什么这个月的 GMV 比财务那边少了 500 万?”
那哥们儿当时就蒙了,回去查了一宿。
真相让人极其下头:上游业务系统的一个开发,随手把订单状态枚举值从小写改成了全大写。就这么一个极其弱智的改动,导致数仓的数据清洗脚本漏掉了整整两天的量。
这件事听起来是个段子,但在咱们数据从业者的眼中,这是天天发生的恐怖故事。
我们经常自嘲是“炼丹的”。但如果你扔进炉子里的原材料,不是灵芝草药,而是一堆垃圾…
不管你的炉火多旺,你的算法多炸裂,最后练出来的,只能是一坨… 更有光泽的垃圾。
这就是数据领域最经典的定律:Garbage In, Garbage Out(垃圾进,垃圾出)。
今天,我想聊聊这个让无数数据人崩溃的话题——数据治理。或者说,聊聊为什么我们明明拿着高薪,却觉得自己每天都在“海量垃圾堆”里做保洁。
02 根本不存在“干净”的数据
首先,我要打破一个很多新人的幻想。
大家做练习项目的时候,拿到的数据集是不是都特别完美?泰坦尼克号的数据,每一列都整整齐齐。
醒醒,那是童话世界。