跳到正文

更多文章

影响力日常操作系统:21天习惯养成计划 从技能雇佣者到价值创造者 互惠账户的运营 影响力的三层架构 组织的注意力经济学
月薪 3 万的数据专家,正在全职负责“垃圾分类”

摘要:世界是一个巨大的草台班子,而我们是在“屎山”上雕花的数据人。既然改变不了“垃圾进”,那就想办法别让它“垃圾出”。


01

北京这两天的风有点大,吹得人心里发慌。 坐在工位上,看着窗外灰蒙蒙的天,突然觉得屏幕上跳动的那些数字,像极了菜市场里刚卸下来的萝卜白菜。

带着泥,带着水。若是赶上运气不好,可能心里还是烂的。

大家好,我是石头。

前两天,我在一个数据群里看到一个哥们儿在“发疯”。

大概意思是说,他辛辛苦苦跑了一周的模型,做了几十页的 PPT,结果汇报的时候,被老板当场把电脑合上了。

理由很简单:数不对。

老板指着第一页的一个数字问:“为什么这个月的 GMV 比财务那边少了 500 万?”

那哥们儿当时就蒙了,回去查了一宿。

真相让人极其下头:上游业务系统的一个开发,随手把订单状态枚举值从小写改成了全大写。就这么一个极其弱智的改动,导致数仓的数据清洗脚本漏掉了整整两天的量。

这件事听起来是个段子,但在咱们数据从业者的眼中,这是天天发生的恐怖故事

我们经常自嘲是“炼丹的”。但如果你扔进炉子里的原材料,不是灵芝草药,而是一堆垃圾…

不管你的炉火多旺,你的算法多炸裂,最后练出来的,只能是一坨… 更有光泽的垃圾

这就是数据领域最经典的定律:Garbage In, Garbage Out(垃圾进,垃圾出)。

今天,我想聊聊这个让无数数据人崩溃的话题——数据治理。或者说,聊聊为什么我们明明拿着高薪,却觉得自己每天都在“海量垃圾堆”里做保洁。

02 根本不存在“干净”的数据

首先,我要打破一个很多新人的幻想。

大家做练习项目的时候,拿到的数据集是不是都特别完美?泰坦尼克号的数据,每一列都整整齐齐。

醒醒,那是童话世界。

MAX 会员专属

本文为 MAX 会员专属内容,升级到 MAX 即可阅读全文。

MAX ¥498/年 · 全部专属文章 + 2300+ 知识文档 + 1v1 咨询

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →
← 上一篇 Forge 开发实录 day 6:从原型到可部署的服务 下一篇 → 数据分析师 L1:入门筑基