月度经营会议。
产品说:我们这个月的DAU是500万。
运营说:不对吧,我们后台看是480万。
市场说:我们从第三方监测工具看到的是520万。
然后开始吵。产品说你们后台只算了登录用户。运营说登录用户才是真正的活跃。市场说第三方工具用的是行业标准定义。
老板皱着眉头:到底哪个数是对的?
沉默。
然后所有人看向你——数据分析师。
你心里苦笑。这个问题你已经被问过一百遍了。
数据口径不一致是数据分析师最头疼的问题之一。不是技术上最难的,但绝对是最耗精力的。因为它反复出现,永远解决不彻底。
核心洞察没有绝对正确的口径,只有对齐的口径。 口径管理不是找到”唯一正确答案”的过程,而是在组织内建立共识的过程。能把口径管清楚的分析师,就是团队里最稀缺的人——因为你解决的不是一个技术问题,而是整个组织的信任基础设施。口径管理,是你的核心竞争力。
你刚把DAU的口径统一了,GMV的口径又出问题。你刚和A部门对齐了,B部门又冒出来一个不同的定义。你刚把文档写好了,三个月后又有人忘了,重新问同样的问题。
这是一场西西弗斯式的战斗。石头推上去,滚下来,再推上去,再滚下来。
但它又极其重要。口径不一致导致的问题远不只是会议上的尴尬。它导致错误决策——基于不同口径的数据做对比,结论可能完全相反。它导致信任崩塌——当业务发现数据对不上,他们会不再信任任何数据。它导致资源浪费——反复核对数据、解释口径差异,消耗大量时间。它导致归因失灵——不同部门用不同口径,功劳和责任都说不清。
口径为什么会不一致
表面上看原因是”大家定义不同”。但这是结果,不是原因。真正的根源有三个。
业务诉求不同。 不同部门、不同角色关心的问题不同,他们会本能地按照自己的诉求来定义指标。“月活跃用户”这个指标,产品经理关心使用广度,倾向于宽松定义——打开过App就算。运营关心触达效果,倾向于活跃定义——登录且有核心行为才算。市场关心获客有效性,倾向于注册定义——新注册用户中本月活跃。财务关心付费转化,倾向于付费相关定义——活跃用户中产生过交易。每个定义都有它的道理。每个部门都觉得自己的定义是”对”的。这不是有人故意捣乱,这是立场不同导致的自然结果。
数据来源不同。 同一个指标从不同的数据源取可能得到不同的值。客户端埋点和服务端埋点的数据可能不一致。业务系统和数据仓库的数据可能有延迟或丢失。自建系统和第三方工具的统计逻辑不同。不同系统的时区设置可能不一样。这些差异往往不是很大——可能就差5%到10%——但足以让人困惑。更麻烦的是差异的原因往往很难排查,需要追溯到数据链路的每一个环节才能找到问题所在。
历史债务。 很多口径不一致是历史遗留问题。公司刚创业时产品简单指标也简单,大家随便定义一个也没什么问题。公司发展了产品复杂了新功能上线了,但指标定义没跟着更新。或者早期定义的指标在某个版本更新时被改了,但相关文档没更新,相关系统没同步。或者某个业务线有自己的定义,公司收购合并重组之后不同来源的定义混在一起。这些历史债务就像地雷一样埋在各处,你永远不知道什么时候会踩上。
核心原则
在具体方法之前有三个核心原则需要先建立。
没有”绝对正确”的口径。 这一点非常重要,但很多人没意识到。口径是一种约定,不是一种真理。“DAU”包不包含游客,没有绝对正确的答案。包含有包含的道理,不包含有不包含的道理。关键不是找到那个”正确”的定义,而是在组织内部达成一致,让所有人都用同样的定义,清楚标注口径是什么。一旦接受了这个观点,口径管理的目标就变了。不是证明谁对谁错,而是建立共识。
分层管理。 不是所有指标都需要严格统一。有些指标是全公司层面的必须统一,比如GMV、DAU、收入、成本。有些指标是部门层面的可以有部门自己的定义。有些指标是项目层面的用完就可以丢掉。对不同层次的指标管理强度应该不同。公司级指标必须有唯一定义、必须有正式文档、必须定期审核。部门级指标需要定义清楚但不同部门可以有差异只要标注清楚。项目级指标定义清楚即可不需要长期维护。把所有指标都按公司级标准管理成本太高不现实。只管公司级指标不管其他的又会失控。分层管理是性价比最高的方案。
机制比文档重要。 很多公司的做法是写一份指标字典发给所有人完事。这种做法基本没用。因为文档是静态的业务是动态的。文档发出去的第二天可能就有新指标产生了文档已经过期了。真正有效的不是文档而是机制:谁负责定义新指标?新指标需要经过什么流程?指标变更时谁需要被通知?如何发现和解决口径争议?有了机制文档自然会保持更新。没有机制再好的文档也会腐烂。