跳到正文

更多文章

影响力日常操作系统:21天习惯养成计划 从技能雇佣者到价值创造者 互惠账户的运营 影响力的三层架构 组织的注意力经济学
数据治理工程师 L2:治理实践

本文来源于数据从业者全栈知识库,更多体系化内容请访问知识库。

数据治理工程师学习路线 - L2 治理实践

定位

L2 阶段的核心是从”了解治理”转变为”落地治理”。你需要能够独立负责数据质量体系、元数据管理、数据安全等具体治理工作。

这份指南适合谁?

  • 1-2 年数据治理相关经验
  • 已理解基础概念,想深入实践
  • 正在参与数据治理项目
  • 目标是数据治理工程师、数据质量工程师

常见困惑:治理工作如何落地?

“治理规范写了一堆,但没人遵守怎么办?”

治理落地的三个层次

层次方法效果
靠宣贯培训、通知短期有效,容易忘记
靠流程嵌入工作流程中等效果,有绕过风险
靠系统工具强制校验效果最好,但实施成本高

务实建议

  1. 核心规则靠系统校验
  2. 次要规则靠流程约束
  3. 辅助规则靠宣贯提醒

”数据质量问题太多,从哪开始治理?“

优先级治理范围选择标准
核心业务数据影响面广、业务关注
常用报表数据使用频率高
历史/归档数据重要性低
实践建议

先治理 20% 最核心的数据,解决 80% 的问题。不要试图一次性治理所有数据。


阶段目标

  1. 建立数据质量体系:能设计和实施数据质量管理体系
  2. 实施元数据管理:能搭建和运营元数据管理系统
  3. 掌握数据血缘:能构建和应用数据血缘
  4. 理解数据安全:能实施基础的数据安全管控

核心技能

1. 数据质量体系建设

从单点检查到体系化管理

数据质量管理闭环

┌─────────────────────────────────────────────────┐
│ 数据质量管理闭环 │
│ │
│ ┌────────┐ ┌────────┐ ┌────────┐ │
│ │ 质量规则 │──→│ 质量检测 │──→│ 问题发现 │ │
│ └────────┘ └────────┘ └────────┘ │
│ ↑ │ │
│ │ ↓ │
│ ┌────────┐ ┌────────┐ ┌────────┐ │
│ │ 规则优化 │←──│ 效果评估 │←──│ 问题处理 │ │
│ └────────┘ └────────┘ └────────┘ │
│ │
└─────────────────────────────────────────────────┘

质量规则配置框架

规则类型适用场景配置示例
空值检查必填字段user_id NOT NULL
范围检查数值字段amount > 0 AND amount < 10000000
格式检查文本字段phone LIKE ‘1[3-9][0-9]{9}‘
关联检查多表一致orders.user_id IN users.id
波动检查时序数据今日数据量波动不超过 30%

质量分数体系

-- 数据质量分数计算示例
SELECT
table_name,
rule_type,
total_records,
passed_records,
ROUND(passed_records * 100.0 / total_records, 2) as pass_rate,
CASE
WHEN passed_records * 100.0 / total_records >= 99 THEN '优秀'
WHEN passed_records * 100.0 / total_records >= 95 THEN '良好'
WHEN passed_records * 100.0 / total_records >= 90 THEN '一般'
ELSE '需改进'
END as quality_level
FROM quality_check_results
WHERE check_date = CURRENT_DATE;

相关知识数据质量体系质量规则引擎质量监控

2. 元数据管理实践

元数据管理是让数据”可发现、可理解、可追溯”的基础

元数据采集方式

方式适用场景优缺点
自动采集技术元数据准确高效,但缺业务含义
手工录入业务元数据语义丰富,但维护成本高
解析代码血缘关系自动化程度高,但依赖代码规范

元数据管理系统核心功能

┌─────────────────────────────────────────────────┐
│ 元数据管理系统 │
├─────────────────────────────────────────────────┤
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 数据目录 │ │ 业务术语 │ │ 数据血缘 │ │
│ │ 找到数据 │ │ 理解数据 │ │ 追溯数据 │ │
│ └──────────┘ └──────────┘ └──────────┘ │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 数据地图 │ │ 质量报告 │ │ 使用统计 │ │
│ │ 全景视图 │ │ 健康状态 │ │ 热度分析 │ │
│ └──────────┘ └──────────┘ └──────────┘ │
│ │
└─────────────────────────────────────────────────┘

主流元数据管理工具

工具类型特点
Apache Atlas开源Hadoop生态集成好
DataHub开源架构现代,社区活跃
OpenMetadata开源功能全面,UI友好
商业产品商业功能完善,有服务支持

相关知识元数据平台数据目录、[Apache Atlas](https://pro.ss-data.cc/knowledge/Apache Atlas)

3. 数据血缘分析

数据血缘回答”数据从哪来、到哪去”

血缘关系类型

类型说明应用场景
表级血缘A表 → B表影响分析
字段级血缘A.col1 → B.col2精确追溯
任务血缘任务之间的依赖调度管理

血缘采集方法

方法优点缺点
SQL解析自动化、准确复杂SQL解析困难
日志分析真实执行记录延迟、不够精确
埋点上报灵活可控开发成本高

血缘应用场景

问题定位 影响分析 数据理解
│ │ │
↓ ↓ ↓
┌─────────┐ ┌─────────┐ ┌─────────┐
│ 报表错了 │ │ 要改源表 │ │ 数据从哪来│
│ 追溯上游 │ │ 评估下游 │ │ 经过什么处理│
└─────────┘ └─────────┘ └─────────┘

相关知识数据血缘血缘应用SQL血缘解析

4. 数据安全基础

数据安全是数据治理的底线

数据安全管理框架

领域内容措施
数据分级分类识别敏感数据建立分级标准
访问控制谁能访问什么权限管理、审批流程
数据脱敏保护敏感信息动态/静态脱敏
审计追溯谁访问了什么日志记录、行为分析

数据分级示例

级别定义示例管控措施
L1 公开可公开披露公司介绍无特殊限制
L2 内部内部使用内部报表内网访问
L3 机密业务敏感销售数据审批访问、脱敏
L4 绝密核心资产用户隐私严格管控、加密

常见脱敏规则

字段类型脱敏方式示例
手机号中间四位隐藏138****8888
身份证中间隐藏310***********1234
姓名姓隐藏或名隐藏三、张
银行卡保留前后6222****1234

相关知识数据安全数据分级数据脱敏

5. 数据治理平台使用

工具是治理落地的载体

数据治理平台核心模块

模块功能关键能力
数据标准标准定义、发布、执行与开发平台联动
数据质量规则配置、检测、告警自动化检测
元数据采集、管理、搜索多源采集
数据安全分级、脱敏、审计动态脱敏
数据服务API化、共享统一出口

平台选型考虑

因素开源方案商业方案
成本低,但运维成本高高,但省心
功能单点功能强,集成需自己做功能完整,开箱即用
定制灵活,可改代码受限,依赖厂商
支持社区支持专业服务支持

这个阶段的难点

难点原因突破方法
治理难落地组织推动不足找到痛点,从小处着手
系统不好用工具选型问题先验证核心功能,再铺开
数据太多范围控制不好分优先级,聚焦核心数据
效果难衡量缺少量化指标建立质量分数体系

可胜任的岗位

岗位名称核心要求薪资范围(参考)
数据治理工程师治理体系落地15-25K
数据质量工程师质量体系建设15-25K
元数据工程师元数据平台建设18-28K
数据安全工程师数据安全管控18-30K

给这个阶段同学的建议

做的事情

  • 聚焦核心数据:不要贪多,先做好核心
  • 用数据说话:用质量分数展示治理成果
  • 推动系统化:能系统实现的不靠人工
  • 建立机制:从项目变成长期运营

避免的事情

  • 写标准但不落地执行
  • 治理和开发脱节
  • 只发现问题不推动解决
  • 追求完美而无法交付
关键心态

治理的目标不是100%合规,而是持续改善。先做到及格,再追求优秀。


下一阶段预告

完成 L2 后,你可以进入 L3 治理体系,学习:

  • 企业级数据治理架构
  • 主数据管理
  • 数据资产运营
  • 合规与隐私保护
Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →
← 上一篇 MLOps最佳实践 - 机器学习工程化 下一篇 → 实时机器学习系统架构