跳到正文
全部标签

# 数据治理

共 39 篇文章

  • AI 合规开始变严,普通数据人要知道哪几件事?

    AI 合规开始变严,普通数据人要知道哪几件事?

    AI 合规不只是法务问题。随着生成式 AI、深度合成标识、拟人化互动等监管要求逐步落地,数据分析师、数据开发和数据产品经理需要知道数据来源、授权范围、敏感信息、输出标识、日志追溯和责任分工这些工作边界,避免把企业 AI 项目做成不可追溯的生产黑箱。
  • 企业 AI 数据合规入门:数据人必须懂的四条边界 MAX

    企业 AI 数据合规入门:数据人必须懂的四条边界

    企业 AI 应用上线前,数据团队不能只说“先接数据试试”。本文从生成式 AI 暂行办法、AI 生成合成内容标识和个人信息保护要求出发,给数据开发、数据治理负责人和 AI 产品经理一套四条数据边界检查法:来源授权、敏感信息、模型使用、输出追溯。
  • 别把数据治理做成填表:从一次指标口径争议开始 PRO

    别把数据治理做成填表:从一次指标口径争议开始

    数据治理不是让全公司补字段表,而是从真实业务争议里建立可维护机制。本文用一次转化率和销售额口径冲突,拆解数据分析师、数据开发和业务负责人如何沉淀指标定义、责任分工、变更记录、下游影响和通知流程,把治理做成业务会继续使用、后续能持续维护的方法。
  • 业务反复改口径,不一定是业务不专业

    业务反复改口径,不一定是业务不专业

    数据团队经常抱怨业务反复改指标口径,但很多口径变化不是业务不专业,而是目标、责任、考核和决策动作还没有对齐。本文从一次销售额口径争议讲起,说明数据分析师和数据开发如何把口径变更从临时改 SQL,变成有场景、有确认、有版本、有通知的协作机制。
  • 老板让你参加“数据要素×”项目,这到底是机会还是烂活?

    老板让你参加“数据要素×”项目,这到底是机会还是烂活?

    公司开始提“数据要素×”、数据资产和项目申报时,数据分析师和数据开发最容易被拉去补材料、盘表和赶节点。本文从一次内部会议拆起,结合 2024—2026 年“数据要素×”行动计划和 2025 年全国数据资源调查,说明普通数据从业者如何判断一个项目是成长机会,还是一场材料劳动。
  • 数据要素项目接不接?一套给数据人的内部判断清单 PRO

    数据要素项目接不接?一套给数据人的内部判断清单

    当公司要求数据团队参与数据要素、数据资产入表、公共数据授权运营或“数据要素×”项目时,数据开发和数据分析师不能只看项目名。本文给出一套可直接用于内部评审的 6 维判断清单、18 个澄清问题、红黄绿灯判断标准和交付物模板,帮助你判断哪些项目值得接,哪些边界必须提前写清楚。
  • 为什么很多数据项目看起来很热闹,最后都变成填表?

    为什么很多数据项目看起来很热闹,最后都变成填表?

    很多数据治理、数据资产和指标体系项目启动时声势很大,最后却变成填字段、补责任人和催模板。问题通常不在数据团队不努力,而在项目没有绑定销售复盘、经营分析、AI 问数等真实决策场景。本文给数据分析师和数据开发一套判断方法:先问谁会使用结果、表格进入哪个流程、30 天后能减少什么返工。
  • 数据从业者的 AI 能力地图:从取数报表到智能应用负责人 MAX

    数据从业者的 AI 能力地图:从取数报表到智能应用负责人

    AI 时代,数据从业者不能只学提示词、Agent 框架或问数 Demo。真正长期保值的能力,是从指标口径、可信数据供给、AI 工作流、应用评估到权限治理,逐层把自己从取数报表的人,升级为智能应用的业务数据负责人。本文给出能力分层、自测清单和 30 天练习路径。
  • 领导突然要高质量数据集:这不是标注任务,而是业务资产工程 PRO

    领导突然要高质量数据集:这不是标注任务,而是业务资产工程

    当领导突然要求建设高质量数据集,数据团队不能只把它理解成标注任务。真正可落地的高质量数据集,需要从业务场景、字段定义、样本边界、质量验收、版本管理和责任分工一起设计,否则很容易变成一个没人敢用的共享文件夹。遇到类似需求时,应该先问什么、留什么证据?
  • 高质量数据集为什么突然被反复提起?

    高质量数据集为什么突然被反复提起?

    高质量数据集正在从 AI 训练语料变成企业数据工作的核心议题。对数据开发、数据治理和数据分析师来说,它不是“多整理几个文件夹”,而是决定 AI 应用能否落地的业务资产工程:场景、口径、授权、版本和质量责任缺一不可。遇到类似需求时,应该先问什么、留什么证据?
  • 公司开始提“数据资产”,数据团队第一件事不是盘表 PRO

    公司开始提“数据资产”,数据团队第一件事不是盘表

    当公司开始提“数据资产”,很多团队第一反应是盘表、填台账和补字段。但对数据开发、数据治理负责人来说,真正重要的是先判断哪些数据能在经营、AI 应用和合规场景中持续产生价值,并把使用者、责任人、质量规则和结果证据说清楚。遇到类似需求时,应该先问什么、留什么证据?
  • 数据质量不要只靠告警:真正有效的是把责任放进流程里 PRO

    数据质量不要只靠告警:真正有效的是把责任放进流程里

    数据质量问题反复出现,很多团队第一反应是加监控和告警,但告警本身不能解决责任缺位。本文从空值、重复、延迟、口径变化和下游影响出发,拆解数据质量治理如何进入开发、发布和复盘流程。
  • 别让 AI 直接查库:企业问数 Agent 上线前必须补的 5 个底座 PRO

    别让 AI 直接查库:企业问数 Agent 上线前必须补的 5 个底座

    很多团队想把自然语言问数和 AI Agent 接进数据库,但真正的难点不是让模型写 SQL,而是指标口径、权限控制、语义层、审计追踪和人工确认。本文给出企业问数 Agent 上线前必须补齐的 5 个底座。
  • 数据周刊|2026年5月第3周:Airbnb 网关、Netflix 身份、Meta 迁移

    数据周刊|2026年5月第3周:Airbnb 网关、Netflix 身份、Meta 迁移

    本期数据周刊关注 Data Engineering Weekly #270:Airbnb Viaduct 1.0、Netflix Data Projects、Meta PB 级数据摄取迁移和 Databricks Catalog Commits。AI 进入数据团队后,数据平台如何从工具堆叠走向边界清楚?
  • AI 进了数据团队,最先被放大的不是效率,而是协作问题

    AI 进了数据团队,最先被放大的不是效率,而是协作问题

    企业开始把 AI Agent、Copilot 和自动化分析工具放进数据团队,但效率并不会自动出现。真正先被放大的,是需求表达、口径治理、代码审查、权限边界和跨角色协作中的旧问题。
  • 一张宽表为什么会越用越乱:数据建模要先守住三个边界 PRO

    一张宽表为什么会越用越乱:数据建模要先守住三个边界

    很多数据团队的宽表一开始只是为了提效,后来却变成无人敢改的巨表。本文从主题边界、粒度边界和口径边界三个角度,解释数据建模为什么会失控,以及数据开发如何让宽表重新可维护。
  • 企业 Agent 进生产,数据人的机会不在写 Demo

    企业 Agent 进生产,数据人的机会不在写 Demo

    IBM Think 2026、Google Agentic Data Cloud、Citi Arc 都在把 Agent 推进企业生产环境。数据工程师和数据分析师真正该关心什么?不是再做一个会查数的 Demo,而是数据上下文、实时数据、权限治理和可观测性这四层基础设施。
  • Unity Catalog vs Open Catalog:2026 元数据治理的路线之争

    Unity Catalog vs Open Catalog:2026 元数据治理的路线之争

    Databricks 主导的 Unity Catalog 和 Snowflake 发起、Apache 托管的 Polaris,2026 年正式在企业数据目录市场正面交锋。这篇文章横评两条路线的权限模型、表格式支持、跨引擎能力和治理边界,给数据架构师和平台负责人一份可以带进选型会议的判断框架。
  • MCP Gateway 与生产部署:把 Agent 从 Demo 送进生产的那一道关

    MCP Gateway 与生产部署:把 Agent 从 Demo 送进生产的那一道关

    企业把 MCP Server 从 Demo 送进生产,卡在哪儿?认证、限流、审计、多租户、可观测性——单个 MCP Server 解决不了,需要一层 Gateway。这篇讲清 MCP Gateway 的职责边界、五种部署拓扑、主流方案选型(Kong / Envoy / 自研)和落地 checklist,给数据架构师和平台工程师一份生产部署指南。
  • A/B测试数据治理 - 科学验证AI优化效果 PRO

    A/B测试数据治理 - 科学验证AI优化效果

    在AI系统的数据飞轮和反馈闭环中,A/B测试是验证模型优化效果、指导迭代方向的核心工具。。A/B测试的核心价值:。与传统A/B测试的区别:。AI模型A/B测试的特殊挑战:。- 模型推荐影响用户行为。- 用户行为数据又用于训练模型。- 形成自我强化或退化的循环。- 用户之间存在相互影响。- 违反了A/B测试的SUT...
  • OneID统一身份 - 企业级统一身份标识体系设计与实现 PRO

    OneID统一身份 - 企业级统一身份标识体系设计与实现

    OneID统一身份体系是构建企业数字化用户身份管理的核心身份证系统,通过全局统一的身份标识技术和完善的身份管理架构,为企业打造跨平台、跨系统的用户身份统一管理基础设施。。OneID统一身份的数字化身份价值:。识别效率极高:智能身份匹配让用户识别速度提升300%,提升用户体验。管理成本优化:集中身份管理让...