本文来源于数据从业者全栈知识库,更多体系化内容请访问知识库。
和传统数据工程师究竟有什么不同
很多人认为AI数据工程师就是”普通数据工程师+多会一点Python”。这个理解是错的,但也不是完全错的。
核心差异不在技术栈,在工作的服务对象和评价标准。
传统数据工程师的工作产出是:数据管道跑通了、数据质量指标达标了、数仓模型设计合理了。评价标准是工程层面的——稳定性、性能、可维护性。
AI数据工程师的工作产出最终要接受一个新的审判:模型效果好不好。这个标准会导致工作逻辑发生根本性的变化:
- 同样是”数据质量”,传统场景的关注点是”字段完整率、格式一致性”,AI场景还要关注”标签分布是否均衡、训练集和测试集的分布漂移”
- 同样是”数据清洗”,传统场景可以用规则覆盖大部分case,AI场景经常需要判断”这个噪声数据应该修复还是删除还是降权”
- 同样是”数据管道”,传统场景只要保证数据流动的稳定性,AI场景还要保证数据的可复现性(同样的训练数据跑两次应该得到可比较的结果)
一句话理解差异:传统数据工程师让数据”流得通”,AI数据工程师让数据”用得好”。后者需要对下游的ML系统有足够的理解,才能做出正确的工程决策。
核心职责详解
训练数据集构建
这是最核心也最被低估的工作。一个高质量的训练数据集,通常需要经过:
- 原始数据采集与汇聚:从多个数据源整合原始数据,处理各种格式(JSON/CSV/Parquet/Avro)
- 数据清洗与过滤:去除低质量样本、处理重复数据(特别是语义重复而非完全重复)
- 数据格式标准化:将原始数据转化为模型可以消费的格式(instruction/input/output三元组,或chat格式等)
- 数据集版本管理:使用DVC或MLflow Tracking记录数据集版本,确保实验可复现
- 数据集分割:训练集/验证集/测试集的科学划分,防止信息泄露
实际工作中,这个流程的挑战远超想象。比如,如何判断两条语义相近但措辞不同的样本是否应该去重?如何在去噪和去除边界case之间找到平衡?这些问题没有标准答案,需要和算法团队紧密协作。
特征工程与特征存储
对于结构化数据的ML应用(推荐系统、风控模型等),特征工程仍然是核心工作之一:
- 特征的提取、转换、选择
- Feature Store的建设与维护(确保训练时和推理时使用完全一致的特征)
- 特征监控(检测训练-服务偏斜,即Training-Serving Skew)
Feature Store的建设是个典型的AI数据工程问题:既要满足离线训练的批量读取需求(高吞吐),又要满足在线推理的实时查询需求(低延迟)。这需要对数据工程和ML系统都有深入理解。
数据质量管理
AI场景的数据质量管理有其特殊性:
六个数据质量维度:
- 完整性:字段缺失率
- 一致性:格式规范
- 准确性:标注正确率
- 代表性:分布均衡性(类别不平衡处理:过采样/欠采样/权重)
- 时效性:数据新鲜度(数据漂移监控、概念漂移检测)
- 可复现性:版本可追溯(DVC/MLflow)
其中代表性和可复现性是传统数据质量框架中相对薄弱的维度,在AI场景中却极为重要。
模型监控数据
模型上线后,AI数据工程师需要构建监控数据体系:
- 输入数据监控:实时检测输入数据的分布变化(与训练时相比是否发生漂移)
- 输出数据监控:模型预测值的分布、置信度分布
- 业务效果监控:模型预测结果与业务指标的相关性
- 标签回流:将真实结果回流到数据系统,支持模型迭代