跳到正文

更多文章

影响力日常操作系统:21天习惯养成计划 从技能雇佣者到价值创造者 互惠账户的运营 影响力的三层架构 组织的注意力经济学
特征工程平台(Feature Store)

本文来源于数据从业者全栈知识库,更多体系化内容请访问知识库。

什么是Feature Store?

核心定义

Feature Store(特征平台)是一个集中化的特征管理系统,用于存储、管理、共享和服务机器学习特征,确保训练和推理时特征的一致性。

为什么需要Feature Store?

没有Feature Store的痛点
  • 不同团队重复开发相同特征,浪费人力
  • 训练用的特征和线上用的特征不一致,导致效果差异
  • 特征定义分散在各处,难以追溯和管理
  • 上线一个新模型需要重新写特征处理代码
痛点具体表现影响
特征重复开发用户画像特征被多个团队各自实现浪费50%以上的开发时间
线上线下不一致Python训练代码 vs Java线上代码模型效果下降5-20%
特征难以复用找不到已有特征,只能重新开发新项目周期拉长
特征血缘不清不知道特征怎么来的出问题难以排查
生活类比

没有Feature Store = 每个厨师自己种菜、杀鸡、酿酱油——效率极低

有Feature Store = 有专业的食材供应链——厨师专注于烹饪,食材新鲜且有保障


Feature Store核心架构

整体架构图

graph TB
    subgraph 数据源层
        A1[业务数据库] --> B[数据处理]
        A2[日志数据] --> B
        A3[实时流数据] --> B
    end

    subgraph 特征计算层
        B --> C1[批量特征计算<br/>Spark/Hive]
        B --> C2[实时特征计算<br/>Flink/Kafka]
    end

    subgraph 特征存储层
        C1 --> D1[离线存储<br/>Hive/Parquet]
        C2 --> D2[在线存储<br/>Redis/HBase]
        D1 <--> D2
    end

    subgraph 特征服务层
        D1 --> E1[训练数据生成]
        D2 --> E2[在线特征服务]
    end

    subgraph 特征管理层
        F[特征元数据<br/>定义/血缘/版本]
        F --> C1
        F --> C2
        F --> E1
        F --> E2
    end

核心组件详解

1. 特征计算引擎

计算类型技术选型特点适用场景
批量计算Spark, Hive高吞吐、大规模历史特征、用户画像
实时计算Flink, Kafka Streams低延迟、流式实时行为、窗口聚合
近实时计算Spark Structured Streaming秒级延迟近实时更新

2. 特征存储

存储类型技术选型延迟适用场景
离线存储Hive, Delta Lake, Parquet分钟级训练数据
在线存储Redis, HBase, DynamoDB毫秒级在线推理
混合存储双写同步视场景统一服务

3. 特征服务

服务类型功能使用者
训练服务生成训练数据集模型训练
在线服务实时获取特征在线推理
批量服务批量导出特征离线预测

4. 元数据管理

元数据类型内容作用
特征定义名称、类型、描述理解特征含义
数据血缘来源、计算逻辑问题追溯
版本信息变更历史版本管理
统计信息分布、缺失率质量监控

PRO 会员专属

本文为 PRO 会员专属内容,成为会员即可阅读全文。

PRO ¥199/年 · Pro 专属文章 + 2300+ 知识文档 + 会员社群

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →
← 上一篇 实时机器学习系统架构 下一篇 → 数据分析师用输出倒逼输入:3种可落地的学习闭环提升知识留存率90%