跳到正文

更多文章

影响力日常操作系统:21天习惯养成计划 从技能雇佣者到价值创造者 互惠账户的运营 影响力的三层架构 组织的注意力经济学
实时机器学习系统架构

本文来源于数据从业者全栈知识库,更多体系化内容请访问知识库。

什么是实时机器学习?

核心定义

实时机器学习是指能够在毫秒到秒级响应时间内完成预测,并能持续从新数据中学习更新的机器学习系统。

批量 vs 实时:根本性差异

维度批量处理实时处理
延迟要求小时/天级毫秒/秒级
数据规模大批量历史数据单条/小批量流数据
更新频率定期重训练持续学习
典型场景月度报表、离线分析风控、推荐、竞价
生活类比

批量ML = 考试前临时抱佛脚,集中复习一次

实时ML = 每天学一点新知识,随时能应对突发情况

为什么需要实时ML?

graph LR
    A[业务场景] --> B{延迟要求}
    B -->|可接受延迟| C[批量ML足够]
    B -->|秒级响应| D[需要实时ML]

    D --> D1[金融风控<br/>交易瞬间判断]
    D --> D2[实时推荐<br/>用户行为即时响应]
    D --> D3[广告竞价<br/>100ms内出价]
    D --> D4[欺诈检测<br/>支付前拦截]

实时ML系统架构

整体架构图

graph TB
    subgraph 数据采集层
        A1[用户行为日志] --> B[消息队列<br/>Kafka]
        A2[业务事件] --> B
        A3[传感器数据] --> B
    end

    subgraph 特征计算层
        B --> C[实时特征计算<br/>Flink/Spark Streaming]
        C --> D[Feature Store<br/>特征服务]
    end

    subgraph 推理服务层
        D --> E[模型服务<br/>TensorFlow Serving/Triton]
        E --> F[预测结果]
    end

    subgraph 反馈学习层
        F --> G[结果收集]
        G --> H[标签生成]
        H --> I[在线学习/定期重训]
        I --> E
    end

核心组件详解

1. 数据采集层

组件功能关键指标
埋点SDK客户端数据收集数据完整性、延迟
日志收集服务端行为日志吞吐量、可靠性
消息队列数据缓冲与分发延迟P99、可用性
Kafka在实时ML中的角色
  • 解耦数据生产和消费
  • 支持多消费者订阅
  • 保证数据不丢失
  • 支持回溯重放

2. 特征计算层

特征类型计算方式示例延迟
实时特征事件触发计算最近一次点击时间毫秒级
近实时特征窗口聚合过去5分钟点击次数秒级
批量特征定期预计算用户历史偏好小时级

3. 模型服务层

服务框架特点适用场景
TensorFlow ServingTF生态、成熟稳定TensorFlow模型
Triton多框架、高性能多模型混合部署
TorchServePyTorch原生PyTorch模型
ONNX Runtime跨框架、优化好追求最优性能
BentoML简单易用快速上线

实时特征工程

PRO 会员专属

本文为 PRO 会员专属内容,成为会员即可阅读全文。

PRO ¥199/年 · Pro 专属文章 + 2300+ 知识文档 + 会员社群

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →
← 上一篇 数据治理工程师 L2:治理实践 下一篇 → 特征工程平台(Feature Store)