spark

# spark

共 12 篇文章

上线前多重放 1 次历史数据，可能少背 3 次锅

很多数据分析师和数据开发上线指标、SQL、模型或同步任务前，只用几条干净样本测试，结果上线后才被历史边界数据打脸。Stripe 用 Apache Spark 做历史流量回放测试提供了一个启发：普通数据从业者也可以在上线前多重放 1 次真实历史数据，提前发现口径、异常和兼容问题。

Elazer (石头) 2026年7月11日

数据工程 · 方法

Spark 任务跑了 3 小时，别急着问 AI 怎么调参

Spark 任务跑了 3 小时，很多数据开发第一反应是问 AI 要不要改 executor、shuffle、分区数。但慢任务不是靠一句调参解决的。本文结合 Expedia 分析 Spark SQL Plan 的实践，说明普通数据开发为什么要先拿出执行计划、运行指标和业务上下文这 3 份证据。

Elazer (石头) 2026年7月9日

数据工程 · 资讯

数据周刊｜AI 已经会查 Spark 慢任务了，但它先问你要 3 份证据

本期数据周刊关注 Data Engineering Weekly #277：Databricks Lakebase、Meta AI Storage、Expedia 诊断 Spark SQL Plan、Stripe 重放历史流量。对数据分析师、BI 和数据开发来说，为什么 AI 能帮忙之前，先要准备 3 份证据？

Elazer (石头) 2026年7月7日

MAX

职场影响力 · 方法

从写代码到做架构

写了5年代码，技术很自信。但新来的技术leader比你小两岁，每次讨论方案都能提出你没想到的角度。本文拆解「写代码」和「做架构」的本质区别：前者是解决问题，后者是定义问题。从执行力到判断力的转型，是工程师职业发展的关键跃迁。

Elazer (石头) 2026年4月9日

MAX

职场影响力 · 方法

第一次带团队最容易踩的 3 个坑

升管理后你发现：以前一天能写完的Spark任务，现在半天在review别人的代码。日历被会议塞满，什么都没做成。本文直指第一次带团队最容易踩的3个坑，帮你理解一个关键转变：管理不是升职，是换了一份工作。你的价值从个人产出变成了团队产出。

Elazer (石头) 2026年4月9日

MAX

职场影响力 · 方法

技术更新太快，该学什么

Spark还没学完Flink又火了，Flink还没熟AI又来了。你学得越多越焦虑，因为新技术出现的速度远快于你学习的速度。本文提供一个判断框架：区分「必须学」和「可以不学」，把有限精力投入到半衰期最长的知识上。

Elazer (石头) 2026年4月9日

技术选型横评：计算引擎篇（Spark vs Flink vs Presto/Trino）

PRO

数据工程 · 方法

技术选型横评：计算引擎篇（Spark vs Flink vs Presto/Trino）

面向初中级数据从业者的计算引擎选型指南，系统对比 Spark、Flink、Presto/Trino 的设计理念、性能特点、适用场景与学习曲线，帮你在批处理、实时流处理、交互式查询三大场景做出正确决策。

Elazer (石头) 2026年1月5日

职业成长 · 观点

消失的两周，我为数据工程师造了一间“暖房”

停更两周，我把自己关进小黑屋，为数据工程师造了一间「暖房」——一个覆盖SQL、Spark、数仓建模、求职面试的完整学习和实战平台。2025即将翻篇之际，聊聊为什么要做这件事，以及数据工程师在2026年最需要的到底是什么。

Elazer (石头) 2025年12月29日

求职面试 · 方法

网易面试真题：Hive SQL vs Spark SQL 完整解析

网易数据岗面试经典问题深度拆解。从技术原理到实战经验，从初级到专家级答案模板，教你如何在面试中展现深度思考和架构能力。

Elazer (石头) 2025年12月18日

数据工程 · 方法

数据工程师如何系统学习Apache Spark：从入门到生产调优的6周路线图

面向数据工程师、大数据开发工程师和AI工程实习生，本Spark学习路线图覆盖分布式计算基础、RDD/DataFrame编程、Spark SQL、流处理与机器学习集成，含4大阶段、18个技能检查点、5类集群部署模式及性能调优实战，适配国内金融、电商、互联网行业真实技术栈。

Elazer (石头) 2025年11月30日

数据工程 · 方法

数据开发 L2:核心构建

1-3年数据开发工程师核心能力构建路线：从Hive SQL到Spark分布式计算，掌握维度建模、数仓分层（ODS/DWD/DWS/ADS）、ETL开发和数据倾斜调优4大核心技能。解决「SQL写得好但Hive跑不动」「只会写代码不会设计模型」的L2阶段典型问题。

Elazer (石头) 2025年11月11日

职业成长 · 方法

两千万字背后的事

两千万字的数据领域知识库发布后，最多人问的是「这得看到什么时候」。答案是：你不需要全部看完，就像图书馆的书不需要每本都读。知识库的核心价值不是体量，而是当你遇到具体问题时，能在3分钟内找到靠谱的答案。本文聊聊这两千万字背后的创作初心和使用方式。

Elazer (石头) 2025年5月16日