跳到正文
全部标签

# 数据工程

共 39 篇文章

  • 数据质量不要只靠告警:真正有效的是把责任放进流程里 PRO

    数据质量不要只靠告警:真正有效的是把责任放进流程里

    数据质量问题反复出现,很多团队第一反应是加监控和告警,但告警本身不能解决责任缺位。本文从空值、重复、延迟、口径变化和下游影响出发,拆解数据质量治理如何进入开发、发布和复盘流程。
  • 临时分析别做完就扔:数据人如何把一次取数变成可复用资产 PRO

    临时分析别做完就扔:数据人如何把一次取数变成可复用资产

    很多数据团队每天都在做临时取数和专项分析,但这些工作做完就消失,无法沉淀成资产。本文拆解如何从一次临时分析中沉淀指标、维度、模型、SQL 模板和业务解释,让数据团队减少重复劳动。
  • 别让 AI 直接查库:企业问数 Agent 上线前必须补的 5 个底座 PRO

    别让 AI 直接查库:企业问数 Agent 上线前必须补的 5 个底座

    很多团队想把自然语言问数和 AI Agent 接进数据库,但真正的难点不是让模型写 SQL,而是指标口径、权限控制、语义层、审计追踪和人工确认。本文给出企业问数 Agent 上线前必须补齐的 5 个底座。
  • 数据周刊|2026年5月第3周:Airbnb 网关、Netflix 身份、Meta 迁移

    数据周刊|2026年5月第3周:Airbnb 网关、Netflix 身份、Meta 迁移

    本期数据周刊关注 Data Engineering Weekly #270:Airbnb Viaduct 1.0、Netflix Data Projects、Meta PB 级数据摄取迁移和 Databricks Catalog Commits。AI 进入数据团队后,数据平台如何从工具堆叠走向边界清楚?
  • 报表慢不是小事:从一次查询超时看数据性能治理 PRO

    报表慢不是小事:从一次查询超时看数据性能治理

    报表慢、查询超时、看板打不开,很多团队习惯临时加资源或改 SQL。本文从一次数据看板变慢的场景出发,拆解性能问题背后的模型设计、查询模式、资源治理和责任机制。
  • 一张宽表为什么会越用越乱:数据建模要先守住三个边界 PRO

    一张宽表为什么会越用越乱:数据建模要先守住三个边界

    很多数据团队的宽表一开始只是为了提效,后来却变成无人敢改的巨表。本文从主题边界、粒度边界和口径边界三个角度,解释数据建模为什么会失控,以及数据开发如何让宽表重新可维护。
  • 数据周刊|2026年5月第2周:Meta 第二大脑、Netflix 模型图谱、没人发现变慢的数据管道

    数据周刊|2026年5月第2周:Meta 第二大脑、Netflix 模型图谱、没人发现变慢的数据管道

    本期数据周刊关注 Data Engineering Weekly #269:Meta AI 第二大脑、Salesforce/Informatica 多 Agent、Netflix 模型图谱,以及 Whatnot 变慢却没人发现的 ML 特征管道。AI 进生产后,数据团队如何让知识、模型和管道可观测、可复用、可追责?
  • 你不是没项目,是不会把日常工作改造成项目证据

    你不是没项目,是不会把日常工作改造成项目证据

    很多数据分析师和数据开发明明做了取数、报表、SQL 优化、异常排查,却在简历上写不出项目经验。本文用偏散文的方式,讲清如何把日常工作整理成可追问、可验证、能打动面试官的项目证据。
  • 学了很多,简历上还是没东西写:数据人该怎么补项目证据

    学了很多,简历上还是没东西写:数据人该怎么补项目证据

    很多数据分析师和数据工程师刷了 SQL、Python、AI Agent,却在简历和面试里说不清自己做成了什么。项目证据到底是什么?求职和晋升时,如何把学习、业务问题、数据判断、结果验证和面试表达整理成能被招聘方看见、也经得起现场追问的材料?
  • 企业 Agent 进生产,数据人的机会不在写 Demo

    企业 Agent 进生产,数据人的机会不在写 Demo

    IBM Think 2026、Google Agentic Data Cloud、Citi Arc 都在把 Agent 推进企业生产环境。数据工程师和数据分析师真正该关心什么?不是再做一个会查数的 Demo,而是数据上下文、实时数据、权限治理和可观测性这四层基础设施。
  • 数据周刊|2026年5月第1周:wuphf 的 Agent 共享办公室、5 框架上下文对比、Apache Fluss

    数据周刊|2026年5月第1周:wuphf 的 Agent 共享办公室、5 框架上下文对比、Apache Fluss

    本期围绕一个共同主题——Agent 协作的"基建配方"。wuphf 用 Markdown + Git 给多 Agent 搭了一个共享办公室,769 颗 star;Aparna Dhinakaran 拆开了 5 个主流 Agent 框架的上下文管理设计;Apache Fluss + Roaring Bitmap 把实时用户画像的延迟从小时压到秒。Agent 落地下一步的主线是——记忆怎么共享、上下文
  • 数据人的工具瘾——以为在学新东西,其实在换皮

    数据人的工具瘾——以为在学新东西,其实在换皮

    你五年前学 Hadoop、三年前学 Spark、去年学 dbt、今年在学 LangChain——你比五年前的自己强了多少?大多数数据人陷在一种慢性病里:以为自己在学新东西,其实只是在换皮。这篇讲怎么区分"学工具"和"学能力",以及为什么工具瘾在 AI 时代会让你死得更快。
  • 数据周刊|2026年4月第4周:Agent 落地的账本——Shopify、Monzo、Halodoc 的真实数字

    数据周刊|2026年4月第4周:Agent 落地的账本——Shopify、Monzo、Halodoc 的真实数字

    本期数据工程圈的几篇复盘有一个共同特征——都带具体的钱或时间数字。Shopify 用 JSON-to-Python 转译把 Flow Agent 的推理成本降了 68%,Monzo 用数据契约把处理成本降了 40%、数据着陆时间加速 25%,Halodoc 把 Spark on EKS 的节点利用率拉到 96%。Agent 落地走完了"做小"和"稳定"两步,进入第三步——算账。
  • AI 时代的技能折旧表:你简历上的词条,哪些在贬值

    AI 时代的技能折旧表:你简历上的词条,哪些在贬值

    AI 不是替代数据人,是让现有技能贬值速度差异巨大。有些技能 5 年还在涨——数据建模、因果推断;有些 2 年就半价——纯 ETL 工具操作;有些刚出生就在升值——RAG、Agent、eval。这篇给一份具体的技能折旧速度表,以及对应的学习时间投资策略。
  • DeepSeek V4 把价格打到 1/7:数据人的工作流要不要切

    DeepSeek V4 把价格打到 1/7:数据人的工作流要不要切

    DeepSeek V4 上周末发布,1.6T 参数、1M 上下文、编码 benchmark 拉平 GPT-5.4 和 Claude Opus 4.6,但价格只要 $3.48 / 百万 token——是 Claude 的 1/7。问题来了:你的日常工作流要不要切?切的隐性成本有哪些?什么时候该切、什么时候别动?
  • 数据周刊|2026年4月第3周:Whatnot 的 LLM 真话、Slack 的 Agent 难题、Teads 的百万利润

    数据周刊|2026年4月第3周:Whatnot 的 LLM 真话、Slack 的 Agent 难题、Teads 的百万利润

    本期数据工程圈集中讨论 Agent 在生产环境的落地——Whatnot 直言 LLM 平台 80% 的故障和模型无关,Slack 拆解长跑 Agent 如何靠 Director's Journal 管上下文,Teads 让 AI 编排 ML 实验带来约 100 万美元利润。一个共同结论是:模型反而是最轻的那一块,真正的坎在基础设施上。
  • Agentic Data Engineering 方法论

    Agentic Data Engineering 方法论

    数据工程师会被 Agent 取代吗?答案是:不会,但「写管道的数据工程师」会。这篇文章把 2026 年数据工程的价值重心从执行指令迁移到设计意图、护栏和数据产品契约的完整方法论讲清楚——包含 MCP、Data Product、Intent 三层架构,以及工程师该补的三类能力。
  • 数据周刊|2026年4月第2周:Meta Agent 群组、Pinterest MCP 工厂、Markdown 干翻向量库

    数据周刊|2026年4月第2周:Meta Agent 群组、Pinterest MCP 工厂、Markdown 干翻向量库

    本期聚焦 AI Agent 在大厂数据基建里的真实落地:Meta 用 50 个 Agent 群组把 4100 个文件的管道调研从 2 天压到 30 分钟,Pinterest MCP 月调用 66k 次节省 7000 工时。但资深云布道者指出 MCP 在企业级仍缺关键件。一个 Markdown 文件如何击败 5000 万美元的向量库?数据科学家为什么在 AI 时代反而更值钱?
  • 数据工程月报2026年3月封面

    数据工程月报 | 2026 年 3 月:Databricks 收购安全初创、dbt+Fivetran 合并、Flink CDC 3.6 发布

    2026 年 3 月数据工程重要进展:Databricks 收购两家安全初创推出 Lakewatch,英国投资 8.5 亿美元;dbt Labs 与 Fivetran 合并年收入约 6 亿美元;Flink CDC 3.6.0 新增 Oracle Source;Snowflake 将 Gemini 3 引入 Cortex AI。来自官网及 TechCrunch 原文整理。
  • 80% 的库不是人建的了

    80% 的库不是人建的了:数据工程师的角色正在悄悄变形

    Databricks 披露:80% 的数据库现已由 AI Agent 自动创建,两年前这个数字几乎为零。数据工程师最熟悉的建库、写 DDL、配环境正在被 Agent 接管。但速度背后有个危险——没有人在看这些库是怎么建的。架构判断力、治理能力、业务理解力,才是 Agent 还无法替代的。数据工程师的角色正在从建造者变成审计者。
  • 营销系统数据开发案例 - 构建数据驱动营销平台 PRO

    营销系统数据开发案例 - 构建数据驱动营销平台

    营销系统数据开发是现代数字营销的核心武器,让营销投放从广撒网向精准狙击的系统化升级。。自动化运营:建立触发营销、智能决策和实时优化的自动体系。效果度量:掌握转化漏斗、ROI分析和A/B测试的实战技能。增长驱动:构建用户获取、留存提升和价值最大化的竞争优势。在流量红利时代,营销系统是连接用户需求与商...