跳到正文

更多文章

影响力日常操作系统:21天习惯养成计划 从技能雇佣者到价值创造者 互惠账户的运营 影响力的三层架构 组织的注意力经济学
当所有大厂都在搞湖仓一体,你还在画数据仓库的ER图?

本文来源于数据从业者全栈知识库,更多体系化内容请访问知识库。

一个数据架构师的认知升级之路:为什么说2025年,最贵的不是技术,而是架构思维

那个被95后挑战的架构评审会

周三下午3点,阳光透过会议室的百叶窗,在白板上投下一道道光影。

张磊站在投影仪前,点开他准备了两周的架构方案PPT。36岁,阿里P7,8年数据仓库经验,这次是公司新电商业务的核心数据平台架构评审。

第一页,经典的分层架构图:ODS → DWD → DWS → ADS,每一层的职责写得清清楚楚。第二页,详细的ER图,30多个实体,上百个关系,维度建模的范式应用得一丝不苟。第三页,技术选型:Hive做存储,Spark做计算,Presto做查询…

“这套架构我在上家公司用过,支撑了日均10亿条数据的处理,非常稳定。“张磊的声音很自信。

台下坐着十几个人。CTO在最前面,手指轻轻敲着桌面。业务负责人在看手机。最让张磊在意的,是坐在角落那个95后——李明,去年校招进来的应届生,现在是2-1级别,但据说在字节做过湖仓一体的项目。

讲到第15页,李明举手了。

“张哥,我有个问题。“他的声音不大,但很清晰,“为什么我们还在用这种传统的分层架构?”

张磊愣了一下:“这是经典的数据仓库架构啊,Kimball的维度建模方法,业界验证了二十多年…”

“但是,“李明打开笔记本,投屏到大屏幕上,“字节现在的架构是这样的:一个数据湖存储所有原始数据,用Iceberg做表格式,Flink做实时计算,Spark做批处理,所有计算引擎直接访问同一份数据。不需要分层ETL,不需要数据搬运,实时和离线用同一套架构。”

会议室里突然安静了。

“而且成本只有传统架构的40%,实时性从小时级降到分钟级,数据不一致的问题基本消失了。“李明补充道。

CTO抬起头,看向张磊:“小张,你了解湖仓一体吗?”

张磊的手心开始出汗。说实话,他听过这个词,也看过几篇文章,但一直觉得是新概念的炒作,没当回事。“我…了解一些,但我觉得成熟度还不够…”

“腾讯、美团、快手、百度,去年都切到湖仓架构了。“CTO缓缓说道,“市场规模从2022年的15亿,2025年预计要到100亿。如果我们还在用五年前的架构,怎么和别人竞争?”

那天晚上,张磊一个人在办公室坐到深夜。窗外的城市灯火通明,他面前的屏幕上是一行行搜索结果:“湖仓一体”、“Data Lakehouse”、“Iceberg”、“Delta Lake”、“实时数仓”…

他突然意识到,自己引以为傲的8年经验,可能正在变成职业发展的枷锁。

我们都陷入了”经验主义陷阱”

这些年做咨询,我见过太多像张磊这样的数据架构师。不是不努力,不是不专业,而是被过去的成功经验困住了。

心理学上有个概念叫”功能固着”(Functional Fixedness)——当你用一种方法解决问题太多次后,就会本能地排斥其他方法,即使新方法更优。

第一个陷阱:技术惯性

“我在上家公司就是这么做的,挺好用的啊。”

这是我最常听到的话。但问题是,上家公司的场景和现在一样吗?三年前的技术栈和现在的生态一样吗?

美团L8的架构师老王跟我分享过一个故事:“2021年我主导搭建了一套实时数仓,Lambda架构,批流两条链路。当时觉得特别牛,解决了实时性问题。但维护成本太高了,两套代码,经常数据不一致。2024年切到湖仓架构后,一套代码搞定批流,团队从20个人减到12个,成本降了60%。”

“最讽刺的是,当初我还觉得湖仓一体不成熟,坚持用Lambda。现在回头看,我那不是坚持技术原则,是技术固执。“

第二个陷阱:概念过载

“新概念太多了,今天Data Mesh,明天Data Fabric,后天又是Lakehouse,学不动了。”

这是另一种常见的心态——用学不动来掩饰不想学

但你有没有想过,真的是概念太多吗?还是你没抓住核心?

字节跳动3-1级别的架构专家在一次内部分享中说得特别好:“这些概念背后,本质只有一个:如何用更低的成本、更快的速度、更灵活的方式处理数据。

  • Data Warehouse(数据仓库):结构化数据,事先建模,查询快但不灵活
  • Data Lake(数据湖):所有数据都存,灵活但查询慢,容易变成数据沼泽
  • Data Lakehouse(湖仓一体):兼具两者优点,用开放表格式(Iceberg/Delta/Hudi)在数据湖上实现仓库的能力
  • Data Mesh(数据网格):去中心化,按业务域组织数据,适合大型组织
  • Data Fabric(数据编织):用AI和元数据管理连接分散的数据,强调自动化

你看,本质就是在”成本、效率、灵活性”三个维度上的不同权衡。抓住这个,所有概念都清晰了。

第三个陷阱:架构自嗨

“这个架构设计得真漂亮,从理论上讲完美!”

然后业务根本用不上,或者实施成本高到落不了地。

阿里某事业部去年有个真实案例。某P8主导设计了一套”完美”的数据中台架构,PPT做了200页,引用了十几篇论文,架构图画得像艺术品。评审的时候所有技术专家都说好。

半年后项目黄了。为什么?业务根本不需要那么复杂的东西

他们只是想快速看到用户画像,帮助营销做精准投放。结果这套架构要接入7个系统,迁移50个表,开发3个月。业务等不及,自己用Excel + Python搞了个简单版本,反而跑起来了。

“建筑师设计房子,是为了让人住得舒服,而不是为了获得设计大奖。数据架构师也一样。“

湖仓一体不是新瓶装旧酒,是认知范式的转变

很多人把湖仓一体理解成”数据仓库+数据湖”,这就大错特错了。

真正理解湖仓一体,需要三个认知层次:

第一层:技术层面——统一的存储和计算分离

传统架构的痛点:

数据湖(HDFS/S3)
↓ 清洗ETL(搬数据)
数据仓库(Hive)
↓ 再次清洗(又搬数据)
数据集市(MySQL)
↓ 给业务用(还要搬)

每搬一次数据,就多一份存储成本,多一次延迟,多一个数据不一致的风险。

PRO 会员专属

本文为 PRO 会员专属内容,成为会员即可阅读全文。

PRO ¥199/年 · Pro 专属文章 + 2300+ 知识文档 + 会员社群

Elazer (石头)
Elazer (石头)

11 年数据老兵,从分析师到架构专家。用真实经历帮数据人少走弯路。

加入免费社群

和数据从业者一起交流成长

了解详情 →

成为会员

解锁全部内容 + 知识库

查看权益 →
← 上一篇 为什么新人必须先学数仓分层,再学RAG架构 下一篇 → 数据人的管理者之路:从技术专家到团队领导者的蜕变