第 4 篇:Lakehouse 成本问题往往不在存储
很多团队上 lakehouse,一个很强的动机是“对象存储更便宜”。这件事本身没错,但如果因此认为总体成本会自然下降,通常会低估后面的复杂度。
因为平台一旦进入生产规模,真正容易失控的往往不是存储费,而是:
- 查询扫描量
- 重复计算
- 小文件带来的额外元数据与执行开销
- 多引擎并发下的资源竞争
存储便宜,会放大不良使用习惯
对象存储的便宜有一个副作用:团队更容易对数据膨胀变得麻木。
表看起来都放得下,于是:
- 分区设计随意
- 历史数据很少回收
- 衍生表越堆越多
- 临时计算结果没人清理
这时候问题不会先出在账单第一行,而是先出在查询引擎和编排链路上。
成本治理一定要拉上治理模型一起做
如果平台只看资源账单,不看数据产品和权限边界,优化很容易失焦。
真正更有效的做法通常是:
- 建立数据集和作业的责任归属。
- 给扫描量、计算时长和失败重跑做归因。
- 约束临时表、派生表和历史快照生命周期。
- 把“能不能读”与“值不值得算”一起管理。
lakehouse 成本治理,本质上是平台治理问题,不只是账单问题。