大数据之路2:少写代码才是进化方向

博文小编

2025-03-31


博文视点Broadview
以下文章来源于熊大数据 ,作者熊大数据

熊大数据 .
10年大厂经验,每周2篇干货原创,面试过600+人,提供付费咨询
我是大熊!某大厂数据负责人。


当年看大数据之路的工程师们,现在几乎都已经是资深、专家、甚至总监级别了吧。

如果《大路1》是写给大数据开发看的,那《大路2》是写给高层,或者想成为高层的人看的。
而且《大路2》不好读,它加入了很多宏观层面的内容:战略、顶层设计、数据要素、资产化,这些平时都接触不到,或者不太容易落地。
在我眼里:阿里在大数据领域是有先驱地位的,写的书,影响了一大批人,值得尊敬。

读书,要多反问自己

  1. 问:为什么你精通Flink/Spark却无法输出企业级交付物?

    大熊🐻:
    “工具熟练度不等于工程能力价值。”
    学了太多,但依然像个Data搬运工。
    《大路2》这本书很真实,它教大家如何成功交付一个项目的时候,也大方承认一些失败的项目。
    阿里这么强也做砸了很多项目,所以你做不好也是正常的,多自省而非自责。
    《大路2》提到失败的原因:缺乏高层支持,不过我相信背后的故事肯定更精彩。
    这让我想起国外出名的咨询公司(麦肯锡、IBM),他们的习惯就是喜欢自上而下,让高层参与进来,取得的成绩都归因于他们的英明指挥,项目能失败才有鬼。
    此外,数据资产化过程中,如何量化数据价值,让业务部门认可数据的价值,也是一门人情世故。
    代码只是很小一部分,模型设计远比它重要的多。
    所以我建议大家:强迫自己绘制逻辑模型和完整数据链路图后再写第一行代码。
  2. 问:为什么无法拒绝大宽表加字段,业务查数时要用?
    大熊🐻:
    “逻辑模型是业务翻译,物理模型是技术妥协。”
    多数团队把ER图当“面子工程”,物理建表时却按个人习惯疯狂冗余字段。
    《大路2》提出“模型设计要面向变化”,但这需要近乎反人性的自律。

    真正的企业级设计是像书中的“分层递进模型”一样,在ODS层容忍脏数据,在DWD层用范式约束,在DWS层用维度退化换查询性能。
    但现实是:PM总在DWS层临时加字段,还抱怨“跑个报表为什么要3小时”。
    我听过最吐血的一句话:这个表预留了10个备用,肯定够。

《大路2》中的“数据资产化”理想,核心矛盾不是技术问题,而是“数据权力归属”。
当业务方说“我们的数据很敏感”,真实意思是“我的数据就是我的地盘”

  1. 问:为什么治理是白天救火,晚上背锅?
    大熊🐻:
    “逻辑模型是业务的翻译,物理模型是技术的妥协。”
    可笑的是数据血缘靠Excel管理,指标口径不一致,被业务投诉,老板瞎指挥要1周内对齐指标;
    数据治理文档写了100页,真正执行的只有删除测试表和临时表。
    数据质量监控不能仅靠阈值告警,规范标准只有DE自己遵守,下游BI还要求临时导数一张大宽表。
    然后中台战略轰轰烈烈开干,半年后ROI太低被老板砍掉,评估调研早干嘛去了。

    《大路2》的思路通过维度建模强制统一业务定义,但中小厂最大的问题是将建模流程形式化,忽略业务演进的不确定性。
    “治理=约束研发,但放任业务”是本末倒置。
  2. 问:数据工程师的最终归宿一定是架构师吗?
    大熊🐻:
    “LLM对所有大数据工程师都是一场精神冲击”
    看得出来,大家都很焦虑!
    一方面自学Spark面临Agent的冲击,转头学湖仓一体又被云厂商SaaS化。
    转管理岗需要为数据故障背锅,而技术岗天花板肉眼可见;

    《大路2》其实已经暗示各位怎么取舍:技术人的价值不在于掌握多少工具,而是否具备定义问题的能力。
    具备因果推理能力的数据工程师价值远超搞基建。
    转型策略不是学Python或大模型,而是成为离业务线近的人。
    例如用AB实验驱动GMV提升,或用成本治理优化集群利用率(直接和财务指标挂钩)。
    我就见过一个同事:通过治理日志字段复用率推动公司数据存储成本下降20%,简单吗?
    首先他发现浪费的根因,然后真的去干了,这就是人才,也是公司真正需要的专才。
    从《大路1》到《大路2》已经7年,逼着我们要么卷成六边形战士,要么被应届生取代。
  3. 问:这本书有必要买吗?
    大熊🐻:
    “有必要!”
    当你困惑“为什么业务方总把开发当工具”,这本书给出了大厂参考答案:
    把技术价值包装成权力,控制所有核心模型的DDL权限,让业务方申请改字段时自动触发高层审批。
    治理的成功从来不靠文档规范,而在于让破坏规范的人感受到痛。
    书中那些“统一数据资产管理”的Case,本质是技术团队通过模型控制权反向绑架业务,这比学任何框架都重要。
    《大路2》书里是有智慧的,你需要好好品品。
    如果你工作7年后,仍觉得Lambda架构、流批一体是“技术问题”,证明你还没被现实捶打够,你仍需反复读这本书。

读者评论

相关博文

  • 社区使用反馈专区

    陈晓猛 2016-10-04

    尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...

    陈晓猛 2016-10-04
    5700 747 3 7
  • 迎战“双12”!《Unity3D实战核心技术详解》独家预售开启!

    陈晓猛 2016-12-05

    时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...

    陈晓猛 2016-12-05
    3427 36 0 1
  • czk 2017-07-29
    6277 28 0 1