如何接手一个数据团队？

【引】又快到年底了，一个好友换了一份新的工作，负责数据团队。和他聊了很多，收获满满。经他同意，将我们讨论的内容整理成文，希望对更多的朋友有所帮助。

当许多数据工程师、分析师和科学家被推到数据团队负责人或主管的岗位时，并没有得到太多的指导或建议。因此，这里想整理一份清单，列出要成为数据团队的领导者，你需要知道和做的事情。

1.了解业务

如果你按照某种优先顺序做这些事情，了解业务应该是第一位的。

人们常常谈论业务团队需要如何变得更加"数据驱动"或"数据流畅"，但很少有人关注反向的问题：数据专业人员也需要变得"业务流畅"。换句话说，仅仅掌握技术是不够的，真正能够发挥价值的数据从业者，必须理解他们所服务的业务本质。

要构建出真正满足业务需求的数据产品或分析体系，数据人员不能只停留在数据层面，而应主动去了解和研究所在行业的运作逻辑、关键流程以及核心指标。比如，销售漏斗是如何运转的？医院又是如何管理病人流程的？这些业务活动最终都会以某种形式反映在数据中。如果你只是盯着数据本身，而忽略了它背后的业务含义，那么你看到的只是现实世界的间接投影。

在这个过程中，数据团队其实承担了一个桥梁的角色------连接业务与技术、事实与决策之间的纽带。而这个角色的最佳承担者，往往是数据团队的负责人或核心成员。如果没有这样一个人或机制来打通两者，那么即使拥有最先进的基础设施和模型，也很难构建出真正推动业务发展的系统。

如果希望构建完整的数据空间体系，可以参考林建兴老师的大作------

当然，我们也不能忽视一个现实：企业整体确实需要具备一定的数据素养，比如基本的图表解读能力、对数据质量的理解等。但这并不意味着业务团队能完全理解复杂的数据架构或算法逻辑。相反，作为数据专业人士，我们需要用他们能理解的方式沟通，并将数据转化为可操作的见解。

"当数据团队投身于公司最关键的战略项目时，他们才真正变得不可替代。"这句话道出了一个核心观点：如果你想成为公司核心决策的一部分，而不是一个被动响应查询的支持角色，就必须深入理解业务正在发生的事情，并主动参与其中。

归根结底，业务不会关心你的数据管道是如何搭建的，他们关心的是你能为他们的目标带来什么价值。而你，作为数据从业者，只有先理解了他们在做什么，才能让数据真正发挥作用。

2.没人在乎你如何解决问题

不要与数据团队以外的人谈论数据技术、基础设施或查询ーー他们根本不在乎。

在与业务团队沟通时，重点不在于使用技术术语或供应商名称（如 Snowflake、Kafka、AWS、S3、Airflow 等），而在于用他们能理解的方式描述你所构建的功能------比如"数据仓库"、"流式事件处理"、"流程调度"或"数据管道"。这样做的目的是为了让业务方清晰地理解你工作的价值和复杂性，而不是被技术细节所困扰。

例如，为什么整合一条新的产品线到每日报告中需要整整一个月？业务人员可能不需要了解底层的ETL流程是如何优化的，但他们需要理解其中涉及的关键功能步骤：数据接入、清洗、转换、加载以及最终呈现。这种表达方式既能传达工作量，又不会让他们感到迷失。

第一步，确保术语一致。

很多时候，项目推进困难仅仅是因为大家对同一个术语的理解不同。比如当你说"Postgres 实例"，有人以为是操作型数据库，有人却理解为ODS或数据仓库。并不是所有系统都能完美归类，因此关键在于提前定义清楚每个术语的大致功能定位，哪怕它只是粗略划分。只要大家在一个共同的语言基础上沟通，就能避免很多误解，让协作更顺畅。

第二步，注意沟通的对象和场合。

如果你曾在与C-suite高管的会议中打开IDE，试图解释一个查询为何执行缓慢，那很可能已经偏离了正确的沟通轨道。这不是他们关心的问题，也不符合他们的决策视角。高层关注的是结果、影响和进度，而不是技术实现的细枝末节。

在谈论业务时，核心不是你的技术挑战，而是你如何推动业务目标的达成。

如果希望参考数据驱动业务的案例，可以阅读冯天驰老师的《数字要素驱动供应链金融》------

业务部门真正想知道的是：你在做些什么来帮助他们推进项目、达成预期成果、在老板或股东面前交出好成绩。他们并不关心你用了什么调度工具，除非你提到的内容直接影响到他们的目标。只有当你所做的事情与他们的优先级产生关联时，他们才会进一步追问技术细节。

总的来说，与业务沟通的目标不是让他们变成数据专家，而是让他们理解你所做的工作如何服务于业务目标。这意味着你要聚焦于功能组件和业务结果之间的联系。与此同时，你也希望管理层能够自信地提出问题、参与讨论，而不必掌握所有的技术背景。真正的沟通艺术，在于把复杂的技术转化为清晰、可理解、有影响力的业务语言。

3.糟糕的数据质量会让你付出代价

缺乏数据质量会导致其他部门将数据孤立起来，因为没有任何高管相信这些数据，而且每个部门都拿出了自己的数据。

数据的准确性至关重要。今天少计算1元，可能意味着明天就会少赚10万元。这些看似微小的细节，在实际业务中往往具有深远的影响。你可能会惊讶地发现，当首席财务官查看一份报告时，仅仅注意到销售数量或某个账户的总支出少了5元，就足以让他们对整个数据体系产生质疑。这种信任一旦动摇，后续想要重建将异常艰难。

如果希望了解如何构造良好的数据以满足制造业的业务需求，可以参考王晓华老师的《一本书讲透数据体系建设：方法与实践》------

而更严重的问题在于，这种不信任往往会引发连锁反应。为了获得"他们想要看到"的结果，其他部门可能会开始建立自己的数据流程和报表系统，形成所谓的"影子数据团队"或"分散式分析流程"。这不仅导致数据口径不一致、重复建设，还会削弱中心数据团队的权威性和影响力。

因此，确保数据源的真实、准确，以及在构建数据分析存储层时保持严谨的态度，是避免这些问题的关键。你越是在前期重视数据质量，后期因数据错误带来的争议和修正成本就越低。数据工作的价值，往往就藏在这些细节之中。

4.对供应商的说法持保留态度

关于如何构建最佳数据基础设施的话题，一直是行业讨论的热点。但值得注意的是，很多观点背后其实有其来源和动机，理解这一点对于判断其适用性至关重要。

比如，曾有一段时间，不少文章大力推崇"schema-on-read（读时建模）"作为一种减少洞察延迟的有效方式。其核心理念是：与其花大量时间在数据仓库中预先定义 schema，不如将数据先以原始形式存储在数据湖中，在需要时再进行解析和处理。这种思路一度让人觉得，也许我们不再需要传统意义上的数据仓库了，一切都可以在湖上完成。

然而，现实情况却有所不同。如今我仍然看到很多组织在使用数据湖，但它们的角色已经发生了变化。大多数情况下，数据湖更像是一个低成本、高容量的初始处理平台，用于对原始数据进行清洗、转换，然后再加载到结构更清晰的数据仓库或分析系统中。换句话说，它成为了整个数据架构中的"前置步骤"，而非替代方案。

关于数据产品的开发与运营，可以参考钱勇等老师的《数据产品开发与经营》一书------

回想2015至2016年间，几乎所有人都在热烈讨论 schema-on-read，并将其视为一种最佳实践。但实际上，这种趋势背后既有技术演进的推动，也有供应商推广 Hadoop 生态系统的商业考量。当时我们刚刚开始探索如何有效利用这一新范式，而一篇来自 Google 的相关论文似乎进一步验证了它的可行性------于是大家纷纷尝试让它"工作起来"。

当然，这并不是说 schema-on-read 没有价值或者已经过时。事实上，Hadoop 及其生态系统至今仍在许多大规模数据处理场景中扮演着重要角色。只是随着时间推移和技术的发展，我们逐渐意识到，schema-on-read 并非万能，也并非适用于所有场景。

技术和最佳实践往往需要经历一段时间的沉淀，才能找到真正适合它的定位。因此，如果你感觉某个供应商正在推动某种新的、尚未经过充分验证的方法，仅仅是为了推销他们的产品------那么很可能，事实正是如此。保持理性判断，结合自身业务需求来选择合适的技术路径，才是构建可持续数据架构的关键。

5.有意识地使用数据团队中的角色

数据工程师和数据架构师的目标，往往与数据科学家和分析师存在显著差异。这种差异不仅体现在工作职责上，也深刻影响了我们在构建数据管道和数据集时的出发点和侧重点。

正因为如此，核心数据层的建设通常更适合由数据工程师和架构师主导。这一层数据承载着企业最关键的业务实体与关系，是整个数据分析和决策体系的基础。尽管不同组织可能会用不同的术语来描述它------比如"核心实体"、"关键关系"或"黄金数据源"------但其本质是一致的：它是所有后续分析、报表、机器学习模型所依赖的基石。

当然，并非每家公司都具备这样的团队结构。在一些规模较小或资源有限的组织中，可能只有一名数据分析师承担多项职责，因此这种分工未必适用。但对于拥有一定数据能力的企业来说，将核心数据层视为基础设施来建设和维护，是非常必要的。无论是一个独立的数据团队，还是每个项目组中的数据角色，这层数据都应该被统一管理、持续优化，并作为其他所有工作的基础。

理想情况下，在核心数据层构建完成后，上层的应用开发就可以更加灵活。例如，分析工程师可以根据这些高质量的数据构建自己的模型，由分析师或业务用户完成所谓的"最后一英里分析"（last-mile analytics）。这种模式不仅能提升效率，也能释放数据团队的潜力。

如果对多模态的数据分析感兴趣，可以参考巴川老师的《多模态数据分析》------

当核心数据足够稳定、清晰、可信时，数据工程师就可以专注于打造可靠的数据资产，而分析师则能够更自由地探索业务需求，构建定制化的报告、仪表板以及临时性分析场景。这种分工不仅提升了整体协作效率，也让数据真正成为驱动业务的核心力量。

6.小结

许多数据团队在实践中确实面临挑战，但这并不意味着大多数数据团队注定会失败。问题的根源在于，我们在构建可靠、可信的数据系统这一核心目标上，已经开始有所偏离。

如今，越来越多的新晋数据经历被推上关键岗位，但他们往往缺乏足够的经验或明确的指导来调整角色、制定清晰的战略方向。在这种情况下，团队容易陷入战术层面的忙碌，却忽略了数据工作的本质------即建立一个稳定、可扩展、值得业务信赖的基础体系。

真正的问题可能不是"数据团队是否会失败"，而是我们是否还在坚持那些构建高质量数据系统所必需的原则。当组织更关注工具堆栈的迭代速度，而忽视数据治理、架构设计和质量保障时，失败的风险才会真正显现。因此，我们需要重新聚焦于那些经得起时间考验的实践方法，并为数据领导者提供足够的支持，帮助他们顺利过渡到更具战略性的角色中。

【关联阅读】