30位数据科学家集结完毕,揭晓大模型时代数据科学的“晋级之路”

1. 峰会详情

数据科学是一个从数据预处理到模型构建,再到因果分析、实验验证和行业应用的完整流程。每个环节都至关重要,共同构成了数据科学的核心能力。

但随着GPT-4、DeepSeek等大模型掀起新一轮技术革命,数据科学领域正经历前所未有的范式重构。模型参数指数级增长、多模态融合突破、AI原生应用井喷......在这场变革浪潮中,数据科学的底层方法论是否依然成立?从业者该如何平衡技术创新与传统经验?本次峰会汇聚产学研顶尖专家,共同探讨大模型时代下数据科学家的生存法则与发展机遇。

  1. 会议亮点

▌ 技术演进中的"变"

大模型如何重塑数据预处理、特征工程与模型构建范式

从"小数据建模"到"预训练+微调"的技术跃迁

多模态数据处理与新型评估体系的构建挑战

▌ 底层逻辑中的"不变"

统计学本质:因果推理与可解释性的坚守

数据治理铁律:质量>数量,合规性仍是生命线

价值创造核心:业务场景驱动的技术落地

▌ 人才能力坐标系重构

新时代数据科学家技能树:从Python到Prompt Engineering

人机协同新模式:如何让大模型成为"超级助理"

伦理思辨:技术狂飙下的责任边界

  1. 会议全议程
  1. 论坛明细表

上午场 09:20-12:00

(1) 大模型时代数据科学的变与不变主论坛

论坛主题|大模型时代数据科学的变与不变

2025年4月19日 上午场 09:20 - 11:30

09:20 - 09:30

Opening

王大川,DataFun社区发起人

09:30 - 10:10

大模型的数据科学

肖仰华博士,复旦大学教授、博导,上海市数据科学重点实验室主任

10:10 - 10:50

数据科学中的 AI应用:优化数据处理,提高工作效率与应对未来

徐萌 Snap core data science tech lead

10:50 - 11:30

大模型与数据库的交互,从使用数据者到数据管理者

罗智凌 阿里云 百炼应用算法负责人

演讲嘉宾及议题信息

肖仰华 复旦大学 教授、上海市数据科学重点实验室主任

个人介绍:

肖仰华博士,复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、认知智能研究。 荣获ICDE2024十年最有影响力论文奖、ACL2023杰出论文奖。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。

议题介绍:

题目:大模型的数据科学

演讲提纲:

1.引言:大模型发展过程中数据所扮演的重要角色,以及大模型数据科学和大模型数据工程的定义,演讲结构概览

2.大模型的语料工程:大模型训练语料的选择标准、组织方式、分类体系、核心问题等,以及大模型课程学习优化策略

3.大模型的指令工程:大模型微调指令的分级体系、评价标准、优化方法等,以及大模型指令学习过程中的优化策略

4.多模态语料与指令:多模态大模型的训练数据特征,以及多模态数据集的评估方法、合成方式、分类体系等

5.大模型思维能力提升:大模型与人类思维过程的差异及大模型反思能力的实现、优化与评估

6.总结:数据是大模型发展过程中长期性、根本性、战略性问题,是引领大模型从"只知其然"的前"牛顿"时代走向"知其所以然"的"牛顿"时代的关键。

徐萌 Snap Inc Tech lead of core data science

个人介绍:

徐萌是 Snap Inc. 的Tech lead of core data science,她从北京大学元培学院获得经济学和法学学士学位,从加州大学洛杉矶分校经济学系获得博士学位,其后加入了Snap Inc.,

专注于利用观察数据进行因果推断。她的研究兴趣在于因果推断(Causal Inference),包括加权平衡方法(Balancing Approach)、合成控制(Synthetic Control)、因果中介分析(Causal Mediation Analysis)、因果机器学习(Causal Machine Learning)、随机对照试验中的选择问题(Selection Problem)、分位数回归(Quantile Regression)和方差缩减(Variance Reduction)。

议题介绍:

题目:数据科学中的 AI应用:优化数据处理,提高工作效率与应对未来

演讲提纲

  1. 引言:数据科学家的日常工作,AI在其中的角色,演讲结构概览

  2. AI在数据收集与清理中的应用:AI赋能的数据匹配,从非结构化文本图像中提取数据信息,语义搜索,基于embedding的内容相关性分析

  3. AI在机器学习中的应用:embedding作为新的feature,AI辅助feature engineering,AI生成合成数据

  4. AI提高数据科学工作效率的其他方式:代码优化,语言转换,AI辅助用自然语言进行数据可视化,改写专业术语使其浅显易懂,利用AI学习新工具

  5. AI在数据科学中的局限性

  6. 总结:人机协作作为一种最优解,AI时代的职业发展思考

听众收益:

  1. 了解 AI 在数据科学工作流中的实际应用场景

  2. 掌握如何利用 AI 进行数据处理、建模优化和生产力提升

  3. 认识 AI 的局限性以及人机协作的重要性

  4. 对数据科学职业发展的未来趋势有更清晰的认识

落地痛点:

目前存在一些尚未解决的问题

  1. 人机协作还处于初始阶段

  2. AI还是一个比较static的model没有去适应使用者的技能更好实现个性化以满足使用者需求

罗智凌 阿里云 百炼应用算法负责人

个人介绍:

罗智凌目前是阿里云-飞天实验室的阿里云百炼算法负责人, 杭州"万人计划"青年拔尖人才。在加入阿里巴巴集团之前, 我是浙江大学计算机的一名助理教授。我的研究得到了来自国家自然基金和浙江省杭州市政府的支持。

我和我的团队在负责 1. 阿里云大语言模型平台-百炼。 2. modelscope(魔搭);并参与通义千问系列模型,特别是代码模型和推理模型的研发,代表是XiYanSQL。

议题介绍:

题目:大模型与数据库的交互,从使用数据者到数据管理者

演讲介绍:

数据库作为三大基础软件,在大模型时代是最重要一种"外脑",如何更好的引入大模型以使用甚至管理数据库是一个非常有趣的问题。我们会简要回顾过去这类技术的10年发展史,并列出当下实际场景中暴露出来的新的挑战,进一步我们给出一个我们对这些挑战的解决思路(析言xiyan),最后我们会给出我们对短期和长期未来的技术趋势的理解。

演讲提纲

1、背景,模型访问数据库的技术变迁;

2、技术挑战:语言理解,数据库结构理解,模型逻辑,和业务逻辑等;

3、析言中的数据库结构增强,析言中的知识增强,析言中的模型增强;

4、大模型管理数据库的探索;

5、新的技术方向

听众收益:

1、宏观理解大模型对数据库的交互范式;

2、text-to-sql的关键技术进展;

3、新的技术方向

落地痛点:

  1. 数据库的结构和数据模型千变万化,如何让模型能理解"数据库里有什么";

  2. 业务场景复杂,人类表达不清,如何利用大模型猜出"究竟在问什么"

扫码报名观看

(2)专题论坛:数据科学与互联网

论坛主题|数据科学与互联网

2025年4月19日 上午场 09:20 - 12:10

09:20 - 09:30

Opening

张婧婧腾讯微信实验平台数据科学家

09:30 - 10:10

微信搜一搜实验演化历程

张玮杰 腾讯 WXG 搜索应用部 高级数据科学家

10:10 - 10:50

Uplift模型鲁棒性研究

陈新杰 腾讯金融科技 高级研究员

10:50 - 11:30

腾讯音乐实验平台因果推断落地初探

罗慰蓝 腾讯音乐实验平台负责人

11:30 - 12:10

互联网广告中的数据科学

周星 腾讯广告 数据科学负责人

出品人信息:

张婧婧腾讯微信实验平台数据科学家

北大光华商业分析硕士,在微信实验平台负责社交网络实验、异质性分析、实验长短期效应的算法设计与开发,从0到1搭建腾讯分布式因果推断工具。

演讲嘉宾及议题信息

张玮杰 腾讯 WXG 搜索应用部 高级数据科学家

个人介绍:

自20年加入WXG搜索应用部后一直负责部门实验相关规范及基建工作,覆盖搜一搜,问一问业务。与实验平台紧密合作落地各项优化实验质量及提升实验分析效率的能力,为业务提供正确实验实施及高效实验分析方法及基础。

议题介绍:

题目:微信搜一搜实验演化历程

演讲介绍:

背景:微信搜索业务模块复杂,原有实验体系存在流量叠加冲突、指标不统一、操作流程不规范等问题,实验错误率达6%/月,且未考虑平衡商业化策略与用户体验。

方案与亮点:

流量分层重构:基于模块调用关系设计独立实验域,解决流量干扰问题;

标准化流程:制定实验操作规范,增加排查机制及手段,典型错误率降至1%/月,实验吞吐量提升10倍;

DiffAB机制:与平台共建实验方法,提升灵敏度并推广至BG内复用;

跨平台实验:打通微信与广告实验平台,支持联合策略调优。

成效:

实验报告分析成本降低,结论解读更高效;

支持搜索商业化策略实验,提供收益与体验平衡的决策依据;

实验机制成为BG共享能力,推动技术复用。

核心价值:通过分层治理、流程规范与跨域协同,构建适配复杂场景的AB实验体系,兼具业务实用性与技术扩展性。

演讲提纲

分享材料提纲:搜一搜AB实验体系优化实践

一、背景与挑战

业务复杂性:微信搜索多模块耦合,流量叠加冲突严重。

实验痛点:

指标不统一,操作流程不规范,实验错误率6%/月;

商业化策略与用户体验缺乏平衡机制。

二、解决方案与核心创新

流量分层重构

设计逻辑:基于模块调用关系,构建独立实验域,消除流量干扰。

技术价值:解决模块耦合问题,提升实验置信度。

标准化流程与工具

规范落地:制定操作手册,新增排查机制;

效果量化:错误率降至1%/月,实验吞吐量提升10倍。

DiffAB实验机制

共建能力:与平台联合设计DiffAB实验方法,提升灵敏度;

技术复用:推广为BG级共享能力,覆盖多业务场景。

跨平台联合实验

协同突破:打通微信与广告实验平台,支持商业化策略调优;

平衡决策:量化收益与体验的平衡点(如广告收入与用户满意度)。

三、落地成效与业务价值

效率提升:实验报告分析成本降低,结论解读效率提升;

技术复用:DiffAB机制与跨平台能力成为BG共享基建;

商业与体验双赢:提供收益-体验平衡的量化决策框架;

四、总结与展望

核心价值:

分层治理:解决复杂模块流量冲突;

流程规范:降低人为错误,提升实验效率;

跨域协同:突破平台壁垒,实现联合调优。

未来方向:探索AI驱动的自动化实验分析;

听众收益:

  1. 了解一线ab testing推广落地经验

  2. 了解实验效率与质量提升实践

落地挑战和方案重点

  1. 如何自动化保证实验准确实施

  2. 如何结合AI大模型,助力用户洞察业务增长点,并基于实验数据更好地进行迭代

关键词

ABtesting,实验基础建设,实验分析提效

陈新杰 腾讯支付 高级研究员

个人介绍:

多年从事数据科学工作经验,擅长结合业务场景与数据科学,优化业务,目前从事信贷金融数据挖掘相关工作。

议题介绍:

题目:Uplift模型鲁棒性研究

演讲介绍:

Uplift 模型是用于评估个体对于处置手段的反应,实际应用中,由于Uplift的建模目标,常常伴随较差的鲁棒性, 而在金融信贷中,往往实验是不可逆的,对于模型的鲁棒性要求会更高,因此本演讲会从样本、特征、模型以及评估指标等方面讨论如何提升uplift模型的鲁棒性,实现一个可落地鲁棒性强的Uplift模型。

演讲提纲

  1. Uplift 模型的鲁棒性分析及重要性

  2. 提升Uplift模型的方案(包括样本、特征、模型及评估指标)

  3. Uplift 模型实践落地建议

听众收益:

  1. 重视Uplift模型在落地过程中的鲁棒性

  2. 如何提升Uplift模型的鲁棒性

落地挑战和方案重点

  1. 提升Uplift模型鲁棒性,往往需要多模型或者是多次训练集成,如何更快更有效的评估并合并多个模型。

  2. 针对Uplift模型鲁棒性,也跟特征敏感度相关,如何更好衡量特征敏感度,提升特征选择效果

关键词

Uplift模型, 鲁棒性,特征敏感性

罗慰蓝 腾讯音乐实验平台负责人

个人介绍

罗慰蓝 腾讯音乐实验平台团队负责人,一直从事数据平台建设、大数据架构设计及数据科学流程落地等工作,在数据工程领域有着丰富的经验。

议题介绍:

演讲题目:腾讯音乐实验平台因果推断落地初探

演讲介绍

在本次分享中,我将为大家介绍腾讯音乐实验平台在因果推断领域的探索与落地实践。我们将聚焦于一个核心的因果推断功能------策略正向子人群挖掘,深入剖析其数据科学流程、工程实现以及实际应用中的思考与挑战。同时,我们也会简要介绍其他因果推断功能,帮助大家全面了解因果推断在业务中的应用场景。

本次分享将从数据科学与数据工程的双重视角出发,结合实例,为听众提供从理论到实践的全面洞察,助力大家在各自领域更好地应用因果推断技术。

演讲提纲

  1. 背景及介绍

  2. 策略正向子人群挖掘

  3. 其他因果推断功能

  4. 总结及展望

听众收益:

  1. 认识因果推断在腾讯音乐实验平台中的核心作用。

  2. 了解因果推断的基础原理,常用方法及其适用场景。

  3. 从数据准备、模型构建到结果验证,系统化了解因果推断能力的实现路径。

周星 腾讯广告 数据科学负责人

个人介绍:

周星,腾讯广告实验科学总监。从事广告算法研发工作十余年,先后负责过大规模机器学习模型、oCPA、智能出价/定向/创意、机制设计、用户挖掘、行业技术服务等工作,主导承办过KDDCUP和腾讯广告算法大赛。

议题介绍:

题目:互联网广告中的数据科学

演讲介绍:

互联网广告业务中,不论To B或To C的场景,都需要通过数据的驱动来获得更精准的评估与决策。在B端,我们通过广告增效实验设计,可以准确地衡量广告为品牌带来的增量价值;进一步地还可以通过建立Uplift Model,来找寻广告效果最佳的广告受众群体。在C端,为了权衡广告消耗与用户体验,一方面我们可以通过Uplift Model衡量广告对收入以及用户时长带来的异质性效果,以制定针对性的调整策略;一方面建设了广告收入与用户体验之间兑换权衡的评估框架,为策略的全面评估提供了思路。

演讲提纲

  1. 广告增效实验设计:广告曝光增效价值衡量

  2. 广告增效Uplift Model:找寻广告效果最佳的广告受众

  3. 用户体验与广告收入的异质性分析

  4. 用户体验与广告收入的兑换:长期价值的衡量

听众收益:

听众可以从本演讲中了解如何通过数据科学的思维,掌握科学营销与增效实验设计的实战方法,同时也可以学习到如何将广告收入与用户体验进行科学权衡。

落地挑战和方案重点

在用户体验与广告收入的兑换衡量中,用户体验可能会通过多个指标、多条路径对长期收入造成影响,所以一方面需要尽可能穷尽体验指标影响收入的因果路径,另一方面在因果路径无法穷尽时,需要尽量在不同的场景对兑换比分别进行测算

关键词

实验科学,互联网广告,双边市场

扫码报名观看

(3)专题论坛:数据科学与数字经济

论坛主题|数据科学与数字经济

2025年4月19日 上午场 09:20 - 12:10

09:20 - 09:30

Opening

09:30 - 10:10

面向在线营销场景的高效Uplift方法

孙泽旭 中国人民大学高瓴人工智能学院 博士生

10:10 - 10:50

ST-MGRF:网约车场景下的地理实体表征框架

吴代强 滴滴出行 高级算法工程师

10:50 - 11:30

以决策为中心的"预测,然后优化"通用性微调框架

杨佳琪 滴滴出行 盖亚项目-算法实习生 同济大学交通学院 博士研究生

11:30 - 12:10

企业级AI Agent应用路线图

王奇文 字节跳动(前) 算法负责人

出品人信息:

罗文娟 快手激励广告算法Tech lead 高级算法专家

罗文娟,博士毕业于中国科学院计算技术研究所,研究方向为文本挖掘。毕业后曾在美团从事用户增长相关算法优化,在滴滴担任资源分配业务负责人。加入快手后,主要工作内容为基于因果推断算法优化push效率提升push效果。读博和工作期间曾在ICDM,KDD,NIPS,Information Processing & Management , Knowledge Based System等顶级会议和期刊上发表多篇论文,并发表国际专利一项。

演讲嘉宾及议题信息

孙泽旭 中国人民大学高瓴人工智能学院 博士生

个人介绍:

中国人民大学高瓴人工智能学院博士生,研究方向为因果推断,强化学习以及大语言模型的偏好对齐和推理等。曾以第一作者或者合作者的身份在NeurIPS,KDD,ICLR等顶级会议和期刊上发表论文十余篇,工业界实践经验丰富,曾在滴滴、快手、腾讯、华为等公司实习。相关成果已在工业界实际场景落地并取得一定收益。

议题介绍:

题目:面向在线营销场景的高效Uplift方法

演讲介绍:

随着近年来在线营销的发展,uplift modeling在营销场景中的地位变得越来🈷越重要,逐渐有一些通用的uplift方法发展起来。但是现有方法在特定场景中还普遍存在一些问题。首先在具有预算约束的营销场景中,大多数方法都采用两阶段的方式,即先预估uplift,之后再分配激励。然而往往两阶段的目标不一致会造成最后建模的次优性问题。其次就是在短视频等会需要实时调整激励的实时营销场景中,只考虑用户特征进行激励的发放,对问题建模过于粗糙,损失了很多的上下文(例如短视频)的特征。本次报告针对上面两种问题,分别提出了对应的解决方案,以进一步完善uplift modeling在在线营销中的应用。

演讲提纲

  1. 研究背景与问题

在线营销的重要性

通用Uplift方法

现有方法的局限性

  1. 带约束的端到端Uplift

问题定义

方法设计

实验与结果

总结

  1. 面向大规模上下文的Uplift

问题定义

方法设计

实验与结果

总结

  1. 未来展望

模型兼容性:可灵活适配多种提升模型(如DragonNet、UniTE)。

  1. 总结与展望

创新点:首次结合上下文分组与特征交互,解决大规模上下文下的提升建模问题。

未来方向:扩展至更多工业场景,优化聚类算法效率。

吴代强 北京嘀嘀无限科技发展有限公司 高级算法工程师

个人介绍:

本硕阶段一直从事时空大数据挖掘相关研究,在阿里云和滴滴均参与城市计算相关项目。目前专注于地理实体时空表征相关的工作,致力于构建网约车场景下的通用时空表征矢量库,为下游各类模型任务提供有效的输入。

议题介绍:

题目:ST-MGRF:网约车场景下的地理实体表征框架

演讲介绍:

在网约车出行场景中,存在很多的地理实体对象(城市、区县、格子、AOI、TAZ、POI等),它们既包含丰富的地理语义信息,也包含打车场景下的出行信息,同时它们之间还存在着层级嵌套关系(如:城市由区县组成,区县又包含格子,格子包含POI),因此将这些多源信息进行准确地融合表征是至关重要的,它能为下游模型和业务理解提供有效的输入(如用户增长、智能补贴、智能围栏、时序预测等)。

目前为止,大部分研究都聚焦在某一个空间维度的地理语义表征和时序表征上,很少有研究对多源信息进行融合表征,表征的同时也很少考虑到不同层级之间的嵌套关系,并且通常使用单一的下游任务牵引表征学习导致表征结果可扩展性受到极大的限制。ST-MGRF(Spatio-Temporal Multi-Granularity Representation Framework)旨在通过表征学习对出行场景下不同来源的信息进行融合表征,模型训练时和下游任务解耦让向量更聚焦于实体自身属性,同时考虑不同层级之间的嵌套关系,从而建立一个多源多层的时空表征系统。

演讲提纲

一、背景介绍

1、当前表征学习存在的问题

2、特征设计原则

二、方案选型

1、前期调研:graph embedding、对比学习、大模型文本和时序align等

2、信息解耦:不同来源的表征域拆分

3、实体表征:poi表征、基础单元实体表征、高层实体聚合表征

三、效果分析

1、定性分析:不同层级的地理实体表征结果分析(实体聚类可视化、实体向量召回等)

2、定量分析:在时序预测任务中精度指标显著提升

听众收益:

1、ST-MGRF的设计思路

2、网约车场景下地理实体的业务理解如何抽象为模型语言

落地挑战和方案重点

表征域划分合理性:既要对不同域信息进行解耦,又要避免过度拆分导致下游使用成本过高

关键词

时空数据挖掘;自监督对比学习;地理实体表征;ST-MGRF

杨佳琪 滴滴出行 盖亚项目-算法实习生 同济大学交通学院 博士研究生

个人介绍:

本人就读于同济大学,研究方向为机器学习与运筹优化在出行服务的应用,研究成果目前已被AAAI、TRB、TR-Part A等领域内顶级会议与期刊录用。本人自2023年11月起作为算法实习生在滴滴出行参与盖亚科研项目(指导算法专家:邹志超、甄鹏),研究场景为城市-天粒度级城市间异质性分析与最优预算分配。

议题介绍:

题目:以决策为中心的"预测,然后优化"通用性微调框架

演讲介绍:

在以补贴预算分配任务为代表的许多营销场景都可建模为预测-决策(PO)问题。然而,该问题通常被设置为两阶段过程,第一阶段仅关注预测的准确性,而不关注预测结果在决策问题中的使用,由于误差累积而产生次优的决策。以决策为中心的学习(DFL)直接将决策损失纳入预测模型训练过程中,以最大化决策质量,在大量实践具有优势。然而,在团队业务落地过程中,我们发现应用DFL存在三大挑战:1.DFL自身收敛性;2.DFL易使预测结果丧失原有物理意义;3.不可微的预测模型不适配基于梯度的DFL训练。为了解决上述挑战,本研究论文创新性地提出了一种微调框架DFF,该框架通过设计一种偏差校正模块,将DFL模块无缝嵌入已有的PO范式中。同时,DFF被表述为一个约束优化问题,使预测模型的输出结果始终保持在预定义的信任区域内。我们使用方法在生成数据和滴滴出行的真实数据上进行了广泛的测试,结果表明DFF不仅提高了决策性能,而且严格满足微调约束,在多场景中具有良好的适应性。

演讲提纲

业务背景、方案选型、落地挑战、解决思路、未来工作展望

听众收益:

Decision-focused learning基本原理与落地策略

宏观补贴分配优化问题建模与算法

落地挑战和方案重点

训练数据需要结合ABtest实验获得补贴效益的groundtruth

关键词

以决策为中心的学习、预测然后优化、补贴预算分配

王奇文 字节跳动(前) 算法负责人

个人介绍:

中国农业大学计算机硕士,10+年大厂算法研发经验,涉及深度学习、对话系统、大模型、AIGC等领域

  • 曾就职于百度、阿里、字节跳动等,豆包应用早期团队算法负责人,参与过垂类LLM训练及AIGC应用,豆包、Coze(扣子)研发

  • 自媒体《鹤啸九天》,技术博客300多篇文章,大模型主题有80多篇,多篇文章阅读量破万,知乎优秀答主

  • 书籍:《对话机器人入门实战》(初稿)、《图解大模型应用技术》(撰写中)(可选,不展示)

  • 专利超15项,其中国际专利3项;

议题介绍:

题目:企业级AI Agent应用路线图

演讲介绍:

介绍:Agent技术演进过程、优缺点、适用场景、发展方向

演讲提纲

LLM应用路线图

Agent介绍:RL Agent→LLM Agent

LLM Agent组件:Memory、Tool、Plan等

LLM Agent架构:ReACT、Reflection等

Agent应用

自动标注:Single-Agent→Multi-Agent

用户模拟:Multi-Agent→Browser-use

Agent思考

Agent问题分析

距离AGI还有多远?

听众收益:

了解Agent发展过程

Agent优缺点及应用场景

落地挑战和方案重点

Agent架构选型

Multi-Agent效果不理想

扫码报名观看

下午场 14:00-18:00

(4)专题论坛:数据科学与金融科技

论坛主题|数据科学与金融科技

2025年4月19日 下午场 14:00 - 18:00

14:00 - 14:10

Opening

14:10 - 14:50

金融业务广告投放的数据应用探索

王林波 腾讯金融科技 外投与风控负责人

14:50 - 15:30

网易数帆ChatBI与领域模型方案

杨海水 网易数帆 售前与解决方案专家

15:30 - 16:10

乐信黎曼异动归因系统的演进之路

周道钰 乐信集团 副总经理

16:10 - 16:50

从偏差到公平:Uplift建模中的去偏技术

梁杰 马上消费金融 高级算法工程师

16:50 - 18:30

数据科学与金融业务增长

许真浩 腾讯金融科技 数据增长负责人

出品人信息:

王常伦 腾讯金融科技 数据增长与产品中心负责人

曾就读于华南理工大学,毕业后加入腾讯,从事数据科学工作十余年,曾先后担任腾讯游戏、腾讯影业、腾讯动漫、腾讯金融科技等业务的数据科学及数据产品业务负责人。

演讲嘉宾及议题信息

王林波 腾讯金融科技 外投与风控负责人

个人介绍:

从事数据工作10年+,深耕核心的金融业务场景,含支付、理财、信用卡、证券、信贷等,有丰富的数据应用的经验沉淀,当前负责腾讯金融科技数据中台的外投与风控工作

议题介绍:

题目:金融业务广告投放的数据应用探索

演讲介绍:

广告投放的三个角色追求着不同的目标:用户追求体验,广告平台追求广告收入,而广告主追求更低的成本获得更多的成交转化;这三者的平衡与规则设计,即广告平台的竞价机制,只有深入的洞察此机制,才能使得广告主提效的措施达到事半功倍的效果

演讲提纲

1.广告概述

广告是什么?广告的参与方有谁?广告的售卖方式是怎样的?

2.数据赋能

数据可以在哪些环节,通过什么样的方式,对广告投放提效起到怎样的作用?

3.案例介绍

以信用卡发卡为例,分享提效实践经验

听众收益:

从广告主的视角,探索在广告投放中,数据可以在哪些场景及环节发挥作用;数据工作者,可以结合自身业务,在其中找到广告投放提效的关键路径

落地挑战和方案重点

广告投放和站内运营一样吗,掐尖投放是不是对的?

提升全链路转化率,找准用户,是否就可以达成业务"量"和"价的目标?

oCPM 保成本,为什么还会超成本?

关键词

金融业务、广告投放、竞价机制

杨海水 网易数帆 售前与解决方案工程师

议题介绍:

题目:网易数帆ChatBI与领域模型方案

周道钰 乐信集团 副总经理

个人介绍:

毕业于山东大学,16年数据从业经验

曾任信也科技数据资深研究员

现任乐信T线大数据中心负责人

议题介绍:

题目:乐信黎曼异动归因系统的演进之路

演讲介绍:

在金融科技领域,无论是业务拓展还是风险管控,都高度依赖精准的异动归因分析来实现稳健发展与科学决策。在业务层面,通过对交易、用户等关键业务指标的异动分析,精准把握市场动态,优化业务策略,挖掘潜在增长机会;在风险防控方面,借助对贷前、贷中、贷后风险指标的异动分析,提前预警风险,筑牢金融安全防线。

为达成此目标,我们的"黎曼" 异动归因系统,从数据到功能再到流程编排上基本覆盖了绝大多数业务场景。同时在实际运用过程中,难免会遇到各类问题,我们也积累了丰富的对应解决方法,确保系统稳定可靠。此外,当下大模型技术发展迅猛,我们也积极探索其在异动检测中的应用,为金融科技领域的异动归因开辟新路径。

提纲:

1.金融科技领域异动归因分析的重要性

2.统一平台能力的必要性和历史发展沿革

3."黎曼"异动归因系统产品架构设计

4.分模块讲解功能和技术实现方案

5.在实践中的常见问题和对应解法

6.大模型在异动检测中的探索

听众收益:

通过本次演讲,听众将深入且直观地了解乐信 "黎曼" 异动归因平台的全貌,掌握异动监测及各类归因模式的核心能力。结合自身业务与技术场景,能够将这些能力迁移应用到实际工作中 。

梁杰 马上消费金融 高级算法工程师

个人介绍:

从事多年电商推荐算法,有从0-1构建推荐系统经验,擅长业务、数据、算法相结合。目前从事信贷金融营销算法相关工作。

议题介绍:

题目:从偏差到公平:Uplift建模中的去偏技术

演讲介绍:

在个性化营销领域,Uplift建模通过评估干预(如优惠券)对用户的增量效应(ITE/CATE),成为提升决策公平性和效率的核心工具。然而,观测数据中普遍存在的混淆偏置和归纳偏置导致模型效果偏离真实因果效应。系统性解析Uplift建模中的经典去偏技术,探讨如何在复杂业务中实现无偏因果推断。

演讲提纲

1.Uplift建模基础与挑战

2.去偏技术核心方法

3.落地挑战

听众收益:

掌握Uplift建模的核心偏差来源与经典去偏技术原理

落地挑战和方案重点

1.观测数据非随机,干预样本覆盖不足情况下如何提升模型效果

2.离线指标(如AUUC)与线上ROI不一致,如何将模型评估与业务指标对齐

关键词

因果推断、混淆/归纳偏置、debias

许真浩 腾讯金融科技 数据增长负责人

个人介绍:

多年业务增长和数据科学结合工作经验,丰富的银行、理财和运营商行业精细化数据增长经验。

议题介绍:

题目:数据科学与金融业务增长

演讲介绍:

随着业务进入精细化运营时代,数据科学扮演着越来越重要的角色。助力业务增长过程中,数据科学一方面是工具:数据洞察、AB测试、因果推断、智能算法等,另一方面是增长策略:对什么用户、在什么场景、提供什么服务,提升多少业务指标。本次分享将重点介绍系统化数据科学业务增长方法论:我们如何整合数据科学工具,寻找增长空间,落地增长策略。

演讲提纲

1、数据科学助力业务增长的使命

数据科学一方面是数据统计,AB测试、因果推断、智能算法等数据工具,一方面应该是如假设检验,归纳演绎,问题拆解,原点思维等科学研究的方法论。数据科学助力业务增长的使命是:应用科学方法和数据工具来研究业务问题,解决用户需求,找到新的业务增长路径。

2、怎么应用数据科学于寻找增长空间

数据增长主要分成数据洞察,数据能力和数据策略三大部分,我们要从数据洞察中寻找业务增长空间,然后构建合适的数据能力,最后通过设计实验和放量迭代,达到提升业务指标的目的。

3、大模型时代数据科学岗位的未来思考

大模型可能数据科学岗位的影响和帮助,我们应该如何拥抱这些变化的初步思考和实践。

听众收益:

数据科学同学,可从分享中理解数据跟业务结合的增长实践,如何用数据赋能业务。产品运营同学,可以用分享中了解数据能力应该如何应用到自身的业务增长中。

落地挑战和方案重点

1、如何拆解业务问题、洞察业务问题、应用合适的数据科学工具洞察问题

2、 对于洞察的结果,如果结合业务能力,落地增长策略,最终拿到业务增长效果

关键词

业务增长、数据能力、精细化运营

扫码报名观看

(5)专题论坛:数据科学与供应链优化

论坛主题|数据科学与供应链优化

2025年4月19日 下午场 14:00 - 18:00

14:00 - 14:10

Opening

戚永志 京东零售集团 技术总监

14:10 - 14:50

VRP算法商业化之

叶鑫 前阿里巴巴 算法专家

14:50 - 15:30

运筹优化技术在工业界领域的应用:换电服务网络规划与最后一公里配送

王志远 清华大学 工业工程系 博士后

15:30 - 16:10

从数据到决策:供应链的"最强大脑"是怎样炼成的

裘滢滢 杉数科技 解决方案总监

16:10 - 16:50

人工智能在降低供应链风险中的应用

陈文达 新科研集团 新科研集团

16:50 - 18:30

TimeHF:供应链时序大模型的工业革

石正新 京东零售 零售供应链部门 库存算法专家

出品人信息:

戚永志 京东零售集团 技术总监

戚永志博士,现担任京东集团供应链算法团队技术总监,香港大学客座教授,中国运筹学会数据科学与运筹智能分会委员。目前负责选品、定价、库存、履约等供应链全链路算法优化工作,致力于算法驱动的内外部供应链效率改善工作;主持国家科技部重大课题,协同企业和科研院校打造 "产学研用" 协同合作体系,打造智能供应链人工智能平台,其带领团队打造的技术成果先后入围INFORMS Franz Edelman Finalist,荣获INFORMS Prize、Daniel H. Wagner Prize、Gartner技术创新等多项奖项,在Management Science,POMS,M&SOM以及IEEE Transactions 等期刊发表学术论文,持续推进供应链、人工智能、运筹优化等技术的落地应用推广。

演讲嘉宾及议题信息

叶鑫 前阿里巴巴 算法专家

个人介绍:

2017-2021 阿里巴巴集团

获奖情况:

2019年获菜鸟CTO最佳项目奖

2020年VRP项目入围全球Franz Edelman奖决赛

项目经历:

1、多个业务场景下的调度派单项目,例如:菜鸟智能调度项目,EASI外卖派单项目等

2、通用组合优化求解器设计

3、打造GreedSolver算法平台

议题介绍:

题目:VRP算法商业化之路

演讲介绍:

本次演讲主要围绕VRP算法在工业界落地展开。重点讲解VRP算法在工业场景中如何进行落地的,经历多个调度场景的算法设计后,开始尝试对公共算法能力进行抽离,沉淀核心算法求解器,同时支持多业务定制化需求。最终形成完整的通用算法调度产品,并以此对外进行能力售卖。本次演讲尝试将算法产品整体演化过程和思考过程展现给大家,希望能带给大家一些启发和思考,特别是正在做算法能力SaaS化的同学。

演讲提纲

1、VRP算法介绍;

2、菜鸟业务场景中的落地案例;

3、基于启发式算法的组合优化求解器设计;

4、算法产品化的过程;

听众收益:

1、VRP算法的学习;

2、运筹优化问题在工业界落地的难点与解决方案;

3、核心算法的组件化设计思路;

落地挑战和方案重点

通用组合优化求解器设计

关键词

物流算法 调度算法 VRP算法 派单算法

王志远 清华大学 工业工程系 博士后

个人介绍:

王志远,北京理工大学博士毕业,新加坡国立大学访问学者,现为清华大学工业工程系博士后,研究聚焦于鲁棒优化、换电服务网络规划等领域,在国内外重要期刊发表多篇论文,参与多项国家自然科学基金项目,并与知名企业合作进行优化算法落地。曾多次在国际学术会议进行报告,致力于推动优化技术在工业界的应用。

议题介绍:

题目:运筹优化技术在工业界领域的应用:换电服务网络规划与最后一公里配送

演讲介绍:

本次演讲将聚焦于如何利用数学建模和优化算法来解决换电服务网络规划与最后一公里配送问题。在当前出租车换电模式与无人驾驶技术快速发展的背景下,合理规划换电站布局、优化电池供需管理,对提升运营效率、降低成本至关重要。本次分享将针对换电需求空间分布不均衡的问题,展开换电站选址与定容研究, 提出有序换电策略,构建分布式鲁棒优化模型,设计列与约束生成算法,并利用北京换电车辆数据验证模型与算法有效性,给出管理见解。随后介绍最后一公里配送相关问题。

演讲提纲

1.研究背景与行业趋势

城市级出租车换电运营模式的变化

辅助驾驶向无人驾驶发展的影响

换电站规划的关键挑战

2.有序换电策略:应对换电需求不均衡

车辆如何在实时调度下选择换电站

该策略如何优化电池供需匹配

3.分布式鲁棒优化模型构建

采用 带提前期的随机周期库存模型 刻画电池供需

构建 两阶段分布式鲁棒优化模型 解决选址与定容问题

4.求解算法设计

解析 模型凸性 与 对偶问题最优解的结构特性

设计 列和约束生成算法 以高效求解

5.对抗策略与预分配策略

如何将模型转化为 混合整数二阶锥规划 进行求解

与持续性相关的离散优化理论应用

6.数值实验与策略对比

Sioux-Falls 交通数据集上的算法验证

北京市换电车辆真实数据的 三种策略对比分析

验证 有序换电策略在空间上平衡需求、减少电池需求

7.最后一公里配送

听众收益:

了解 换电站规划的核心优化问题 及最新的研究进展

学习 鲁棒优化与列约束生成算法 在实际问题中的应用

认识 有序换电策略的实际价值 及其在智能调度中的潜力

落地挑战和方案重点

算法需解决大规模问题下实时调度的落地,实现从理论到实际部署的转化。

关键词

换电服务网络、鲁棒优化、最后一公里配送

裘滢滢 杉数科技 解决方案总监

个人介绍:

加州大学圣地亚哥分校商业分析硕士,现任杉数科技智能计算软件部解决方案总监,具有超3年供应链咨询、产品设计及项目实施经验,服务行业覆盖食品饮料、美妆日化、连锁零售等,曾主导并深度参与玛氏新品项目、波士顿科学库存优化项目。

议题介绍:

题目:从数据到决策:供应链的"最强大脑"是怎样炼成的

演讲介绍:

在VUCA时代,传统依赖经验的供应链决策模式正接受着前所未有的挑战。面对瞬息万变的市场环境和日益复杂的业务需求,企业亟需构建新一代智能决策"最强大脑",实现从数据到决策的智能跃迁。

本次演讲将分享杉数科技如何通过AI与OR双引擎协同驱动,打造端到端的智能决策解决方案,让企业供应链同时具备"读心术"与"决策力",真正实现数据驱动的智能决策。同时,演讲将结合多个行业标杆案例,深度剖析企业数智化转型的成功实践。

演讲提纲

一、为什么供应链需要"最强大脑"?

1.供应链行业痛点

· 传统供应链的"盲人摸象"

· VUCA时代的新挑战

2.智能决策的黄金三角

· AI + OR + Domain的化学反应

· 智能决策的核心技术:COPT优化求解器

· 杉数科技:构建供应链的"决策大脑"

二、供应链读心术:AI赋能的需求预测新范式

1.传统预测方法的失效边界

2.数据科学如何改变需求预测的格局

(1)突破数据孤岛:多源数据融合打好需求预测的地基

(2)量体裁衣:行业Know-How带来的场景定制化方案

(3)1+1 > 3:混合模型如何让预测准确率突破天花板?

(4)上线≠成功:反馈迭代的"马拉松"才刚刚开始

3.成功案例实践

三、从预测到决策:OR驱动的库存补货策略

1.为什么需要运筹优化?

2.杉数智能补货引擎核心技术

(1)从"一刀切"到"差异化":库存管理的关键转型

(2)从"固定阈值"到"动态博弈":动态安全库存如何平衡风险与成本

(3)从"局部最优"到"全局胜利":多级库存联动优化破解"牛鞭效应"

(4)从"事后救火"到"事前演练":模拟仿真让决策更科学

3.成功案例实践

听众收益:

1.方法论掌握:学习数据科学在供应链中的关键应用,深入理解AI与OR的协同作用,通过构建"预测+优化"的双引擎决策体系,突破传统供应链管理的局限性,从"经验驱动"转向"数据+算法驱动"的智能决策范式。

2.案例启发:通过真实行业标杆案例,获得可复用的数智化转型路径与落地经验。

落地挑战和方案重点

1.数据质量与孤岛问题:供应链决策依赖多源数据(订单、历史销量、库存等),但数据分散、口径不一、噪声大,导致算法模型的数据输入质量不稳定。

2.业务规则与算法决策的冲突:企业长期依赖人工经验制定的业务规则(如人为设定的补货周期、供应商配额),与算法生成的优化策略产生矛盾,导致执行阻力。

关键词

机器学习、运筹优化、动态安全库存

陈文达 新科研集团 新科研集团

个人介绍:

申报人在新加坡南洋理工大学取得计算计工程本科和硕士学位。在美国伊利诺伊大学香槟分校取得计算机工程博士学位,博士后期间在英特尔实验室的预期计算实验室进行多模态大模型研究,共发表论文12篇。目前在新加坡科研局先进再制造科技中心和国家级人工智能卓越中心负责多个国家级项目,研发和应用多模态人工智能工业大模型提升制造业效率和供应链韧性,领导生成式AI应用路线图,行业协同创新项目和平台,实现人工智能应用战略的精准定位和落地。在技术上长期研究多模态信号处理,小语种语音语言识别,端到端语音语言理解处理和情感分析的相关算法,应用于会话分析等语言大模型,以及意图识别和基于音频的疾病检测等领域。

议题介绍:

题目:人工智能在降低供应链风险中的应用

演讲介绍:

近年来,全球突发的重大医疗健康和公共事件对医疗体系、医药供应链及相关产业链带来了深远影响,暴露出医疗行业在供应链管理上的脆弱性,尤其是医药产品短缺问题。本研究以相关医疗产业机构为对象,探讨应对突发事件的风险管理机制,并借助大数据分析技术,提出合理的风险防范建议与自动化辅助方案,以提升企业在不确定环境中的应对能力。

演讲提纲

本研究重点关注后疫情时代医药供应链的韧性,借助人工智能与大数据分析,优化供应链管理,提高风险应对效率。研究的主要内容包括:建立基于全球及本地新闻数据的实时预警系统,识别影响医药供应的潜在风险,如疫情爆发、运输瓶颈或政策变化;探索智能化库存管理方案,确保关键医药产品的供应稳定,降低短缺风险;改进订单预测与采购策略,以提升供应链的灵活性和抗风险能力;通过数据分析与模拟,研究如何在突发情况下调整供应链参数,提高供应链弹性,如快速寻找替代供应商或优化库存分配策略;引入机器学习算法,实现对海量供应链数据的自动化分析,提前识别供应风险并优化管理策略。本研究的最终目标是构建一套科学有效的风险防范机制,帮助医药企业在突发事件中保持供应链稳定,提高管理效率,并增强行业的整体韧性。

听众收益:

本研究的重点是基于近年来全球范围内突发的重大医疗健康和公共事件,这些事件对医疗体系、医药供应链以及相关产业链条产生了深远的影响与风险。通过分析这些事件的影响,我们选择相关医疗产业机构和企业为切入点,深入研究这些事件带来的挑战。通过案例研究和数据分析,探讨如何构建有效的防风险机制和模式,以应对未来可能发生的类似突发事件。研究希望借助大数据分析技术,提出一套合理的防风险建议,帮助企业和机构在突发事件发生时能够更加从容应对。此外,研究还将探索如何通过自动化辅助系统,进一步提高应对突发风险的效率。

落地挑战和方案重点

本研究的背景主要植根于后疫情时代,企业和机构对于供应链韧性的关注日益增强,特别是在医疗行业中,医药产品短缺问题成为一个普遍的忧虑。为了应对这一挑战,本课题希望借助人工智能、大数据等现代科技手段,提升医药产品供应链管理的效率,并降低相关风险。研究的主要成果包括:通过对全球和本地新闻事件的实时监测,建立突发事件的预警系统;优化库存管理流程,确保关键医药产品的供应链稳定;改善订单服务和采购流程,以应对供应链中断的风险;最终提出一整套降低医药供应链风险的综合措施,以提升企业在面对突发事件时的应对能力和管理效率。

关键词

供应链风险,韧性,人工智能

石正新 京东零售集团 京东集团供应链算法团队 算法专家

个人介绍:

18年校招加入京东零售供应链部门,专注于供应链管理、采购自动化、时序大模型、可解释预测等的研究与应用,现作为库存算法专家,致力通过人工智能技术优化京东供应链效率,曾作为核心成员获得Gartner2024年全球供应链技术创新总决赛冠军。

议题介绍:

题目:TimeHF:供应链时序大模型的工业革新

演讲介绍:

销量预测是供应链决策的核心,直接影响库存与资金效率。传统时间序列模型因模型拟合能力和数据维度限制,难以应对电商场景下复杂需求波动,如新品、季节性商品、长尾商品。京东推出了 TimeHF,全球首个 6B 参数规模的工业级时序大模型。TimeHF 基于京东全场景销售及公开数据构建 210B 大小的高质量的时序数据集,设计了首个面向时序预测的 RLHF 框架(TPO算法),将专家经验通过 RLHF 机制嵌入模型,实现人类认知与 AI 的协同进化。TimeHF 在京东供应链实现 20,000 种商品的自动补货部署,预测准确率相对提升 33.21%。这一创新不仅可推动了 LTM 技术的发展,也为京东供应链管理带来了显著的工业效益。

演讲提纲

一、业务背景:供应链预测面临的痛点与机遇

二、方案选型:为何选择时序大模型(LTM),大尺寸模型能够捕捉时序数据更多的信息,覆盖京东不同场景的预测,可扩展性强、零样本预测能力高。

三、落地挑战与解决思路:高质量数据集的构建、大尺寸模型的训练及优化、时序预测的 RLHF 框架构建。

四:解决效果:预测效果以及落地实践

五:行业展望:大模型在供应链管理中的进一步应用

听众收益:

大规模时间序列数据集的构建与重要性: 演讲详细介绍了如何构建高质量、多样化的大规模时间序列数据集,包括数据增强、数据平衡和多样性排名等技术。听众将认识到,数据集的丰富性和复杂性对于训练高性能的时间序列模型至关重要。

掌握RLHF技术在时间序列预测中的应用:本次演讲首次展示了如何将强化学习与人类反馈(RLHF)技术应用于时间序列大模型(LTM)中,特别是通过时间序列策略优化(TPO)框架。这不仅为听众提供了一个全新的视角来理解如何利用人类专家的知识和经验来优化模型性能,还展示了这一方法在实际应用中的巨大潜力和效果。

了解大型时间序列模型(LTM)实际应用案例及其经济效益:演讲中提到的京东供应链系统中TimeHF模型的成功部署案例,展示了该技术在实际商业环境中的应用效果和经济效益。

落地挑战和方案重点

1、大模型性能优化

2、大模型实际落地的可解释性

关键词

时序大模型、销量预测、供应链实践、RLHF、高质量数据集

扫码报名观看

相关推荐
菜鸟una6 分钟前
【layout组件 与 路由镶嵌】vue3 后台管理系统
前端·vue.js·elementui·typescript
小张快跑。7 分钟前
【Vue3】使用vite创建Vue3工程、Vue3基本语法讲解
前端·前端框架·vue3·vite
LabVIEW开发10 分钟前
LabVIEW中算法开发的系统化解决方案与优化
算法·labview
Zhen (Evan) Wang12 分钟前
.NET 8 API 实现websocket,并在前端angular实现调用
前端·websocket·.net
chenyuhao202416 分钟前
链表面试题7之相交链表
数据结构·算法·链表·面试·c#
Pluchon28 分钟前
硅基计划2.0 学习总结 壹 Java初阶
java·开发语言·学习·算法
星空寻流年32 分钟前
css3响应式布局
前端·css·css3
仙人掌_lz40 分钟前
理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现
python·算法·强化学习·策略梯度·rl
Rverdoser1 小时前
代理服务器运行速度慢是什么原因
开发语言·前端·php
cainiao0806051 小时前
《Spring Boot 4.0新特性深度解析》
java·spring boot·后端