数据科学和ML领域的趋势是什么?为2026年做准备

3个(对我来说)最突出的关键趋势

按回车键或点击以查看全尺寸图像

描绘AutoGen背后动机的漫画。图片由AutoGen提供。

这些就是在活动期间让我印象深刻的趋势,并且在某种程度上,它们已经积累了足够的动力,值得密切关注。

1. 从传统分析到智能体分析

我们正在进入分析的新阶段。在这个阶段,仪表盘和静态报告已经不够用了。

我预计到2026年初,这个话题将变得更加热门

重点将放在创建更具活力的系统上,这些系统可以加速从数据到洞察的过程,使分析更具适应性,减少对人工探索的依赖,许多人开始将其称为自主分析。

💡有一点很明确,在这场智能分析转型中引领潮流的公司,将是那些有远见卓识,能够构建强大的数据工程基础并投资于语义建模的公司。这最终将使AI智能体能够以有意义的方式与数据进行交互。

本文稍后将对此进行更多阐述。

2. 小语言模型是下一个大趋势

小型语言模型(sLMs)正变得惊人地强大。

Phi-3MistralLlama 3 8B这样的模型表明,你不需要庞大的基础设施就能获得强大的性能。通过一些微调,它们甚至可以在特定任务上超越更大的模型。

💡对于开发者和小型团队来说,这也意味着我们现在可以在普通笔记本电脑甚至手机上运行快速、私密且低成本的模型。

3. 专业化多智能体系统的兴起

一个反复出现的重要主题是向分层多智能体系统 的转变。与依赖单个智能体处理整个工作流程不同,现在的新架构使用协调智能体将任务分解成更小的部分,并将其委派给专门的子智能体。

每个子智能体专注于一项微小、定义明确的任务,如清理数据、总结发现或生成代码,并在这单一任务上变得极为擅长。它们共同构成一个协调的系统,比单独工作的通用智能体更快、更便宜且更可靠。

💡这种"分而治之"的方法也为**小型语言模型(sLMs)**发挥更大作用打开了大门。由于每个子智能体只需要处理一项狭窄的任务,即使是轻量级模型,在精心编排的系统中组合使用时也能表现出色。

随着自主系统的成熟并投入生产使用,我们很可能会更多地看到这种设计模式。

数据科学家应该注意什么?

我的建议,尤其是给那些希望在职业发展中实现下一次飞跃的中高级数据科学家:在你所在公司引领自主分析转型。

据我所见,大多数组织才刚刚开始意识到这一变化。

这意味着你有真正的机会发挥引领作用,无论是通过倡导能够实现自主分析的现代企业工具,还是通过构建自己的智能体,使分析更快、更具交互性,且更贴近决策过程。

那些能尽早弥合AI智能体与分析之间差距的人,将塑造未来十年数据科学的实践方式。

数据科学领域的5个现实世界代理AI用例

按回车键或点击以查看全尺寸图像

TimeGPT如何将目标值的历史值和额外的外生变量作为输入来生成预测的示意图。图片由TimeGPT提供。

以下是GenAI和智能体AI已经开始产生影响的一些用例:

  1. 用于快速洞察的对话式仪表盘想象一下,你可以与之对话、用通俗易懂的英语提问,并能立即获得摘要或可视化结果的仪表盘。Power BI Copilot和Tableau Pulse是早期的例子,但这一概念适用于任何非技术用户需要从数据中快速获取答案的工作流程。

  2. EDA****和数据清理代理 AI代理正开始自动执行在EDA期间检测离群值、规范化数据和生成初始可视化的耗时工作。像Tableau的数据专家这样的工具暗示了如何构建代理来加速数据准备过程。

  3. 用于分析的基础模型 与为每个指标或产品训练新模型不同,像 TimeGPT 这样的基础模型开始直接从原始数据处理预测、异常检测和其他分析任务。这使得高级分析更易于获取,即使对于在时间序列或模型构建方面没有深厚专业知识的团队也是如此。

  4. 自主监测与主动分析 自主系统无需等待人工查看仪表盘,就能监控关键绩效指标(KPI)、发现变化,并触发警报或建议。Tableau Inspector和Adverity正在推动这一趋势,但只要设置得当,任何分析师都可以探索这一模式。

  5. ML工作流的多智能体编排像causaLens这样的平台就是AI智能体协作的一个例子,有的负责清理数据,有的负责构建模型,还有的负责解释结果。这不仅仅是自动化,更是协调,它让我们得以窥见未来ML工作流可能的运行方式。

🔑不要忽视这一点:语义层

我想再次提及这个概念,因为我觉得阅读这篇文章的很多人可能会忽略它,而这将是一个重大错误。

按回车键或点击以查看全尺寸图像

语义层架构。图片由Tallius提供。

在过去大约6个月的时间里,我花了更多时间构建自己的AI工作流程,以优化和自动化我的大部分数据科学工作。最近,我部署了一个名为"与数据对话"的Slack机器人,它正在慢慢重新定义我公司自助式分析的含义。

这些工具成功的关键之一是定义语义层。

📌

这也是我正在向目前参加我的AI工作流训练营的22位数据科学家传授它的原因。

其理念很简单:语义层为指标和业务逻辑创建一个共享定义,以便数据科学家、利益相关者,最重要的是,AI智能体,都能基于同一事实来源开展工作。

按回车键或点击以查看全尺寸图像

语义层 YAML 文件示例。图片由 dbt 提供。

相信我,你不需要成为数据工程师就能开始构建语义层来增强你的AI智能体。

相关推荐
艺术是真的秃头2 小时前
Trae:当编程从“编写”转向“对话”与“委派”
人工智能·python·ai·aigc
山顶夕景4 小时前
【Agent】自动化深度研究智能体搭建
大模型·llm·agent·deepresearch
小霖家的混江龙5 小时前
不再费脑, 写给 AI 爱好者的矩阵 (Matrix) 入门指南
人工智能·llm·aigc
明阳~5 小时前
AI世界的Type-C接口:MCP协议解析
llm·agent·a2a协议·mcp协议
猫头虎5 小时前
猫头虎AI分享|可把GitHub代码库变成实时文档中心的一款实用型MCP工具:GitMCP,让AI随时访问最新文档代码,消除代码幻觉
人工智能·github·aigc·ai编程·ai写作·agi·ai-native
寻道码路5 小时前
【GitHub周榜】WrenAI:开源SQL AI代理,让Text-to-SQL轻松实现,开启自然语言与数据交互新时代
人工智能·sql·语言模型·开源·github·aigc·ai编程
程序员X小鹿15 小时前
年底赶工必备:分享3个可以一键美化Excel表格的AI神器,打工人必备!(建议收藏)
aigc
天行无忌15 小时前
2025:AI炒作巅峰,2026:价值回归与实用落地之年
agent
装不满的克莱因瓶16 小时前
【Coze智能体实战二】一键生成儿歌背单词视频
人工智能·ai·实战·agent·工作流·智能体·coze