model training platform

cubestudio 提供了从数据采集到最后模型评估推理的所有的工具。拿来就用。还能自定义添加

pipeline中单任务的运行会在当晚清理掉。如果想长时间运行,要用右上角的运行。任务之间通过分布式共享存储交换数据。

多个任务流需要复制,否则它会删除之前的跑新的。

推理服务和模型管理可以通过pipeline添加

镜像构建,自动推送到镜像仓库中。

notebook各种各样的都有。而且可以将notebook保存为新镜像。

编写 init.sh 可以在notebook初始化的时候创造个人环境

同一用户启动的任何容器,数据都是相通的。可以通过ssh,让本地的vscode连接到notebook中去。

管理员可以设定谁在哪组,能用多少资源。看现在资源的占用情况。租户如果觉得资源不够,可以联系管理员干掉不用的资源

标注 开发 训练都可以在共享存储中找到数据

单机安装

install /k8s /rancher

install containerd.md harbor 然后安装 k8s 2024年那版它用的kubesphere安装的。

安装好后,先将镜像仓库换成你的。

特征处理

简单来说,特征处理(Feature Engineering/Processing) 就是将原始数据通过一系列数学变换或逻辑处理,转化为能让机器学习算法更好地"理解"并学习的形式的过程。

在人工智能的圈子里,有一句名言:"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。"


1. 特征处理在人工智能的哪一环?

如果把开发一个 AI 模型比作**"大厨炒菜"**,那么整个流程大概如下:

  1. 数据采集(买菜):收集原始、散乱的数据。
  2. 数据清洗(洗菜、摘掉烂叶子):处理缺失值、去除噪声。
  3. 特征处理(切菜、腌制、调味):这就是核心环节。 你需要把原材料处理成适合下锅的状态,并根据菜系要求进行预加工。
  4. 模型训练(下锅炒菜):算法根据处理好的特征进行学习。
  5. 模型评估(试吃):看看模型准不准。

特征处理处于"原始数据"与"模型算法"之间,是连接现实世界数据与纯数学模型的桥梁。


2. 特征处理的核心步骤与举例

为了让你更直观地理解,我们可以从以下几个常见的维度来看:

A. 数值缩放 (Scaling)

模型(尤其是神经网络或线性回归)对数字的大小很敏感。

  • 例子: 如果你的数据里"年龄"是 20 到 80,而"年收入"是 100,000 到 1,000,000。模型可能会误以为收入比年龄重要得多,因为它数值大。
  • 处理方法: 归一化或标准化,将两者都缩放到 0 到 1 之间的比例。

B. 类别转换 (Encoding)

电脑不认识"红色"或"北京",它只认识数字。

  • 例子: 预测房价时,城市有"北京"、"上海"、"广州"。
  • 处理方法: 独热编码(One-Hot Encoding)。把"城市"变成三个列:是北京吗?(1或0)、是上海吗?(1或0)、是广州吗?(1或0)。

C. 特征提取 (Extraction)

从复杂信息中榨取有用的"精华"。

  • 例子: 给出一串时间戳 2024-05-20 13:14:00
  • 处理方法: 原始时间戳对预测"商场人流量"可能没直接用。你可以把它提取成"是否为节假日"、"是否为午餐时间"、"星期几"。

D. 降维 (Dimensionality Reduction)

如果数据维度太多(比如有 10,000 个特征),模型会跑不动且容易出错。

  • 例子: 一张高像素的照片,每个像素点都是一个特征。
  • 处理方法: 使用 PCA(主成分分析)等方法,提取出图像中最核心的轮廓和色彩特征,剔除无关的背景噪声。

3. 为什么它如此重要?

如果你直接把杂乱的原始数据丢给 AI,通常会遇到两个问题:

  1. 算不动: 维度太高或数据格式不对,算法无法计算。
  2. 学歪了: 模型可能会捕捉到无关痛痒的规律(比如因为样本里穿红衣服的人恰好都很有钱,模型就认为红衣服是财富特征),这就是所谓的"过拟合"。

好的特征处理能让普通算法表现优秀,而差的特征处理会毁掉最顶级的模型。


模型评估

简单来说,模型评估(Model Evaluation) 就是给训练好的 AI 模型"发考卷"。

在特征处理和模型训练之后,我们不能直接假设这个模型就是完美的。我们需要用一套客观的指标,去衡量这个模型在面对没见过的新数据时,表现到底有多好。


1. 评估的核心逻辑:不要"作弊"

模型评估最基本的原则是:测试题不能出现在练习册里。

为了实现这一点,我们通常会将数据分为两部分:

  • 训练集(Training Set): 模型用来学习规律的数据。
  • 测试集(Test Set): 模型从未见过的数据,专门用来进行最终的"期末考试"。

如果模型在练习册(训练集)上考满分,但在期末考(测试集)上不及格,这种情况我们称为 "过拟合"(Overfitting) ------ 它只是把答案背下来了,并没有学会背后的逻辑。


2. 常见的评估指标

根据 AI 任务的不同,我们要看不同的"分数":

A. 分类任务(比如:判断邮件是不是垃圾邮件)

  • 准确率 (Accuracy): 整体猜对的比例。
  • 精确率 (Precision): 模型说是垃圾邮件的那些,里面真有多少是垃圾邮件?(防止冤枉好人)
  • 召回率 (Recall): 所有的垃圾邮件里,模型成功抓到了多少?(防止漏网之鱼)
  • F1 分数: 精确率和召回率的平衡指标。

B. 回归任务(比如:预测房价、股价)

  • 均方误差 (MSE): 预测价格与实际价格差值的平方平均值。数值越小,预测越准。
  • 平均绝对误差 (MAE): 预测值和真实值之间平均差了多少钱。

3. 模型评估的"必考工具":混淆矩阵

在分类问题中,我们最常用 混淆矩阵 (Confusion Matrix) 来直观地看模型在哪些地方"犯糊涂"了。

实际为正 (阳性) 实际为负 (阴性)
预测为正 真正 (TP):抓准了 假正 (FP):冤枉了(误报)
预测为负 假负 (FN):漏掉了(漏报) 真负 (TN):排除对了

4. 交叉验证 (Cross-Validation)

为了防止评估结果纯属"运气",我们会把数据切成好几份(比如 5 份),轮流让其中一份当考卷,剩下的当课本,考 5 次取平均分。这叫 K 折交叉验证。这样得出的分数更稳健、更有说服力。


模型微调

简单来说,大模型微调(Fine-tuning) 就是让一个已经学富五车的"通才"变成某个领域的"专才"的过程。

如果说像 GPT-4 这种预训练大模型是**"刚毕业的博学大学生"(什么都懂一点,但对你的具体业务一窍不通),那么微调就是"入职培训"**,让他学习你公司的特定规范、专业术语或工作流程。


1. 为什么要微调?(为什么不直接用?)

虽然通用大模型很强大,但在以下场景中,微调是必不可少的:

  • 垂直领域专业性: 比如法律、医疗或特定编程框架,通用模型可能回答得不够专业或不够精准。
  • 特定的输出格式: 比如你要求模型必须以某种特定的 JSON 格式返回结果。
  • 独特的语气风格: 比如让 AI 模仿某个作家的文风,或者匹配你公司的客服口吻。
  • 私有数据限制: 你的数据不能公开,模型需要学习你本地文档中的知识。

2. 微调的两种主流方式

在实际操作中,我们并不一定要重新训练整个模型(那样太贵了),通常有以下几种玩法:

A. 全参数微调 (Full Fine-tuning)

  • 做法: 像考试前重读整本书一样,更新模型内部所有的参数。
  • 缺点: 极度烧钱,需要巨大的算力,且容易产生"灾难性遗忘"(学了新知识,忘了旧本领)。

B. 高效参数微调 (PEFT - Parameter-Efficient Fine-Tuning)

这是目前工业界最流行的方法,其中最著名的技术叫 LoRA

  • 做法: 冻结模型的主体,只在旁边加一个小小的"插件"(外挂层)进行训练。
  • 优点: 成本极低(甚至一张家用显卡就能跑),速度快,且不破坏原有的通用能力。

3. 微调的具体流程

  1. 准备数据集: 准备成千上万组"指令-回答"对(Prompt-Completion)。
  • 例: 指令:"请分析这封律师函。" -> 回答:"[专业的法律分析文本]"。
  1. 选择基座模型: 选一个开源模型(如 Llama 3 或 Qwen)。
  2. 喂数据训练: 让模型在这些特定数据上反复磨炼,调整权重。
  3. 模型评估: 看看模型在特定任务上的表现是否提升(参考上一条关于模型评估的内容)。

4. 微调 vs 提示工程 (Prompt Engineering)

很多人容易混淆这两者。打个比方:

  • 提示工程: 给大学生写一张详细的**"考试说明"**。你告诉他怎么考,他现场发挥。
  • 微调: 给大学生发一套**"内部机密教材"**让他闭关修炼一周。他把知识刻进了脑子里。

机器学习和深度学习

简单来说,深度学习是机器学习的一个子集

如果把人工智能比作一棵大树,机器学习就是其中的粗壮树干,而深度学习则是从这个树干上生长出来的一个极其强壮的分支。


1. 核心区别:谁来"找特征"?

我们在第一个问题里聊过"特征处理"。机器学习和深度学习最大的区别就在于:特征是由人找,还是由机器找。

机器学习 (Machine Learning)

  • 人工干预: 需要人类专家先观察数据,手动提取出重要的"特征",再喂给算法。
  • 计算资源: 对电脑配置要求相对较低。
  • 适用场景: 数据量较小(几千到几万条)或者结构化数据(如 Excel 表格)。

深度学习 (Deep Learning)

  • 自动提取: 模仿人类大脑的神经网络。你只需要把原始数据(像素、音频流)丢进去,它会自动通过多层神经元发现规律。
  • 计算资源: 非常吃硬件(需要昂贵的 GPU/显卡)。
  • 适用场景: 海量数据(百万级以上)和非结构化数据(图像、声音、文本)。

2. 举个例子:如何识别一辆"自行车"?

假设我们要写一个程序来分辨照片里有没有自行车:

方案 A:传统机器学习

  1. 人工定义特征: 程序员告诉电脑:"找找看有没有两个圆形的轮子?有没有三角形的框架?有没有车把手?"
  2. 特征处理: 把这些圆圈、线条的数学特征提取出来。
  3. 分类: 逻辑回归或支持向量机(SVM)算法根据这些人工特征判断:"嗯,有轮子有车把,这是自行车。"

方案 B:深度学习

  1. 准备数据: 给神经网络看 100 万张自行车的照片和 100 万张不是自行车的照片。
  2. 自主学习: 神经网络的第一层可能会识别直线和曲线;第二层识别圆形;第三层识别出轮子的图案......
  3. 输出: 它自己领悟了"什么是自行车",即便照片里的自行车是倒着的或者被遮挡了一半,它也能准确识别。

3. 总结对比

特性 机器学习 深度学习
数据依赖 较小规模即可表现良好 需要海量数据才能发挥威力
硬件要求 普通电脑 CPU 即可 高性能 GPU (显卡) 是刚需
特征工程 核心环节,靠专家手工完成 自动化,模型自己学习特征
黑盒程度 过程较透明,容易解释 像"黑盒",很难解释模型为什么这么算

4. 两者如何选择?

  • 如果你的数据像 Excel 表格 (如银行信用评分、房价预测),传统机器学习(如 XGBoost)往往又快又准。
  • 如果你的数据是 图片、视频、语音或自然语言深度学习(如 Transformer, CNN)则是目前唯一的王者。

数据挖掘

简单来说,数据挖掘(Data Mining) 是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

如果把原始数据比作一堆矿石 ,数据挖掘就是通过精密的设备和工艺,从中淘出金子


1. 数据挖掘与相关概念的关系

大家常把数据挖掘和 AI 挂钩,其实它们的关系是这样的:

  • 数据挖掘 更像是一个目标:从数据里找价值。
  • 机器学习 是实现这个目标的核心手段
  • 统计学 则是数据挖掘的底层理论支撑

2. 数据挖掘的 5 个核心任务

数据挖掘不只是"搜索",它主要在做以下几件事:

A. 分类 (Classification)

  • 目的: 预测某个东西属于哪个类别。
  • 例子: 银行根据你的消费习惯,挖掘出你是"高风险客户"还是"信用良好客户"。

B. 聚类 (Clustering)

  • 目的: 把相似的东西自动堆在一起(事先不知道类别)。
  • 例子: 电商平台挖掘用户数据,发现有一群人专门在半夜买母婴用品,自动将他们归为"新手爸妈"群体,从而进行精准推送。

C. 关联规则 (Association Rules)

  • 目的: 发现不同事物之间的关联。
  • 经典例子: 啤酒与尿布。超市通过数据挖掘发现,买尿布的奶爸通常会顺便买啤酒,于是将两者摆在一起销售。

D. 回归分析 (Regression)

  • 目的: 预测一个连续的数值。
  • 例子: 根据过去十年的气象数据和收成数据,挖掘出降雨量对今年小麦产量的影响。

E. 异常检测 (Anomaly Detection)

  • 目的: 找出那 1% 的"异类"。
  • 例子: 信用卡防欺诈系统,如果你平时都在国内消费,突然有一笔在国外的巨额支出,系统会瞬间识别并拦截。

3. 标准流程:CRISP-DM 模式

国际上通用的数据挖掘流程叫 CRISP-DM,它告诉我们挖矿不能乱挖,得按步骤来:

  1. 业务理解: 搞清楚你想挖什么?(比如:为什么要提高会员转化率?)
  2. 数据理解: 看看手头有哪些数据?(订单、年龄、点击记录?)
  3. 数据准备: 清洗数据、特征处理(切菜、洗菜)。
  4. 建模: 选择算法(如深度学习或机器学习模型)进行挖掘。
  5. 评估: 看看挖出来的规律准不准,有没有商业价值。
  6. 部署: 把这个规律应用到实际业务中。

4. 总结:数据挖掘的价值

数据挖掘的核心价值在于从"看过去"转变为"测未来"

  • 以前: 统计报表告诉你上个月亏了多少钱。
  • 现在: 数据挖掘告诉你,如果不做促销,下个月可能会流失哪些客户。
相关推荐
学电子她就能回来吗6 小时前
深度学习速成:损失函数与反向传播
人工智能·深度学习·学习·计算机视觉·github
爱吃泡芙的小白白6 小时前
突破传统:CNN卷积层(普通/空洞)核心技术演进与实战指南
人工智能·神经网络·cnn·卷积层·空洞卷积·普通卷积
人道领域6 小时前
AI抢人大战:谁在收割你的红包
大数据·人工智能·算法
初恋叫萱萱6 小时前
CANN 系列深度篇:基于 ge 图引擎构建高效 AI 执行图
人工智能
qq_12498707537 小时前
基于Hadoop的信贷风险评估的数据可视化分析与预测系统的设计与实现(源码+论文+部署+安装)
大数据·人工智能·hadoop·分布式·信息可视化·毕业设计·计算机毕业设计
Coder_Boy_7 小时前
TensorFlow小白科普
人工智能·深度学习·tensorflow·neo4j
L、2187 小时前
CANN 中的图优化技术详解:如何让 AI 模型跑得更快、更省
人工智能
大模型玩家七七7 小时前
梯度累积真的省显存吗?它换走的是什么成本
java·javascript·数据库·人工智能·深度学习
新缸中之脑7 小时前
像画家一样编程
人工智能