model training platform

cubestudio 提供了从数据采集到最后模型评估推理的所有的工具。拿来就用。还能自定义添加

pipeline中单任务的运行会在当晚清理掉。如果想长时间运行，要用右上角的运行。任务之间通过分布式共享存储交换数据。

多个任务流需要复制，否则它会删除之前的跑新的。

推理服务和模型管理可以通过pipeline添加

镜像构建，自动推送到镜像仓库中。

notebook各种各样的都有。而且可以将notebook保存为新镜像。

编写 init.sh 可以在notebook初始化的时候创造个人环境

同一用户启动的任何容器，数据都是相通的。可以通过ssh，让本地的vscode连接到notebook中去。

管理员可以设定谁在哪组，能用多少资源。看现在资源的占用情况。租户如果觉得资源不够，可以联系管理员干掉不用的资源

标注开发训练都可以在共享存储中找到数据

单机安装

install /k8s /rancher

install containerd.md harbor 然后安装 k8s 2024年那版它用的kubesphere安装的。

安装好后，先将镜像仓库换成你的。

特征处理

简单来说，特征处理（Feature Engineering/Processing） 就是将原始数据通过一系列数学变换或逻辑处理，转化为能让机器学习算法更好地"理解"并学习的形式的过程。

在人工智能的圈子里，有一句名言："数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。"

1. 特征处理在人工智能的哪一环？

如果把开发一个 AI 模型比作**"大厨炒菜"**，那么整个流程大概如下：

数据采集（买菜）：收集原始、散乱的数据。
数据清洗（洗菜、摘掉烂叶子）：处理缺失值、去除噪声。
特征处理（切菜、腌制、调味）：这就是核心环节。 你需要把原材料处理成适合下锅的状态，并根据菜系要求进行预加工。
模型训练（下锅炒菜）：算法根据处理好的特征进行学习。
模型评估（试吃）：看看模型准不准。

特征处理处于"原始数据"与"模型算法"之间，是连接现实世界数据与纯数学模型的桥梁。

2. 特征处理的核心步骤与举例

为了让你更直观地理解，我们可以从以下几个常见的维度来看：

A. 数值缩放 (Scaling)

模型（尤其是神经网络或线性回归）对数字的大小很敏感。

例子： 如果你的数据里"年龄"是 20 到 80，而"年收入"是 100,000 到 1,000,000。模型可能会误以为收入比年龄重要得多，因为它数值大。
处理方法： 归一化或标准化，将两者都缩放到 0 到 1 之间的比例。

B. 类别转换 (Encoding)

电脑不认识"红色"或"北京"，它只认识数字。

例子： 预测房价时，城市有"北京"、"上海"、"广州"。
处理方法： 独热编码（One-Hot Encoding）。把"城市"变成三个列：是北京吗？（1或0）、是上海吗？（1或0）、是广州吗？（1或0）。

C. 特征提取 (Extraction)

从复杂信息中榨取有用的"精华"。

例子： 给出一串时间戳 2024-05-20 13:14:00。
处理方法： 原始时间戳对预测"商场人流量"可能没直接用。你可以把它提取成"是否为节假日"、"是否为午餐时间"、"星期几"。

D. 降维 (Dimensionality Reduction)

如果数据维度太多（比如有 10,000 个特征），模型会跑不动且容易出错。

例子： 一张高像素的照片，每个像素点都是一个特征。
处理方法： 使用 PCA（主成分分析）等方法，提取出图像中最核心的轮廓和色彩特征，剔除无关的背景噪声。

3. 为什么它如此重要？

如果你直接把杂乱的原始数据丢给 AI，通常会遇到两个问题：

算不动： 维度太高或数据格式不对，算法无法计算。
学歪了： 模型可能会捕捉到无关痛痒的规律（比如因为样本里穿红衣服的人恰好都很有钱，模型就认为红衣服是财富特征），这就是所谓的"过拟合"。

好的特征处理能让普通算法表现优秀，而差的特征处理会毁掉最顶级的模型。

模型评估

简单来说，模型评估（Model Evaluation） 就是给训练好的 AI 模型"发考卷"。

在特征处理和模型训练之后，我们不能直接假设这个模型就是完美的。我们需要用一套客观的指标，去衡量这个模型在面对没见过的新数据时，表现到底有多好。

1. 评估的核心逻辑：不要"作弊"

模型评估最基本的原则是：测试题不能出现在练习册里。

为了实现这一点，我们通常会将数据分为两部分：

训练集（Training Set）： 模型用来学习规律的数据。
测试集（Test Set）： 模型从未见过的数据，专门用来进行最终的"期末考试"。

如果模型在练习册（训练集）上考满分，但在期末考（测试集）上不及格，这种情况我们称为 "过拟合"（Overfitting） ------ 它只是把答案背下来了，并没有学会背后的逻辑。

2. 常见的评估指标

根据 AI 任务的不同，我们要看不同的"分数"：

A. 分类任务（比如：判断邮件是不是垃圾邮件）

准确率 (Accuracy)： 整体猜对的比例。
精确率 (Precision)： 模型说是垃圾邮件的那些，里面真有多少是垃圾邮件？（防止冤枉好人）
召回率 (Recall)： 所有的垃圾邮件里，模型成功抓到了多少？（防止漏网之鱼）
F1 分数： 精确率和召回率的平衡指标。

B. 回归任务（比如：预测房价、股价）

均方误差 (MSE)： 预测价格与实际价格差值的平方平均值。数值越小，预测越准。
平均绝对误差 (MAE)： 预测值和真实值之间平均差了多少钱。

3. 模型评估的"必考工具"：混淆矩阵

在分类问题中，我们最常用 混淆矩阵 (Confusion Matrix) 来直观地看模型在哪些地方"犯糊涂"了。

	实际为正 (阳性)	实际为负 (阴性)
预测为正	真正 (TP)：抓准了	假正 (FP)：冤枉了（误报）
预测为负	假负 (FN)：漏掉了（漏报）	真负 (TN)：排除对了

4. 交叉验证 (Cross-Validation)

为了防止评估结果纯属"运气"，我们会把数据切成好几份（比如 5 份），轮流让其中一份当考卷，剩下的当课本，考 5 次取平均分。这叫 K 折交叉验证。这样得出的分数更稳健、更有说服力。

模型微调

简单来说，大模型微调（Fine-tuning） 就是让一个已经学富五车的"通才"变成某个领域的"专才"的过程。

如果说像 GPT-4 这种预训练大模型是**"刚毕业的博学大学生"（什么都懂一点，但对你的具体业务一窍不通），那么微调就是"入职培训"**，让他学习你公司的特定规范、专业术语或工作流程。

1. 为什么要微调？（为什么不直接用？）

虽然通用大模型很强大，但在以下场景中，微调是必不可少的：

垂直领域专业性： 比如法律、医疗或特定编程框架，通用模型可能回答得不够专业或不够精准。
特定的输出格式： 比如你要求模型必须以某种特定的 JSON 格式返回结果。
独特的语气风格： 比如让 AI 模仿某个作家的文风，或者匹配你公司的客服口吻。
私有数据限制： 你的数据不能公开，模型需要学习你本地文档中的知识。

2. 微调的两种主流方式

在实际操作中，我们并不一定要重新训练整个模型（那样太贵了），通常有以下几种玩法：

A. 全参数微调 (Full Fine-tuning)

做法： 像考试前重读整本书一样，更新模型内部所有的参数。
缺点： 极度烧钱，需要巨大的算力，且容易产生"灾难性遗忘"（学了新知识，忘了旧本领）。

B. 高效参数微调 (PEFT - Parameter-Efficient Fine-Tuning)

这是目前工业界最流行的方法，其中最著名的技术叫 LoRA。

做法： 冻结模型的主体，只在旁边加一个小小的"插件"（外挂层）进行训练。
优点： 成本极低（甚至一张家用显卡就能跑），速度快，且不破坏原有的通用能力。

3. 微调的具体流程

准备数据集： 准备成千上万组"指令-回答"对（Prompt-Completion）。

例：指令："请分析这封律师函。" -> 回答："[专业的法律分析文本]"。

选择基座模型： 选一个开源模型（如 Llama 3 或 Qwen）。
喂数据训练： 让模型在这些特定数据上反复磨炼，调整权重。
模型评估： 看看模型在特定任务上的表现是否提升（参考上一条关于模型评估的内容）。

4. 微调 vs 提示工程 (Prompt Engineering)

很多人容易混淆这两者。打个比方：

提示工程： 给大学生写一张详细的**"考试说明"**。你告诉他怎么考，他现场发挥。
微调： 给大学生发一套**"内部机密教材"**让他闭关修炼一周。他把知识刻进了脑子里。

机器学习和深度学习

简单来说，深度学习是机器学习的一个子集。

如果把人工智能比作一棵大树，机器学习就是其中的粗壮树干，而深度学习则是从这个树干上生长出来的一个极其强壮的分支。

1. 核心区别：谁来"找特征"？

我们在第一个问题里聊过"特征处理"。机器学习和深度学习最大的区别就在于：特征是由人找，还是由机器找。

机器学习 (Machine Learning)

人工干预： 需要人类专家先观察数据，手动提取出重要的"特征"，再喂给算法。
计算资源： 对电脑配置要求相对较低。
适用场景： 数据量较小（几千到几万条）或者结构化数据（如 Excel 表格）。

深度学习 (Deep Learning)

自动提取： 模仿人类大脑的神经网络。你只需要把原始数据（像素、音频流）丢进去，它会自动通过多层神经元发现规律。
计算资源： 非常吃硬件（需要昂贵的 GPU/显卡）。
适用场景： 海量数据（百万级以上）和非结构化数据（图像、声音、文本）。

2. 举个例子：如何识别一辆"自行车"？

假设我们要写一个程序来分辨照片里有没有自行车：

方案 A：传统机器学习

人工定义特征： 程序员告诉电脑："找找看有没有两个圆形的轮子？有没有三角形的框架？有没有车把手？"
特征处理： 把这些圆圈、线条的数学特征提取出来。
分类： 逻辑回归或支持向量机（SVM）算法根据这些人工特征判断："嗯，有轮子有车把，这是自行车。"

方案 B：深度学习

准备数据： 给神经网络看 100 万张自行车的照片和 100 万张不是自行车的照片。
自主学习： 神经网络的第一层可能会识别直线和曲线；第二层识别圆形；第三层识别出轮子的图案......
输出： 它自己领悟了"什么是自行车"，即便照片里的自行车是倒着的或者被遮挡了一半，它也能准确识别。

3. 总结对比

特性	机器学习	深度学习
数据依赖	较小规模即可表现良好	需要海量数据才能发挥威力
硬件要求	普通电脑 CPU 即可	高性能 GPU (显卡) 是刚需
特征工程	核心环节，靠专家手工完成	自动化，模型自己学习特征
黑盒程度	过程较透明，容易解释	像"黑盒"，很难解释模型为什么这么算

4. 两者如何选择？

如果你的数据像 Excel 表格 （如银行信用评分、房价预测），传统机器学习（如 XGBoost）往往又快又准。
如果你的数据是 图片、视频、语音或自然语言 ，深度学习（如 Transformer, CNN）则是目前唯一的王者。

数据挖掘

简单来说，数据挖掘（Data Mining） 是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

如果把原始数据比作一堆矿石，数据挖掘就是通过精密的设备和工艺，从中淘出金子。

1. 数据挖掘与相关概念的关系

大家常把数据挖掘和 AI 挂钩，其实它们的关系是这样的：

数据挖掘 更像是一个目标：从数据里找价值。
机器学习 是实现这个目标的核心手段。
统计学 则是数据挖掘的底层理论支撑。

2. 数据挖掘的 5 个核心任务

数据挖掘不只是"搜索"，它主要在做以下几件事：

A. 分类 (Classification)

目的： 预测某个东西属于哪个类别。
例子： 银行根据你的消费习惯，挖掘出你是"高风险客户"还是"信用良好客户"。

B. 聚类 (Clustering)

目的： 把相似的东西自动堆在一起（事先不知道类别）。
例子： 电商平台挖掘用户数据，发现有一群人专门在半夜买母婴用品，自动将他们归为"新手爸妈"群体，从而进行精准推送。

C. 关联规则 (Association Rules)

目的： 发现不同事物之间的关联。
经典例子： 啤酒与尿布。超市通过数据挖掘发现，买尿布的奶爸通常会顺便买啤酒，于是将两者摆在一起销售。

D. 回归分析 (Regression)

目的： 预测一个连续的数值。
例子： 根据过去十年的气象数据和收成数据，挖掘出降雨量对今年小麦产量的影响。

E. 异常检测 (Anomaly Detection)

目的： 找出那 1% 的"异类"。
例子： 信用卡防欺诈系统，如果你平时都在国内消费，突然有一笔在国外的巨额支出，系统会瞬间识别并拦截。

3. 标准流程：CRISP-DM 模式

国际上通用的数据挖掘流程叫 CRISP-DM，它告诉我们挖矿不能乱挖，得按步骤来：

业务理解： 搞清楚你想挖什么？（比如：为什么要提高会员转化率？）
数据理解： 看看手头有哪些数据？（订单、年龄、点击记录？）
数据准备： 清洗数据、特征处理（切菜、洗菜）。
建模： 选择算法（如深度学习或机器学习模型）进行挖掘。
评估： 看看挖出来的规律准不准，有没有商业价值。
部署： 把这个规律应用到实际业务中。

4. 总结：数据挖掘的价值

数据挖掘的核心价值在于从"看过去"转变为"测未来"。

以前： 统计报表告诉你上个月亏了多少钱。
现在： 数据挖掘告诉你，如果不做促销，下个月可能会流失哪些客户。