微调大模型最怕的事:学了新本事,忘了老手艺。Nova Forge 怎么解决的

做过 SFT 的人都有体会:微调前模型啥都会一点,微调后某个领域变强了,但写文章、做推理、聊天的能力明显变菜了。

这叫灾难性遗忘。学了新东西,把老东西覆盖了。

最近用 Amazon Nova Forge 试了一下它的数据混合方案,效果不错------领域分类准确率上去了,MMLU 分数几乎没掉

任务背景

客户评论分类,1420 个细分类别,四级标签体系,14000+ 训练样本。典型的企业级分类任务。

基础模型 zero-shot 不够准(类别太细),普通 SFT 之后分类好了但通用能力废了。

Nova Forge 做了什么

核心思路:微调时不只用你的领域数据,自动混入 Nova 的精选通用数据

你提供领域训练集,Nova Forge 自动:

  1. 从 Nova 训练语料中选互补子集
  2. 动态调整混合比例
  3. 联合优化领域损失和通用损失

不需要你手动找通用数据、试混合比例。

效果

指标 基础模型 普通SFT Nova Forge
VOC分类
MMLU通用 正常 明显下降 基本持平

关键:领域能力和通用能力不再是二选一

代码长什么样

python 复制代码
import boto3, json

bedrock = boto3.client('bedrock', region_name='cn-northwest-1')

# 创建微调任务
response = bedrock.create_model_customization_job(
    jobName='voc-classifier',
    customModelName='nova-voc',
    roleArn='arn:aws-cn:iam::123456789012:role/BedrockRole',
    baseModelIdentifier='amazon.nova-pro-v1:0',
    trainingDataConfig={
        's3Uri': 's3://bucket/training_data.jsonl'
    },
    outputDataConfig={
        's3Uri': 's3://bucket/output/'
    },
    customizationType='FINE_TUNING',
    hyperParameters={
        'epochCount': '3',
        'batchSize': '8',
        'learningRate': '0.00001'
    }
)

训练数据是标准 JSONL,messages 格式:

json 复制代码
{
    "messages": [
        {"role": "system", "content": "分类系统 prompt..."},
        {"role": "user", "content": "这个摄像头安装很简单"},
        {"role": "assistant", "content": "{\\\"level_1\\\":\\\"安装与配置\\\",...}"}
    ]
}

什么时候用

  • 领域分类/工单路由 → 用 Nova Forge
  • 特定格式输出 → 用 Nova Forge
  • 数据很少(<100条)→ 用 PEFT 或 few-shot
  • 只是调 prompt 能搞定 → 不需要微调

如果你遇到了"微调后通用能力退化"的问题,数据混合是目前比较靠谱的解法。


🔗 Amazon Nova Forge:aws.amazon.com/cn/nova/for...

相关推荐
SNOWPIAOP1 天前
Claude Code + CCR + AWS Bedrock 踩坑复盘:上下文超限、模型路由、Mantle 端点与 Qwen3 Coder Next
云计算·claude·aws·上下文·ccr
Flynt3 天前
AWS WorkMail + App Runner:服务退役时的迁移检查清单
app·aws
zhojiew4 天前
AWS云上ECS托管控制器场景服务部署策略实践和原理
云计算·aws
yunson_Liu4 天前
AWS EKS创建EFS存储类
云计算·aws
TG_yunshuguoji4 天前
亚马逊云代理商:如何在AWS上部署Hermes Agent?
人工智能·云计算·aws·hermes agent·hermes
TokenByte-AI导航小贴士5 天前
Claude 4.5 Sonnet / Opus / Haiku:新手选型指南
人工智能·ai·云计算·aigc·claude·aws
China_Yanhy5 天前
[Infra/SRE 知识库] AWS CloudFront API 边缘缓存配置与排障复盘
缓存·云计算·aws
有想法的py工程师5 天前
如何用 AWS CLI 判断 T 系列实例 CPU 不够(实战指南)
大数据·aws
SNOWPIAOP5 天前
WSL 下使用 Claude Code Router 将 VS Code Claude Code 指向 AWS Bedrock GLM-5 模型
云计算·claude·aws·ccr
有想法的py工程师5 天前
PostgreSQL 在AWS的 T 系列实例上的性能陷阱
数据库·postgresql·aws