Life long learning

现象:一个model进行multi-task learning做的还可以,说明模型是可以同时学会多个任务的,但是如果训练过程是1个task 1个task的顺序进行,模型就会发生灾难性的遗忘现象,只会做刚学完的task。

目标:让模型不要那么快忘掉过去学到的东西

upper bound:multi-task learning,能不忘并达到multi-task learning水平就是很厉害了。

方法一:Selective Synaptic Plasticity

在下一个task训练的时候要让模型尽可能少的调整对上一个task重要的parameter

参数bi衡量参数对上一个任务的重要性,可以通过调整一下θbi看看上一个task的loss变化大还是小来确定(bi是超参数,人为预先设定,task2 train的时候是不变的)

方法二:Gradient Episodic Memory (GEM)

保存上一个task的少量训练资料,以在新的task每次调整梯度的时候都可以回头算一下上一个task此时的梯度,然后将新旧梯度结合(新梯度为主,这种方法有点像作弊,直接就在进行multi-task learning了,但是区别是它只用上一个task一点点资料来计算个梯度)

相关推荐
雪隐12 小时前
个人电脑玩AI-04让5060 Ti给你打工——本地claude code编程助理
人工智能·后端
洛宇12 小时前
再谈 AI 时代,程序员的失眠问题。
人工智能
百度Geek说13 小时前
harness-pilot 给代码库加一套"规则说明书"和"自动检查器"
人工智能
程序员cxuan13 小时前
分享一下我最近常用的 10 个 Codex 小技巧。
人工智能·后端·程序员
用户3379225456813 小时前
基于 OKF + RAG 构建 Text2SQL 语义层:让 LLM 真正理解你的数据库
人工智能
把所有砖敲烂13 小时前
MiniMax M3 深度实测:单卡部署、代码生成与性能全解析
人工智能
沉默王二13 小时前
老板:“请说出一个录用你的理由。”我脱口而出:“每个月 AI 支出都超过我的生活费了!”老板愣了一下,随即哈哈大笑:“好吧,你被录用了。”
人工智能·ai编程·claude
这token有力气13 小时前
ReAct 循环中陷入"工具调用死循环"
人工智能
黄忠13 小时前
03-跨库链路检索-Neo4j图数据库桥接文档与代码
人工智能
Mr_愚人派14 小时前
当"Claude"不再是 Claude:一次第三方 API 代理引发的 AI 身份伪造排查实录
人工智能·安全