冷启问题目前常见解决方案

1、冷启动的基本方式

随机冷启

个性化冷启

2、冷启动解决问题

冷启动保量

冷启动保量,保证每个item曝光的次数一样,实时统计已曝光的次数和要曝光的次数

冷启动结束过滤,如果需曝光的量越大,且越接近冷启结束时间,得分越高,被曝光的概率越大

爬坡保量

实时统计曝光、点击、ctr;ctr越高,曝光越少,得分越高;类似于bandit

3、冷启动实现算法

3.1、MAB问题介绍

MAB(Multi-Arm-Bandit)是多臂赌博机问题,是RL(强化学习)的一种。主要解决的是EE(exploit and explore)问题,exploit表示利用已有的确定兴趣,explore表示探索未知的兴趣。

MAB问题:有K个老虎机,总共摇T次,怎样使T次后的总收益最大的问题。

3.2、冷启问题解决算法

epsilon-Greedy贪婪算法

以epsilon的概率选择探索新的策略、以(1-epsilon)选择利用的操作

epsilon-Greedy-softmax贪婪算法

完全随机选择一个item 进行exploit会导致选的一个非常差的item,利用softmax函数决策选择一个回报率最大的item。

ucb算法

根据下列公式每个臂都摇一次

t表示当前实验的总次数,表示该臂被选中的次数,第二项是explore,优先选择历史被选中次数少的臂。

4、多臂赌博机的应用

多臂老虎机是指,每个老虎机盈利概率不一样,每次摇臂有k种选择。为实现t次摇臂获取最大的收益率

星际比赛游戏

在星际争霸比赛中,很多bot都会针对特定的对手设置一些初始策略,在每一轮游戏结束之后,并会记录基于此初始策略的游戏结果,新一轮比赛开始前,bot会根据与对手比赛的历史记录,试图选择一个最优的初始策略来击败对方,以Overkill为例,Overkill中开局策略有三种(TwelveHatchMuta,TenHatchMuta, NinePoolling)。Overkill每局结束以后均会记录当前局所采用开局策略的结果,比如Overkill与cpac对战六局,记录结果如下

cpac|TenHatchMuta|0|

cpac|NinePoolling|1|

capa|TwelveHatchMuta|1|

cpac|NinePoolling|1|

cpac|TwelveHatchMuta|1|

cpac|NinePoolling|1|

"0"表示对应开局策略cpac赢,"1"表示Overkill赢。

5、参考文献

专治选择困难症------bandit算法 - 知乎 (传统冷启方法)

UCB算法原理及其在星际争霸比赛中的应用 - 知乎 (冷启问题的应用)

大数定律与中心极限定理 (中心极限定理)

相关推荐
染指11101 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙1 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯2 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
百胜软件@百胜软件2 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱3 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看3 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung53 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
m0_380167144 小时前
加密货币价格 API、市场数据 API 与 分析 API 有什么区别?
人工智能·ai·区块链
zyplayer-doc4 小时前
企业知识库安全与权限管理完全指南:从加密到审计的六层防护
人工智能·安全·pdf·编辑器·创业创新