融合动态权重与抗刷机制的网文评分系统——基于优书网、IMDB与Reddit的混合算法实践

✨ Yumuing 博客

🚀 探索技术的每一个角落,解码世界的每一种可能!

💌 如果你对 AI 充满好奇,欢迎关注博主,订阅专栏,让我们一起开启这段奇妙的旅程!

以权威用户为核心,时间衰减为尺度,社区互动为杠杆」的评分体系,实现:

📌 动态防刷:实时监控异常点赞,自动降权可疑评价

📌 智能冷启动:新书享3个月权重保护期,新用户默认60%权威值

📌 时空平衡:3年半衰期机制+Reddit热榜公式,兼顾经典与时效性

评分计算公式

S = ∑ i = 1 n ( w i ⋅ s i ) + C ⋅ μ ∑ i = 1 n w i + C S = \frac{\sum_{i=1}^{n} (w_i \cdot s_i)+C\cdot \mu}{\sum_{i=1}^{n} w_i+C} S=∑i=1nwi+C∑i=1n(wi⋅si)+C⋅μ

其中:

  • S S S:最终综合评分

  • s i s_i si:第i条评价的原始评分(1-5星)

  • w i w_i wi:第i条评价的综合权重

  • μ \mu μ:所有书籍的基准平均分(动态计算),采用以评分人数为权重的优书网原始加权平均评分(5.269分)

  • C C C:平滑强度系数

    推荐值取平均评论数的50%,为小样本添加该值对应数量的平均评价 注:女频若是普遍高于男频,则采用男女频分类排行,再重新赋值,混合排行

权重计算模型

w i = ( A i ⋅ T i ⋅ V i ) w_i = (A_i \cdot T_i \cdot V_i) wi=(Ai⋅Ti⋅Vi)

评价者权重计算

A i = log ⁡ ( 1 + h a h a v g ) 1 + log ⁡ ( 1 + h a h a v g ) ⋅ s i g m o i d ( h a − h a v g h s t d ) A_i =\frac {\log(1 + \frac{h_a}{h_{avg}})}{1+\log(1 + \frac{h_a}{h_{avg}}) } \cdot sigmoid(\frac{h_a - h_{avg}}{h_{std}}) Ai=1+log(1+havgha)log(1+havgha)⋅sigmoid(hstdha−havg)

其中:

  • h a h_a ha:评价者历史评论总赞同数
  • h a v g h_{avg} havg:平台用户历史赞同数平均值
  • h s t d h_{std} hstd:平台用户历史赞同数标准差

设计原理:

  • 使用自然对数 e \mathrm{e} e压缩防止头部用户主导
  • Sigmoid函数实现平滑过渡,当用户权威值超过均值1个标准差时获得0.73权重,2个标准差时达0.88

时间衰减因子

T i = e − λ ⋅ Δ t T_i = e^{-\lambda \cdot \Delta t} Ti=e−λ⋅Δt

其中:

  • Δ t \Delta t Δt:当前时间与评价时间的差值(以月为单位)
  • λ \lambda λ:衰减系数

示例效果:推荐值为0.02,半衰期为3年

  • 1月前评价:0.98
  • 1年前评价:0.79
  • 3年前评价:0.56

社区反馈权重

V i = 1 2 ( v i v m a x + v i v i + v q ) V_i =\frac{1}{2}(\sqrt{\frac{v_i}{v_{max}}} + \frac{v_i}{v_i + v_{q}}) Vi=21(vmaxvi +vi+vqvi)

其中:

  • v i v_i vi:该评价被赞同数
  • v m a x v_{max} vmax:当前书籍的最高单条评价赞同数
  • v q v_q vq:抗噪调节参数(推荐取10)

设计原理:

  • 第一项保证头部评价的显著性
  • 第二项防止零赞同评价被完全忽视

算法说明

  1. 动态适应性:

    1. 每小时自动更新 h a v g h_{avg} havg和 h s t d h_{std} hstd
    2. 每天更新 v m a x v_{max} vmax值
    3. 每月重新计算所有 Δ t \Delta t Δt
  2. 鲁棒性保障:

    设置权重下限 w m i n = 0.2 w_{min}=0.2 wmin=0.2防止过度衰减

    对刷赞行为设置 v i v_i vi上限(如当日突增超均值3σ,则动态降低到该书评计算得出社区权重的20%)

  3. 冷启动方案:

    新用户默认 A i = 0.6 A_i=0.6 Ai=0.6

    新书籍首月时间递减参数 λ \lambda λ降为0.01,三个月后改为0.02

    起始平均分 μ \mu μ选取优书网所有书籍加权平均 μ = ∑ i = 1 n 该书籍评价人数 所有评价人数 ⋅ 该书籍评分 ∑ i = 1 n 该书籍评价人数 所有评价人数 \mu=\frac{\sum_{i=1}^{n}\frac{该书籍评价人数}{所有评价人数} \cdot 该书籍评分}{\sum_{i=1}^{n}\frac{该书籍评价人数}{所有评价人数}} μ=∑i=1n所有评价人数该书籍评价人数∑i=1n所有评价人数该书籍评价人数⋅该书籍评分

最终分数映射

N x = N max ⁡ − N min ⁡ O max ⁡ − O min ⁡ × ( O x − O min ⁡ ) + N min ⁡ N_{x}=\frac{N_{\max}-N_{\min}}{O_{\max}-O_{\min}}\times(O_{x}-O_{\min})+N_{\min}\quad Nx=Omax−OminNmax−Nmin×(Ox−Omin)+Nmin

其中:

  • N m a x = 10 N_{max}=10 Nmax=10
  • N m i n = 1 N_{min}=1 Nmin=1
  • O m a x = 5 O_{max}=5 Omax=5
  • O m i n = 1 O_{min}=1 Omin=1

即: N x = 9 4 × ( O x − 1 ) + 1 N_{x}=\frac{9}{4}\times(O_{x}-1)+1 Nx=49×(Ox−1)+1

注:保留两位小数,少于二十人评分建议不显示

点赞和点踩说明

  • 点赞和踩都得花费签到得到的代币,最终显示赞值(负值显示为0,保留值)为: 点赞量 − 点踩量 点赞量-点踩量 点赞量−点踩量
  • 首页书评排名算法:Reddit 排名算法

算法说明

s c o r e = l o g 10 ( z ) + ( y ⋅ t 45000 ) score= log_{10}(z) + (\frac {y \cdot t} {45000}) score=log10(z)+(45000y⋅t)

其中:

  • t = 发帖时间 - 2005年12月8日7:46:43

    Reddit用发帖时间与成立时间的差值来表示t,单位为秒。帖子越新,t值越大,得分就越高。因此,最新的帖子相对较旧的帖子有更高的排名优先权。

  • x = 赞成票 - 反对票

    这个值反映了帖子总体的支持度。显然,赞成票多于反对票的帖子更容易排在前列。

  • y = +1 或 -1

    如果赞成票多于反对票,y取+1,反之则取-1,代表帖子是否整体受欢迎。

  • z = |赞成票 - 反对票|

    受欢迎程度反映了投票差的绝对值,即z越大,表示帖子越受欢迎或越被厌恶。



相关推荐
qcx2312 分钟前
【系统学AI】09 Multi-Agent架构(2026版):从学术理论到工业级实践
java·人工智能·架构·multi-agent·claude agent
IT_陈寒23 分钟前
Vite打包时遇到的坑,原来问题出在这里
前端·人工智能·后端
wb0430720128 分钟前
厨房质检员——从阿明的“祖传配方“到标准化质检,看测试金字塔的落地
架构·log4j
Dongwoo Jeong41 分钟前
微服务架构(MSA)是如何诞生的?
微服务·云原生·架构
ayqy贾杰1 小时前
基层管理的三板斧,在AI时代行不通了
前端·后端·团队管理
Apifox1 小时前
Apifox 5 月更新|Postman 导入优化、Runner 支持非 root 运行、请求代码自动带鉴权
前端·后端·安全
张忠琳2 小时前
【kubernetes v1.21】(kubelet 1)Kubelet 核心架构与启动流程
云原生·架构·kubernetes·kubelet
用户987409238872 小时前
llamafactory 0.6.3 没有 llamafactory-cli
算法
JohnYan2 小时前
工作笔记 - PG分组极值
数据库·后端·postgresql
计算机安禾2 小时前
【算法分析与设计】第26篇:参数化算法与固定参数可解性理论
大数据·人工智能·算法·机器学习·剪枝