Hawkes LOB Market从论文到生产

论文中的定义与数学

2.1. Limit Order Book Model. We model the LOB [28] using a d-dimensional mutuallyexciting Hawkes process as developed in [27, 29]. This process reproduces stylized facts of LOB

dynamics such as realistic spreads, long-memory in returns, and clustered arrival times. Unlike

Brownian motion-based models, the mid-price emerges endogenously from queue dynamics

and event causality. We refer to [27] for more details on the LOB setup. The events that form

the Hawkes process are as follows.

E :={LOaskD

, LOaskT

, COaskT

, MOask, LOaskIS ,

LObidIS , LObidT

, CObidT

, MObid, LObidD

}

基本概念先搞清楚：

Ask（卖一档）：卖家愿意卖出的最低价格（比如 10.02 元）

Bid（买一档）：买家愿意买入的最高价格（比如 10.00 元）

限价单（Limit Order, LO）：指定价格挂单，不立即成交（比如"我想以 10.00 元买"）

市价单（Market Order, MO）：不管当前价格，立刻成交（比如"我现在就要买，按卖一价成交"）

撤单（Cancel Order, CO）：把之前挂的单子取消掉

逐个解释这些符号（按你的列表）：

缩写	全称（推测）	中文意思	举个例子
LOaskD	Limit Order at Ask Depth	在卖盘更深档位挂限价卖单	比如当前卖一是 10.02，有人挂 10.05 卖出（不在最前，所以叫 "Depth"）
LOaskT	Limit Order at Ask Touch	在卖一档（Touch）挂限价卖单	直接挂到当前卖一价 10.02 上，加入卖一队列
COaskT	Cancel Order at Ask Touch	撤掉卖一档的某个挂单	卖一有 100 股挂单，某人撤回自己的 30 股
MOask	Market Order hitting Ask	市价买单，吃掉卖一档	有人想立刻买入，按 10.02 成交，消耗卖一库存
LOaskIS	Limit Order at Ask Imbalance Side	在卖方失衡侧挂限价卖单	当买方远多于卖方时（失衡），有人趁机挂卖单
LObidIS	Limit Order at Bid Imbalance Side	在买方失衡侧挂限价买单	当卖方远多于买方时，有人挂买单"抄底"
LObidT	Limit Order at Bid Touch	在买一档挂限价买单	直接挂到当前买一价 10.00 上
CObidT	Cancel Order at Bid Touch	撤掉买一档的挂单	买一有人撤单，可能导致买一价格下降
MObid	Market Order hitting Bid	市价卖单，吃掉买一档	有人立刻卖出，按 10.00 成交，消耗买一库存
LObidD	Limit Order at Bid Depth	在买盘更深档位挂限价买单	比如当前买一是 10.00，有人挂 9.98 买入（不在最前）

小技巧理解命名规则：

LO / MO / CO = Limit Order / Market Order / Cancel Order

ask / bid = 卖盘 / 买盘

T = Touch（指"触碰"当前最优价，即挂在第一档）

D = Depth（指挂在更深层，不是第一档）

IS = Imbalance Side（指在订单簿不平衡的一侧挂单，属于策略性行为）

🌰 举个完整场景：

假设当前订单簿：

买一：10.00（200股）

卖一：10.02（150股）

有人挂 LOaskT → 在 10.02 再加 50 股卖单 → 卖一变成 200 股

有人下 MOask → 用市价买入 100 股 → 吃掉卖一的 100 股，卖一剩 100 股

有人 COaskT → 撤回自己挂的 30 股 → 卖一变成 70 股

如果买方突然很多（买一堆积），有人挂 LOaskIS → 在卖方（失衡侧）挂新卖单赚差价

✅ 总结：

这 10 种事件涵盖了限价订单簿中最核心的订单流行为------包括挂单、撤单、成交，且区分了买/卖方向、是否在最优档、以及是否利用市场失衡。论文用 Hawkes 过程来建模这些事件的时间序列，因为一个事件（比如大笔市价单）往往会激发后续更多事件（比如其他人跟风挂单），这就是"自激"特性。

具体逻辑与数学公式简单解析

🎯 2.2 节的核心目标是什么？

把"做市商如何赚钱"这个问题，变成一个数学优化问题------

"在什么时候挂单？挂什么价格？持多少库存？才能让长期收益最大、风险最小？"

但传统方法假设你可以连续调整策略（比如每微秒改一次报价），这不现实。

所以这篇论文用 "脉冲控制"（Impulse Control）来建模：你只能在离散的时间点做出操作（比如每 100 毫秒发一次指令），每次操作是一次"脉冲"（比如挂一单、撤一单、或市价平仓）。

🔤 关键符号解析（逐个解释）

状态变量（State Variables）
这些描述做市商在某一时刻的"处境"：
符号含义高中生版解释
t 当前时间就是钟表上的时间，比如上午 10:05

S_t 市场状态包括：当前买卖价、订单簿深度、最近订单流等（可能是一个向量）

q_t 做市商的库存（Inventory）手里持有多少股票？正数=多头（买了还没卖），负数=空头（卖了还没买回）

X_t 做市商的现金（Cash）账户里有多少钱（不包括股票价值）

💡 总状态可以写成 (t, S_t, q_t, X_t) ，这就是做市商的"游戏存档"。

控制变量（Control Variables）--- 你能做什么？
在脉冲控制框架下，你不能随时调价，而是**在某些时刻 tau_n 执行一次"操作" xi_n **：
符号含义
{tau_n}_{n geq 1} 你执行操作的时间序列（必须满足 tau_1 - 挂一个限价买单（价格、数量） - 撤掉某个挂单 - 发一个市价单平掉部分库存

✨ 关键点：操作是"瞬间完成"的，像打一个"脉冲"，不是慢慢调。

目标函数（Objective Function）--- 你想最大化什么？
做市商的目标通常是：

赚更多钱（高收益）
少冒风险（库存别太多，避免价格暴跌时亏惨）

所以目标函数常写成：

sup_{{tau_n, xi_n}} mathbb{E} left[ X_T + q_T P_T - frac{gamma}{2} int_0^T q_t^2 sigma^2 dt right]

逐项解释：

项含义为什么重要？

X_T 最终现金直接利润

q_T P_T 最终股票按市价卖出的价值把手里剩下的股票按最后价格变现

-frac{gamma}{2} int_0^T q_t^2 sigma^2 dt 库存风险惩罚项 q_t^2 ：库存越大，风险越高（平方放大） sigma^2 ：价格波动率（市场越乱，风险越大） gamma ：你对风险的厌恶程度（γ 越大，越不敢持仓）

🧠 直观理解：这个公式说------"我要在期末尽可能多赚钱，但过程中不能让库存太大，否则万一价格跳水就完蛋"。

动态变化（Dynamics）--- 世界怎么变？

价格怎么变？ → 由 Hawkes 过程驱动（订单流决定价格，不是随机漫步）
库存怎么变？ → 每当有市价单吃掉你的挂单， q_t 就变
现金怎么变？ → 每成交一笔，现金 ± 成交价 × 数量

例如，如果你在卖一挂了 100 股 @10.02，然后被 MOask 吃掉 50 股：

q_t 减少 50（你卖出了）
X_t 增加 50 × 10.02 = 501 元

HJB-QVI 方程（Hamilton-Jacobi-Bellman Quasi-Variational Inequality）
这是脉冲控制问题的核心数学方程，形式大概是：

min left{ -partial_t V - mathcal{L}V, V(t, s, q, x) - sup_{xi} V(t, s, q', x') right} = 0

别被吓到！拆解一下：

部分含义

V(t, s, q, x) 价值函数：在当前状态下，未来能获得的最大期望收益

-partial_t V - mathcal{L}V "不操作" 的收益变化率（mathcal{L} 是描述市场随机演化的算子）

sup_{xi} V(t, s, q', x') "现在操作一次" 能达到的最好价值（q', x' 是操作后的新状态）

取 min = 0 决策规则： - 如果"不操作"的收益更高 → 继续等 - 如果"操作一下"更好 → 立刻执行脉冲

🎮 就像打游戏：系统每帧问你------"现在按技能键（操作）划算，还是继续普攻（等待）划算？"

🧩 整体逻辑链条（高中生友好版）

现实问题：做市商要在真实市场中赚钱，但只能离散操作。
建模选择：用 Hawkes 过程模拟订单流（更真实），用脉冲控制描述操作（更可行）。
数学转化：把"如何操作"变成一个最大化期望收益 + 控制风险的优化问题。
求解工具：写出 HJB-QVI 方程，理论上它包含了最优策略。
实际困难：这个方程太复杂（高维、非线性），直接解不了 → 所以论文后面用强化学习（PPO）来近似求解！

✅ 总结一句话：

2.2 节就是把"做市商怎么聪明地挂单赚钱"这件事，用一套严谨的数学语言（状态、控制、目标、动态）描述出来，并指出最优策略应该满足一个叫 HJB-QVI 的方程------虽然这个方程很难解，但它指明了方向。

另外一种解析

好的！我们一起来解析你上传的论文《An Impulse Control Approach to Market Making in a Hawkes LOB Market》中第 2.2 节 "Optimal Market Making" 的内容。

我会像给一个聪明的高中生讲解一样，把复杂的数学符号背后的真实世界含义和逻辑链条拆解清楚。

📌 第一步：搞懂这一节在干什么？

核心目标：

把"市场做市商如何赚钱"这个现实问题，变成一个可以用数学求解的"最优决策问题"。

传统模型假设价格是连续平滑变化的（像一条曲线），但这篇论文说："不对！真实市场是由一个个离散的订单事件驱动的！" 所以它用 Hawkes 过程（一种能模拟"事件会引发更多事件"的数学模型）来模拟整个订单簿。

而且，做市商不能每毫秒都改策略（有系统延迟），所以决策必须是离散的、脉冲式的------比如每隔 0.1 秒决定一次：是挂单？撤单？还是用市价单平仓？

🔤 第二步：逐个解析关键符号（这才是重点！）

数学项	含义
∫tT−ηYt2 dt\int_t^T -\eta Y_t^2 \, dt∫tT−ηYt2dt	过程中的库存风险惩罚（η>0\eta > 0η>0 是风险厌恶系数）
XTX_TXT	期末现金
YTPT(mid)Y_T P^{(mid)}_TYTPT(mid)	期末库存按中间价变现的价值
−κYT2-\kappa Y_T^2−κYT2	期末清算惩罚（鼓励清零库存，κ>0\kappa > 0κ>0）
∑t≤τi≤TK(S(τi),ψi)\sum_{t\leq\tau_i\leq T} K(S(\tau_i), \psi_i)∑t≤τi≤TK(S(τi),ψi)	所有操作带来的即时收益/成本

公式2.2 离散操作序列

公式2-3

符号	含义
XtX_tXt	现金余额
YtY_tYt	股票库存（正为多头，负为空头）
pt(a)p^{(a)}_tpt(a), pt(b)p^{(b)}_tpt(b)	卖一价（ask）、买一价（bid）
qt(a)q^{(a)}_tqt(a), qt(b)q^{(b)}_tqt(b)	卖一档、买一档的总挂单量（队列大小）
nt(a)n^{(a)}_tnt(a), nt(b)n^{(b)}_tnt(b)	做市商在卖一/买一队列中的排队位置（越小越靠前）
Pt(mid)=pt(a)+pt(b)2P^{(mid)}_t = \frac{p^{(a)}_t + p^{(b)}_t}{2}Pt(mid)=2pt(a)+pt(b)	中间价
λt(i)\lambda^{(i)}_tλt(i)（i=1,...,di=1,\dots,di=1,...,d）	Hawkes 过程中第 iii 类事件的瞬时强度（预测未来订单流）

论文中的公式 (2.1) 是核心，我们把它拆开来看：

1. 目标函数 J(u)(t, St) *

这是做市商想要最大化的东西。它的完整形式是：

J(u^*)(t, S_t) = sup_{uin U} mathbb{E}left[ int_t^T -eta Y_t^2 dt + X_T + Y_T P^{(mid)}T - kappa Y_T^2 + sum{tleqtau_ileq T} K(S(tau_i), psi_i) right]

别怕！我们一项一项翻译成"人话"：

数学项真实世界含义为什么重要？

int_t^T -eta Y_t^2 dt 过程中的库存风险惩罚 Y_t = 做市商在时间 t 的库存（手里持有的股票数量）库存越大 (Y_t^2)，风险越高（万一价格暴跌就亏惨了）eta 是一个风险厌恶系数，值越大，越不敢持仓。

X_T 期末现金账户里最后剩多少钱，这是直接利润。

Y_T P^{(mid)}_T 期末库存的变现价值把手里剩下的股票 Y_T 按最后的中间价 P^{(mid)}_T 卖掉能换多少钱。

-kappa Y_T^2 期末库存的清算惩罚鼓励做市商在结束时把库存清零。kappa 越大，越不想留库存过夜。

sum K(S(tau_i), psi_i) 每次操作带来的即时收益/成本 tau_i = 第 i 次操作发生的时间点psi_i = 第 i 次操作的类型（比如挂买单、撤卖单等）K 函数定义了这次操作赚/赔多少钱： - 对于限价单/撤单：K=0（因为没成交，不花钱） - 对于市价单：K = z p^{(zeta)}_t（立刻成交，z 是数量，p 是价格）

总结一下目标：

"我要在整个交易时段 [t, T] 内，通过一系列离散的操作 (psi_i at tau_i)，让我最终的现金 + 库存价值尽可能高，同时过程中和结束时的库存风险尽可能低。"

状态变量 St （做市商的"游戏存档"）

公式 (2.3) 定义了状态 S_t，它是一个包含所有关键信息的大集合：

S_t := {X_t, Y_t, p^{(zeta)}_t, q^{(zeta)}_t, q^{(zeta,D)}, n^{(zeta)}t, P^{(mid)}, (lambda^{(i)t){(i=1,...,d)}}{zetain{a, b}}

这看起来很吓人，但其实每个符号都有直观意义：

符号含义高中生版解释

X_t 现金账户余额。

Y_t 库存手里有多少股股票。正数=多头，负数=空头。

p^{(zeta)}_t 价格 zeta=a 是卖一价 (ask)，zeta=b 是买一价 (bid)。

q^{(zeta)}_t 队列大小在买一/卖一档位上，总共挂了多少股。

n^{(zeta)}_t 我的排队位置我的挂单在买一/卖一队列里的优先级。数字越小，越靠前，越先成交。

P^{(mid)} 中间价 (买一价 + 卖一价) / 2，代表当前的"公平"市场价格。

lambda^{(i)}_t Hawkes强度这是模型的核心！它表示下一种类型订单（i=1到d，对应那10种事件）。强度越高，该事件越可能马上发生。

💡 关键洞察：状态 S_t 不仅包含了当前的市场快照（价格、队列），还包含了对未来订单流的预测（通过Hawkes强度 lambda）。这让做市商可以"预判"市场。

策略 u(t) （做市商的"操作指令集"）

公式 (2.2) 定义了策略：

u(t) := {(tau_i, psi_i)}_{i=1,...,N} quad text{where} quad tau_N < t

这非常简单：

一个策略 u 就是一系列 (时间, 操作) 对。
tau_i 是第 i 次操作的时间。
psi_i 是操作的内容，它必须是那10种事件 E 中的一种（比如 LOaskT, MObid 等）。

这就是"脉冲控制"的精髓：你的控制不是连续的，而是在特定时间点发出一个"脉冲"（一个具体的操作指令）。

🧠 第三步：理清整体逻辑

起点：在时间 t，市场处于状态 S_t（你知道所有价格、队列、自己的库存现金、以及未来订单流的强度）。
决策：你需要从所有可能的策略 u（即所有可能的 (时间, 操作) 序列）中，选出那个能让目标函数 J(u) 最大的策略 u^*。
动态：当你执行一个操作 psi_i 时，会通过一个 "状态-干预算子" Gamma 瞬间改变状态 S_t（比如挂一个限价单，会增加 q^{(a)} 和更新你的 n^{(a)}）。
目标：在交易结束时 (T），你希望现金多、库存少，并且在整个过程中没有因为持有过多库存而暴露在巨大风险中。

✅ 终极总结（一句话）

*第 2.2 节就是为做市商建立了一个"游戏规则"：在一个由 Hawkes 过程驱动的、离散事件构成的真实市场中，做市商只能在特定时刻发出离散的操作指令（脉冲），其目标是最大化最终财富，同时最小化因持有库存而产生的风险。所有的市场信息、自身状况和未来预期都被打包在"状态变量" S_t 里，而最优策略 u^ 就是从这个状态出发，能获得最高期望得分的操作序列。**

第 2.3 节 "The State-Intervention Operator"（状态-干预算子）的逻辑和含义。

这一节是整篇论文建模的核心技术环节，它定义了：当你执行一个操作（比如挂单、撤单、市价成交）时，整个市场状态 S_t 是如何瞬间改变的。

我会继续用高中生能理解的语言，把抽象的数学映射 Gamma 背后的真实交易逻辑讲清楚。

🎯 一、这一节要解决什么问题？

在 2.2 节中，我们定义了：

状态 S_t：包含现金、库存、价格、队列、排队位置、Hawkes 强度等。
策略 u = {(tau_i, psi_i)}：一系列离散的操作指令。

但还有一个关键问题没回答：

当我执行一个操作 psi_i（比如"在卖一挂 100 股"），状态 S_t 具体怎么变？

这就是状态-干预算子 Gamma 的作用：

S_{text{new}} = Gamma(S_{text{old}}, psi)

它是一个函数（或规则），输入是操作前的状态 + 操作类型，输出是操作后的状态。

🔧 二、Gamma 的核心逻辑：分操作类型处理

论文指出，Gamma 的定义依赖于操作 psi 的类型。我们按三大类来拆解：

✅ 类型 1：限价单（Limit Order, LO）和撤单（Cancel Order, CO）

这类操作不会立即成交，只会影响订单簿的队列结构和你的排队位置。

举个例子：执行 LOaskT（在卖一档挂限价卖单）

假设操作前状态：

卖一价 p^{(a)} = 10.02
卖一总挂单量 q^{(a)} = 200 股
你的排队位置 n^{(a)} = text{空}（因为你没挂单）

你挂了 50 股 @10.02。

Gamma 如何更新状态？

状态分量更新规则

X_t（现金）不变（没花钱）

Y_t（库存）不变（股票还在手里）

q^{(a)}（卖一总量） 200 to 250

n^{(a)}（你的排队位置）变为 201（排在原来 200 股之后）

Hawkes 强度 lambda^{(i)} 可能触发某些事件强度变化（比如增加了未来被吃单的概率）

💡 关键点：挂限价单不改变你的资产负债表（现金和库存），但改变了你在市场中的"位置"和"暴露风险"。

再比如：执行 COaskT（撤掉卖一档的部分挂单）

q^{(a)} 减少
如果撤的是你自己的单，n^{(a)} 可能变为"无"或更新为新位置
现金和库存依然不变

✅ 类型 2：市价单（Market Order, MO）

这类操作会立即成交，直接改变你的现金和库存，并消耗订单簿的流动性。

举个例子：执行 MOask（发市价买单，吃掉卖一档）

假设：

卖一价 p^{(a)} = 10.02，总量 q^{(a)} = 150
你想买 100 股
当前现金 X = 1000，库存 Y = 0

Gamma 如何更新？

状态分量更新规则

X_t 1000 - 100 times 10.02 = -102 → 现金减少

Y_t 0 + 100 = 100 → 库存增加

q^{(a)} 150 - 100 = 50 → 卖一队列被吃掉一部分

n^{(a)} 不变（你没挂卖单）

中间价 P^{(mid)} 可能变化（如果卖一被完全吃掉，价格会跳到下一档）

💡 关键点：市价单是"真金白银"的交易，立刻影响你的 P&L（盈亏）。

✅ 类型 3：特殊操作（如 LOaskIS / LObidIS）

这些是在订单簿失衡侧挂单的策略性行为。Gamma 的处理逻辑类似普通限价单，但挂单位置可能不是最优档，而是根据不平衡程度动态决定。

例如：

如果买方远强于卖方（bid >> ask），系统可能允许你在略高于当前卖一的价格挂单（捕获更多成交机会）。
Gamma 会根据当前状态 S_t 中的不平衡指标，动态计算挂单位置和排队位置。

⚙️ 三、Gamma 的数学形式（简化版）

虽然论文可能没写出完整公式，但 Gamma 的逻辑可以概括为：

Gamma(S, psi) =

begin{cases}

text{UpdateQueue}(S, psi), & text{if } psi in {text{LO, CO}}

text{ExecuteTrade}(S, psi), & text{if } psi in {text{MO}}

text{StrategicPost}(S, psi), & text{if } psi in {text{LOIS}}

end{cases}

其中每个子函数都明确定义了：

哪些状态变量变？
怎么变？（加/减/重置）
是否触发价格跳变？
是否更新 Hawkes 强度？

🌐 四、为什么 Gamma 如此重要？

连接决策与结果：没有 Gamma，你的操作 psi 就只是"纸上谈兵"，无法知道它对世界的真实影响。
保证模型一致性：所有状态变量的变化必须符合真实的交易所规则（比如 FIFO 排队、价格档位跳跃等）。
支撑后续求解：无论是用 HJB-QVI 方程还是强化学习（PPO），都需要一个准确的 Gamma 来模拟"执行动作后的下一个状态"。

🎮 打个比方：

如果把做市看作一个电子游戏，

S_t 是你的角色属性（血量、金币、装备）
psi 是你按下的按键（攻击、防御、使用道具）
Gamma 就是游戏引擎------它决定了按下按键后，角色属性如何更新！

✅ 总结

第 2.3 节的核心贡献是定义了一个精确、可计算的状态转移规则 Gamma，它：

根据操作类型（LO/CO/MO/LOIS）分情况处理状态更新；
同时更新财务状态（现金 X、库存 Y）和市场状态（价格、队列、排队位置、Hawkes 强度）；
确保整个模型忠实反映真实交易所的微观机制；
为后续的最优策略求解（无论是数值方法还是强化学习）提供了基础动力学。

简单说：Gamma 就是"操作"与"世界反馈"之间的桥梁。没有它，再聪明的策略也无法落地。

第 2.4 节 "Hamilton--Jacobi--Bellman Quasi-Variational Inequality"（HJB-QVI）的完整逻辑和所有数学公式。

这一节是整篇论文的理论核心------它把前面定义的"脉冲控制做市问题"转化为一个偏微分-积分不等式方程。虽然看起来非常抽象，但我会用高中生能理解的方式，一步步拆解它的动机、结构和每个符号的真实含义。

🎯 一、这一节的目标是什么？

找到一个数学方程，其解 V(t, S) 就代表"在状态 (t, S) 下，做市商未来能获得的最大期望收益"。

换句话说，V(t, S) 是价值函数（Value Function），而 HJB-QVI 方程就是这个价值函数必须满足的最优性条件。

🔑 二、核心思想：两种选择，取最优

在任何时刻 t，处于状态 S 的做市商面临两个互斥的选择：

什么也不做（Wait）

→ 让市场自然演化（由 Hawkes 过程驱动），价值按某种速率变化。
立刻执行一次操作 psi（Intervene）

→ 状态瞬间跳变为 Gamma(S, psi)，并获得即时收益 K(S, psi)，之后继续优化。

最优策略就是：在每个 (t, S)，选择这两个选项中更好的那个。

这就是 HJB-QVI 的最小值结构（min = 0）的来源。

📐 三、HJB-QVI 方程详解

论文中的 HJB-QVI 方程（通常写作公式 2.4 或类似）形式如下：

min left{

-frac{partial V}{partial t}(t, S) - mathcal{L}V(t, S),

V(t, S) - sup_{psi in mathcal{A}} left[ K(S, psi) + V(t, Gamma(S, psi)) right]

right} = 0

我们逐部分解析：

✅ 第一部分：-frac{partial V}{partial t} - mathcal{L}V

"如果我现在什么都不做，价值的变化率是多少？"

frac{partial V}{partial t}：价值随时间的显式变化（比如越接近终点 T，机会越少，价值可能下降）。
mathcal{L}：无穷小生成元（Infinitesimal Generator），描述在 Hawkes 驱动下，状态 S 的随机演化如何影响 V。

mathcal{L}V 的具体形式（来自 Hawkes 动态）：

mathcal{L}V(t, S) = sum_{i=1}^d lambda^{(i)}_t left[ V(t, S + Delta s^{(i)}) - V(t, S) right]

d：事件类型总数（你之前提到的 10 种，所以 d=10）
lambda^{(i)}_t：第 i 类事件的Hawkes 强度（瞬时发生概率）
Delta s^{(i)}：当第 i 类事件（如 MOask）发生时，状态 S 的跳跃增量
- 例如：MOask 发生 → 库存 Y 增加，现金 X 减少，卖一队列 q^{(a)} 减少

💡 直观理解：mathcal{L}V 就是"由于市场自然发生的订单流，我的价值期望会如何漂移"。

✅ 第二部分：V(t, S) - sup_{psi} [K(S, psi) + V(t, Gamma(S, psi))]

"如果我现在操作一下，能比不操作多赚多少？"

psi in mathcal{A}：所有允许的操作集合（即那 10 种事件 E）
K(S, psi)：执行 psi 的即时收益/成本
- 对限价单/撤单：K=0
- 对市价单：K = z cdot p（成交金额）
Gamma(S, psi)：执行 psi 后的新状态（由 2.3 节定义）
V(t, Gamma(S, psi))：操作后，从新状态出发的未来最大期望收益

所以，sup_{psi} [cdots] 就是："现在所有可能的操作中，哪个能让我总收益最高？"

而 V(t, S) - sup[cdots] 衡量的是：当前价值 vs. 操作后的价值。

如果这个差值 > 0 → 说明操作后更差，不该操作
如果这个差值 < 0 → 说明操作后更好，应该操作

✅ 为什么是 min{..., ...} = 0？

这体现了互补松弛条件（Complementarity）：

在连续区域（Continuation Region）：

最优策略是 "等待" → 第一部分 = 0，第二部分 ≥ 0
在干预区域（Intervention Region）：

最优策略是 "立即操作" → 第二部分 = 0，第一部分 ≥ 0

两者不能同时为负（否则矛盾），所以取 min = 0。

🧠 类比：就像你站在十字路口：

如果直走更好，你就走（此时"左转的价值" ≤ "直走的价值"）
如果左转更好，你就转（此时"直走的价值" ≤ "左转的价值"）
总有一个是最优的，且最优值等于当前价值。

🧾 四、边界条件（Terminal Condition）

任何动态规划问题都需要终点条件。在时间 T（交易结束时），价值函数为：

V(T, S) = X_T + Y_T P^{(mid)}_T - kappa Y_T^2

这正是 2.2 节目标函数中的终端项：

X_T：现金
Y_T P^{(mid)}_T：库存按中间价变现
-kappa Y_T^2：对未清仓库存的惩罚

⚠️ 五、为什么这个方程"几乎无法直接求解"？

高维状态空间：

S 包含现金、库存、买卖价、队列大小、排队位置、10 个 Hawkes 强度......维度可能高达 20+。
非局部性：

mathcal{L}V 涉及 V(t, S + Delta s^{(i)})，不是局部导数，而是跳跃项。
自由边界问题：

"何时操作"的边界（Continuation vs. Intervention Region）是未知的，需要同时求解。

正因为如此，论文在后续章节放弃直接求解 HJB-QVI，转而使用强化学习（PPO + Self-Imitation）来近似最优策略！

✅ 六、总结：HJB-QVI 的完整逻辑链

步骤内容

定义价值函数 V(t, S) = max_u mathbb{E}[text{未来收益} mid S_t = S]
分析决策在每个 (t, S)，选择"等待"或"操作"
建立方程两种选择的最优性条件 → HJB-QVI
描述动态 "等待"的动态由 Hawkes 生成元 mathcal{L} 描述
描述干预 "操作"的效果由干预算子 Gamma 和收益 K 描述
设定终点 V(T, S) = X_T + Y_T P^{(mid)}_T - kappa Y_T^2
承认困难方程太复杂 → 改用强化学习求解

💎 终极一句话总结

HJB-QVI 方程是脉冲控制问题的"黄金法则"：它指出，在任何时刻和状态下，做市商的最优行为要么是"耐心等待市场自然演化"，要么是"果断执行一次能最大化总收益的操作"，而价值函数 V(t, S) 必须同时满足这两种可能性的平衡条件。

虽然这个方程难以解析求解，但它为数值方法（如强化学习）提供了理论正确性保证------只要 RL 算法收敛，它就是在逼近这个方程的解。

第 2.5 节 "The Generator"**（生成元）的逻辑和数学公式。

这一节是对 2.4 节 HJB-QVI 中出现的算子 L\mathcal{L}L 的具体展开和定义 。它的核心任务是：精确写出在 Hawkes 驱动的限价订单簿（LOB）中，价值函数 V(t,S)V(t, S)V(t,S) 如何随市场的随机事件而演化。

🎯 一、本节的核心目标

给出无穷小生成元 L\mathcal{L}L 的显式表达式，使其能准确反映由 Hawkes 过程驱动的 LOB 动态。

回忆一下，在 HJB-QVI 中，LV\mathcal{L}VLV 描述的是"如果不干预，仅由市场自然发生的订单流所引起的价值变化率"。

由于市场是由 10 种离散事件 （如 MOask, LObidT 等）驱动的，且这些事件的发生强度由 Hawkes 过程 建模，因此 L\mathcal{L}L 必然是一个跳跃型生成元（Jump-type Generator），而不是像布朗运动那样的微分算子。

🔢 二、数学公式详解（HTML/LaTeX 兼容格式）

1. 生成元 L\mathcal{L}L 的通用形式

论文首先会写出生成元的一般结构：

LV(t,S)=∑e∈Eλ(e)(t,S)[V(t,S+ΔS(e))−V(t,S)] \mathcal{L} V(t, S) = \sum_{e \in E} \lambda^{(e)}(t, S) \left[ V\big(t, S + \Delta S^{(e)}\big) - V(t, S) \right] LV(t,S)=e∈E∑λ(e)(t,S)[V(t,S+ΔS(e))−V(t,S)]

其中：

E={LOaskD,LOaskT,...,LObidD}E = \{ \texttt{LOaskD}, \texttt{LOaskT}, \dots, \texttt{LObidD} \}E={LOaskD,LOaskT,...,LObidD} 是 10 种事件的集合。
λ(e)(t,S)\lambda^{(e)}(t, S)λ(e)(t,S) 是事件 eee 在当前状态 (t,S)(t, S)(t,S) 下的 Hawkes 强度（瞬时发生率）。
ΔS(e)\Delta S^{(e)}ΔS(e) 是当事件 eee 发生时，系统状态 SSS 的 跳跃增量（即状态如何突变）。

💡 直观理解 ：这个公式说------

"我的价值变化率 = 所有可能事件的发生概率 ×（事件发生后的价值 - 当前价值）之和"。

2. Hawkes 强度 λ(e)(t)\lambda^{(e)}(t)λ(e)(t) 的动态方程

Hawkes 过程的关键在于其自激和互激特性 。每个事件的强度 λ(e)\lambda^{(e)}λ(e) 不是常数，而是随时间演化的，并受所有历史事件的影响。

其动态通常由以下 ODE（常微分方程） 描述：

dλt(e)=−β(e)(λt(e)−μ(e))dt+∑e′∈Eα(e,e′)dNt(e′) d\lambda^{(e)}_t = -\beta^{(e)} \left( \lambda^{(e)}t - \mu^{(e)} \right) dt + \sum{e' \in E} \alpha^{(e, e')} dN^{(e')}_t dλt(e)=−β(e)(λt(e)−μ(e))dt+e′∈E∑α(e,e′)dNt(e′)

或等价地（积分形式）：

\frac{d\lambda^{(i)}_t}{dt} = -\beta^{(i)} \left( \lambda^{(i)}t - \mu^{(i)} \right) + \sum{j=1}^d \alpha^{(i,j)} , dN^{(j)}_t

``` ✅ **逐项解读**： * λt(i)\\lambda\^{(i)}_tλt(i)：第 iii 类事件（如 `MOask`）在时间 ttt 的**强度** * μ(i)\\mu\^{(i)}μ(i)：该事件的**基础强度**（background intensity） * β(i)\\beta\^{(i)}β(i)：**衰减率**（decay rate），控制强度回归均值的速度 * α(i,j)\\alpha\^{(i,j)}α(i,j)：事件 jjj 对事件 iii 的**激发系数**（excitation coefficient） * dNt(j)dN\^{(j)}_tdNt(j)：事件 jjj 在 \[t,t+dt)\[t, t+dt)\[t,t+dt) 内是否发生（是则为 1，否则为 0） 📌 **逻辑**： > "强度 λ(i)\\lambda\^{(i)}λ(i) 平时以速率 β(i)\\beta\^{(i)}β(i) 衰减回 μ(i)\\mu\^{(i)}μ(i)；但每当事件 jjj 发生，它就瞬间跳升 α(i,j)\\alpha\^{(i,j)}α(i,j)。" *** ** * ** *** ##### 公式 (A.2)：库存 YtY_tYt 的跳跃规则 ```latex

Y_{t} = Y_{t^-} + \Delta Y^{(e)}, \quad \text{for event } e \in E

\Delta Y^{(e)} =
\begin{cases}
+z, & \text{if } e = \texttt{MOask} \
-z, & \text{if } e = \texttt{MObid} \
0, & \text{otherwise}
\end{cases}

``` ✅ **解读**： * Yt−Y_{t\^-}Yt−：事件发生前的库存 * YtY_tYt：事件发生后的库存 * 只有市价单（`MOask`/`MObid`）会改变库存 * 限价单（`LO...`）或撤单（`CO...`）不改变库存 *** ** * ** *** #### 🔊 3. 关键符号发音（英文） | 符号 | 英文发音 | 中文解释 | |------------------------------|--------------|------------------| | λt(i)\\lambda\^{(i)}_tλt(i) | "lambda-i-t" | 第 i 类事件在 t 时刻的强度 | | μ(i)\\mu\^{(i)}μ(i) | "mu-i" | 基础强度（mu 是希腊字母） | | β(i)\\beta\^{(i)}β(i) | "beta-i" | 衰减率 | | α(i,j)\\alpha\^{(i,j)}α(i,j) | "alpha-i-j" | 激发系数 | | dNt(j)dN\^{(j)}_tdNt(j) | "d-N-j-t" | 事件 j 的计数过程微分 | | ΔY(e)\\Delta Y\^{(e)}ΔY(e) | "delta-Y-e" | 事件 e 引起的库存变化量 | > 💡 小贴士：在学术报告中，通常说 "lambda of i at time t" 或简写 "lambda-i-t"。 *** ** * ** *** ### 📎 Appendix B. State-Intervention Operator #### ------"当我执行一个操作，状态到底怎么变？" #### 🔍 1. 含义 这一附录**为每一种操作 ψ∈E\\psi \\in Eψ∈E** （共 10 种），明确定义了干预算子 Γ\\GammaΓ 的作用结果： Snew=Γ(Sold,ψ) S_{\\text{new}} = \\Gamma(S_{\\text{old}}, \\psi) Snew=Γ(Sold,ψ) 它是一个**查表式规则手册**，告诉模拟器： * 如果我挂一个 `LOaskT`，卖一队列增加多少？我的排队位置变成多少？ * 如果我发一个 `MOask`，现金减少多少？库存增加多少？价格是否跳档？ 这是 **2.3 节的完整技术实现细节**。 *** ** * ** *** #### 📘 2. 如何阅读典型公式 ##### 示例：操作 `LOaskT`（在卖一挂限价卖单） ```latex

\Gamma(S, \texttt{LOaskT}) =
\begin{cases}
q^{(a)} \leftarrow q^{(a)} + z \
n^{(a)} \leftarrow q^{(a)}_{\text{before}} + 1 \
X \leftarrow X \
Y \leftarrow Y \
p^{(a)} \leftarrow p^{(a)} \
\text{(其他变量不变)}
\end{cases}

``` ✅ **解读**： * zzz：挂单数量 * q(a)q\^{(a)}q(a)：卖一总挂单量 → 增加 zzz * n(a)n\^{(a)}n(a)：我的排队位置 → 排在原有队列之后（FIFO 规则） * 现金 XXX、库存 YYY、价格 p(a)p\^{(a)}p(a) 均不变（因为没成交） ##### 示例：操作 `MOask`（发市价买单） ```latex

\Gamma(S, \texttt{MOask}) =
\begin{cases}
X \leftarrow X - z \cdot p^{(a)} \
Y \leftarrow Y + z \
q^{(a)} \leftarrow \max(q^{(a)} - z, 0) \
\text{if } q^{(a)} - z \leq 0: \text{ price jumps to next ask level}
\end{cases}

``` ✅ **解读**： * 现金减少：支付 z×z \\timesz× 卖一价 * 库存增加：买入 zzz 股 * 卖一队列减少 zzz * 如果队列被清空，价格跳到下一档（需额外定义价格档位结构） *** ** * ** *** #### 🔊 3. 关键符号发音 | 符号 | 英文发音 | 说明 | |-------------------------------|----------------------------------|-------------------| | Γ(S,ψ)\\Gamma(S, \\psi)Γ(S,ψ) | "Gamma of S and psi" | 干预算子 | | q(a)q\^{(a)}q(a) | "q-ask" 或 "q-superscript-a" | 卖一队列大小 | | n(a)n\^{(a)}n(a) | "n-ask" | 卖一排队位置 | | p(a)p\^{(a)}p(a) | "p-ask" | 卖一价格 | | zzz | "z" | 订单数量（通常读作 "size"） | | FIFO | "F-I-F-O" / "first-in-first-out" | 先进先出排队规则 | > 💡 在讨论中常说："When I submit a LOaskT of size z, my queue position becomes the tail." *** ** * ** *** ### ✅ 总结：如何高效阅读这两个附录？ | 步骤 | 建议 | |---------------|------------------------------------------------------------------------| | **1. 先看表格** | 附录通常包含"事件类型 vs. 状态变化"的表格，比公式更直观 | | **2. 对照主文** | 回顾 2.2--2.3 节，理解为什么需要这些细节 | | **3. 模拟思维** | 把自己当成交易所引擎：输入一个事件，输出新状态 | | **4. 忽略次要变量** | 初读时聚焦 X,Y,p,q,λX, Y, p, q, \\lambdaX,Y,p,q,λ，忽略 q(D)q\^{(D)}q(D) 等次要变量 | | **5. 用于编码** | 这些公式可直接转为 Python/C++ 的 if-else 逻辑 | *** ** * ** *** ### 💎 最后一句话 > **Appendix A 和 B 是整篇论文的"操作系统内核"------主文讲"做什么"，附录讲"怎么做"。它们虽枯燥，却是模型可复现、可落地的关键。** 如果你正在复现这篇论文，**务必仔细阅读这两个附录**，它们决定了你的模拟器是否与作者一致。 非常好的问题！你希望将这篇论文《An Impulse Control Approach to Market Making in a Hawkes LOB Market》的思想**落地到中国商品期货市场** （如螺纹钢、铁矿石、PTA、甲醇等），构建一个**基于强化学习的做市策略系统**。 下面是一个**分阶段、可执行、兼顾学术严谨性与工程落地性** 的可行性计划，涵盖：**数据 → 模型 → 代码 → 回测 → 实盘准备**。 *** ** * ** *** ### 🎯 总体目标 > **在中国商品期货主力合约上，构建一个低风险、高夏普比率的 AI 做市策略，通过提供买卖双边流动性赚取价差，而非方向性投机。** *** ** * ** *** ### 📅 阶段一：数据准备（1--2 周） #### ✅ 目标 获取并清洗**逐笔订单簿**（LOB）数据，用于建模 Hawkes 过程和训练 RL。 #### 🔧 具体任务 | 任务 | 说明 | |--------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | **1. 数据源选择** | - 使用 **Tushare Pro** 、**聚宽** 、**掘金量化** 或 **券商 L2 行情** - 必须包含：**逐笔成交** （Trade） + **逐笔委托** （Order）- 推荐品种：**流动性好、主力合约换月平滑**（如 rb, i, TA, MA） | | **2. 数据字段** | - 时间戳（微秒级）- 价格、数量- 买卖方向（Bid/Ask）- 订单类型（限价/市价）- 订单状态（新增/撤单/成交） | | **3. 构建事件流** | 将原始数据转化为 **10 类事件序列** （参考论文）：`pythonE = [ 'LO_bid', 'LO_ask', # 限价挂单 'CO_bid', 'CO_ask', # 撤单 'MO_bid', 'MO_ask', # 市价单（吃单） 'LOIS_bid', 'LOIS_ask', # 失衡侧挂单（可选） 'Cancel_all_bid', 'Cancel_all_ask' # 批量撤单]` | | **4. 特征工程** | - 计算中间价 P(mid)P\^{(mid)}P(mid)- 买卖队列大小 q(a/b)q\^{(a/b)}q(a/b)- 订单簿不平衡度 q(b)−q(a)q(b)+q(a)\\frac{q\^{(b)} - q\^{(a)}}{q\^{(b)} + q\^{(a)}}q(b)+q(a)q(b)−q(a) | > 💡 **工具建议** ：Python + `pandas` + `numba`（加速事件解析） *** ** * ** *** ### 📅 阶段二：Hawkes LOB 模拟器开发（2--3 周） #### ✅ 目标 构建一个**可交互的仿真环境**（Gym-style），供 RL 训练使用。 #### 🔧 具体任务 | 任务 | 说明 | |-------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------| | **1. 校准 Hawkes 参数** | - 用 **EM 算法** 或 **最小二乘** 估计 μ(i),α(i,j),β(i)\\mu\^{(i)}, \\alpha\^{(i,j)}, \\beta\^{(i)}μ(i),α(i,j),β(i)- 工具：`tick`（Python 库）或自实现 | | **2. 实现状态变量** | 定义状态 sts_tst 包含：- X,YX, YX,Y（现金、库存）- p(a/b),q(a/b),n(a/b)p\^{(a/b)}, q\^{(a/b)}, n\^{(a/b)}p(a/b),q(a/b),n(a/b)- λ(1..d)\\lambda\^{(1..d)}λ(1..d)（10 维强度） | | **3. 实现干预算子 Γ\\GammaΓ** | 为每种操作定义状态跳变规则（见 Appendix B）- 例如：挂单 → 更新 qqq, nnn- 市价单 → 更新 X,Y,qX, Y, qX,Y,q | | **4. 封装为 Gym Env** | `pythonclass FuturesMarketMakingEnv(gym.Env): def step(self, action): ... def reset(self): ...` | > ⚠️ **关键难点**： > > * 中国期货有**涨跌停板** 、**夜盘/日盘分割** 、**主力合约切换** > * 需在模拟器中加入这些现实约束！ *** ** * ** *** ### 📅 阶段三：强化学习策略开发（3--4 周） #### ✅ 目标 训练一个 PPO + Self-Imitation Learning 策略。 #### 🔧 具体任务 | 任务 | 说明 | |---------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | **1. 动作空间设计** | - 离散动作：11 类（10 种操作 + NO-OP）- 可扩展：动作包含**数量**（如挂 1 手 / 5 手）→ 变成离散+连续混合 | | **2. 奖励函数设计** | `pythonr_t = -eta * Y_t**2 * dtif action in ['MO_bid', 'MO_ask']: r_t += z * price # 即时成交收益if t == T: r_t += X_T + Y_T * P_mid - kappa * Y_T**2` | | **3. 网络架构** | - Actor/Critic：3 层 MLP，256 units- 输入：归一化状态 sts_tst- 输出：11 维动作概率 | | **4. 训练框架** | - 使用 **Stable-Baselines3**（PPO）- 自实现 SIL 模块（存储高回报轨迹） | | **5. 超参数调优** | - η\\etaη（库存惩罚）：从 0.01 开始试- κ\\kappaκ（终端惩罚）：0.1--1.0- 学习率：3e-4 | > 💡 **技巧**： > > * 先在**简化环境**（无涨跌停、固定合约）训练 > * 再逐步加入**现实约束** *** ** * ** *** ### 📅 阶段四：回测与评估（2 周） #### ✅ 目标 验证策略在**历史数据上的表现**，避免过拟合。 #### 🔧 具体任务 | 任务 | 说明 | |--------------|-----------------------------------------------------------------| | **1. 回测引擎** | - 使用 **Backtrader** 或 **RQAlpha** - **必须支持 L2 行情回放**（不能只用 K 线！） | | **2. 评估指标** | - 年化收益率、夏普比率- 最大回撤- 平均库存 $ | | **3. 对比基线** | - 静态做市（固定挂单价差）- Avellaneda-Stoikov 策略- DGM 方法（如果实现） | | **4. 敏感性分析** | - 改变手续费（0.01‰ → 0.1‰）- 加入滑点（成交价劣化 1 tick） | > ⚠️ **致命陷阱** ： > **不要用训练数据回测** ！必须用**未见过的时间段**（如 2023 年训练，2024 年回测）。 *** ** * ** *** ### 📅 阶段五：实盘准备（持续） #### ✅ 目标 将策略部署到实盘，控制风险。 #### 🔧 具体任务 | 任务 | 说明 | |---------------|----------------------------------------------| | **1. 实盘接口** | - 使用 **CTP** （SimNow 测试）- 框架：`vn.py` 或 `QMT` | | **2. 风控模块** | - 单日最大亏损限制- 单笔最大手数限制- 库存阈值熔断（$ | | **3. 监控仪表盘** | - 实时显示：库存、PnL、挂单状态、Hawkes 强度 | | **4. A/B 测试** | - 小资金实盘 vs. 静态策略对比 | *** ** * ** *** ### 🛠️ 技术栈推荐 | 模块 | 工具 | |-----------|---------------------------------| | 数据处理 | Python, pandas, numpy, numba | | Hawkes 校准 | `tick`, `hawkeslib`, 或自实现 EM | | RL 训练 | Stable-Baselines3, PyTorch | | 回测 | Backtrader (需扩展 L2), vn.py 回测模块 | | 实盘 | vn.py + CTP, QMT, 掘金量化 | | 可视化 | Plotly, Streamlit | *** ** * ** *** ### ⚠️ 中国期货市场的特殊注意事项 1. **主力合约切换**：需自动识别并切换（如 rb2410 → rb2501） 2. **交易时间分割**：夜盘（21:00--23:00） + 日盘（9:00--15:00） 3. **涨跌停板**：±8%（部分品种），需在模拟器中禁止突破 4. **手续费结构**：按手收费（如 3 元/手），非按金额比例 5. **最小变动价位**：如 rb 是 1 元/吨（10 吨/手 → 10 元/tick） *** ** * ** *** ### 💡 最后建议：从小做起 1. **先选 1 个品种**（如甲醇 MA） 2. **先做日内策略**（当日清仓，避免隔夜风险） 3. **先用 1 手测试**（实盘最小单位） 4. **先跑 1 周模拟盘**（SimNow） > **记住** ：做市的核心不是"赚大钱"，而是"**稳定赚小钱，严控风险**"。夏普比率 \> 3 就是优秀策略！ *** ** * ** *** 如果你需要，我可以进一步提供： * Hawkes 参数校准的 Python 代码模板 * Gym 环境的骨架代码 * PPO + SIL 的训练脚本 * 中国期货 L2 数据解析示例 欢迎继续提问！祝你成功构建属于自己的 AI 做市系统！