前言
在我最初学 Rust 的时候,我十分严格的要求自己不用 RefCell,不写 unsafe,我坚信一切事物均应该按照函数式思想,一切都应该是纯函数,一切副作用从上向下传递,但随着我逐渐的使用,我最终还是选择了在我的 Rust 代码中引入 UnsafeCell
探索
阶段 1,全部可变
一切的缘由都开始于我想对值进行懒加载,于是我参考其他语言中 lazy,借助可变引用实现了懒加载:
注,目前 Rust 1.80+ 已经引入了更方便的 lazy cell 来实现这个诉求,或者在 1.70+ 也可以使用 once cell 或其他第三方库来实现诉求,这里只是展示个人的想法过程。
rust
struct Lazy<T> {
value: Option<T>,
producer: fn() -> T,
}
impl<T> Lazy<T> {
fn new(producer: fn() -> T) -> Self {
Lazy { value: None, producer }
}
fn get(&mut self) -> &T {
if self.value.is_none() {
self.value = Some((self.producer)());
}
self.value.as_ref().unwrap()
}
}
我很轻松的设计出了这样的一个 api,如果未初始化,那么值将会被计算并返回 &T,一切看起来很美好,但是当我们真正使用时就会发现问题:
rust
fn main() {
let mut lazy = Lazy::new(|| 1);
let a = lazy.get();
let b = lazy.get();
println!("{a}, {b}");
}
下面的代码会在 b 的 lazy 获取处报错:
cannot borrow lazy
as mutable more than once at a time
造成这个问题的原因是因为只能持有一个可变引用,这是 Rust 的借用规则,而这里 a 和 b 均借用了可变引用 &mut lazy,同时持有了多个从可变引用 &mut lazy 得到的不可变引用 (&T),也相当于同时间接持有了多个对 lazy 的可变引用。
不过,可以多次借用可变引用,只不过不允许同时持有他们,我们只需要返回 owned T 而不是 &T 就可以解决这个问题,一个可能的方式是通过智能指针 Rc 实现,通过 Rc 我们能够获得直接指向一个对象智能指针,且每次返回 clone 后的 owned Rc,不需要担心返回的引用被 mut& 的借用机制传染:
rust
struct Lazy<T> {
value: Option<Rc<T>>,
producer: fn() -> T,
}
impl<T> Lazy<T> {
fn get(&mut self) -> Rc<T> {
if self.value.is_none() {
self.value = Some(Rc::new((self.producer)()));
}
Rc::clone(self.value.as_ref().unwrap())
}
}
再次编译上方的 main 测试代码,则不再会报错,同时我们也可以在需要时对 Rc 解引用得到 &T
阶段 2,RefCell
但上面的代码是比较理想的,但其有这样的缺点:
- 全部链路都需要是可变的,Rust 中,不可变的 struct 其内部的 struct 理论上也是不可变的
- 遇到需要同时持有多个可变引用中的不可变引用时,往往需要通过 Rc 等方式记录智能指针
- 从外部使用者的视角来看,给定特定的 Lazy 总能得到所需的 &T,始终是一样的,似乎没必要传入 &mut self,同时也由于 &mut 的限制比常规引用大,外部使用者也更难以拿到对 self 的可变引用。
但从库设计者的角度来说,这似乎又应该是合理的诉求,因为在内部对 value 进行了 write,当然要使用 &mut。
因此 Rust 有 RefCell,它可以实现内部可变性,使得你能够使用不可变引用执行可变操作,继续以上面 Lazy 为例,我们使用 RefCell 又对其进行了改造
rust
struct Lazy<T> {
value: RefCell<Option<T>>,
producer: fn() -> T,
}
impl<T> Lazy<T> {
fn new(producer: fn() -> T) -> Self {
Lazy { value: RefCell::default(), producer }
}
fn get(&self) -> Ref<T> {
if self.value.borrow().is_none() {
let value = (self.producer)();
*self.value.borrow_mut() = Some(value);
}
Ref::map(self.value.borrow(), |v| v.as_ref().unwrap())
}
}
此时,get 不再需要可变引用,也不再需要 Rc,可变被隐藏在了实现内部,不过,你无法对外部隐藏你使用了 RefCell,因为你需要返回 Ref 而不是普通的 &T。
额外插一句,Rust 官方之所以不希望返回 &T(否则悬垂指针)的原因,一方面是希望不对外隐藏使用了 RefCell 的事实,另一方面是 Ref 和 RefMut 也会记录借用次数并在 new 和 drop 时检验借用规则,在不满足借用规则的情况下,则会运行时 panic 或返回 result (try_borrow)。
阶段 3,可重置
上面的代码实现简单的 lazy 是足够了,不过我们来看看一个真实诉求:
在我们访问一个服务时,通常要先获取其 access token(懒获取),token 往往具有时效性,因此我们希望在 token 到期后去初始化新的 token,于是写出了这样的代码:
rust
struct TokenCenter<T> {
value: RefCell<Option<(u64, T)>>, // (last_update time, value)
producer: fn() -> T,
}
impl<T> TokenCenter<T> {
fn get(&self) -> Ref<T> {
let value = self.value.borrow();
let now = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs();
if value.is_none() || now - value.as_ref().unwrap().0 > 1000 {
let new_value = (self.producer)();
*self.value.borrow_mut() = Some((now, new_value));
}
Ref::map(self.value.borrow(), |v| &v.as_ref().unwrap().1)
}
}
和之前 lazy 类似,不过加上了超时,token 到期 get 会返回新 Ref,不过,这样的代码事实上非常危险,一旦你运行它,则一定 panic,原因在于我们 borrow 出的 value: Ref 在还没 drop 时被后续 borrow_mut 可变的借用了,一般情况下,drop 会在退出 value 所在的 block(即 get 函数体)时才会执行 drop,修复方法就是我们主动指定其 drop 时机,确保不会同时持有 Ref 和 RefMut
rust
fn get(&self) -> Ref<T> {
let value = self.value.borrow();
let now = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs();
if value.is_none() || now - value.as_ref().unwrap().0 > 1000 {
drop(value);
let new_value = (self.producer)();
*self.value.borrow_mut() = Some((now, new_value));
}
Ref::map(self.value.borrow(), |v| &v.as_ref().unwrap().1)
}
阶段 4,UnsafeCell
但 RefCell 也不是万能良方,它也有缺点:
- 由于 Ref 和 RefMut 不能同时持有,而我们还将 Ref 的所有权交给了外部的调用者,这导致当我们想对其进行改变时,我们必须要保证所有持有 Ref 的均已经 drop,否则 borrow_mut 则会发生 panic,但对于所有权怎么使用是使用者的事,完全不受我们的控制,甚至即使你使用 try_borrow_mut 也只是能兜住这个问题,而不能真正解决这个问题。
- 借用检查似乎是不必要的,我可以通过合理代码逻辑设计来避免这个问题发生,只要保证对外提供 API 足够安全即可,我希望得到最为极致的性能,更何况 RefCell 的设计下 borrow 也是危险操作,这意味着我总应该小心行事,运行时去模拟借用检查在我看来并不是一个很好的策略。
UnsafeCell 是安全的 API,只是名字看着吓人,但其内部函数都是 safe 的,为什么 safe 呢?因为获取一个裸指针是安全的,只有访问裸指针才是不安全的,而 UnsafeCell 提供的 api 都是获取裸指针,而不是访问裸指针。
我们希望使用 UnsafeCell 来得到更自由的能力,同时我们也能够避免借用检查,获得更优越的性能,于是写出了这样的代码:
rust
struct TokenCenter<T> {
value: UnsafeCell<Option<(u64, T)>>, // (last_update time, value)
producer: fn() -> T,
}
impl<T> TokenCenter<T> {
fn get(&self) -> &T {
let value_ptr = self.value.get();
let now = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs();
let value_ref = unsafe { &mut *value_ptr };
if value_ref.is_none() || now - value_ref.as_ref().unwrap().0 > 1000 {
let value = (self.producer)();
*value_ref = Some((now, value));
}
&value_ref.as_ref().unwrap().1
}
}
在上面的例子中:
- 获取 value_ptr 是裸指针,但获取其是安全的
- value_ref 是通过裸指针得到的可变引用,解引用裸指针需要 unsafe
- 由于没有 RefCell 的介入,因此这里不会有额外的借用检查,性能是最好的,同时也能直接返回 &T,使用方便,不用担心外部控制了对不可变引用所有权而导致内部的可变操作 panic
这样的 api 站在使用者视角来看简直是完美,但却是暗藏隐患的,因为 value 没有借用规则的约束,因此返回的 &T 指向的内存所存放的值是会变化的,这意味着如果过一段时间之后再次访问这个 &T,可能得到完全不一样的结果,更可怕的是这样的结果也很可能影响编译器的判断,编译器会根据不可变特性在编译阶段对代码进行更激进的优化,从而产生未定义的结果,下面看一个例子:
rust
fn simple_token_center() {
let token_center = TokenCenter::new(|| random::<u8>());
let a: &u8 = token_center.get();
let b: &u8 = token_center.get();
println!("{a}, {b}"); // 92, 92
sleep(Duration::from_secs(2000000));
let a: &u8 = token_center.get();
println!("{a}, {b}"); // 216, 216
}
在执行上面的代码后我们能发现,a 和 b 始终是相同的,因为两行之类调用之间没有其他指令,但在 sleep 了相当长一段时间后,缓存过期,此时再去 get 时我们发现不仅 a 变了,b 甚至都变了,但明明 b 被声明为了不可变引用,这一行为是相当危险的。
经过上面的过程,我们发现:
- RefCell 将所有权交给调用方,导致 get 方法对调用者如何使用 Ref 无感知
- UnsafeCell 导致了 &T 可能引用到事实上是可变的变量
两者都不完美,更好的使用方式是配合智能指针 Rc 来让被持有的对象在无引用时自动回收:
rust
struct TokenCenter<T> {
value: UnsafeCell<Option<(u64, Rc<T>)>>, // (last_update time, value)
producer: fn() -> T,
}
impl<T> TokenCenter<T> {
fn get(&self) -> Rc<T> {
let value_ptr = self.value.get();
let now = SystemTime::now().duration_since(UNIX_EPOCH).unwrap().as_secs();
let value_ref = unsafe { &mut *value_ptr };
if value_ref.is_none() || now - value_ref.as_ref().unwrap().0 > 1000 {
let value = (self.producer)();
*value_ref = Some((now, Rc::new(value)));
}
Rc::clone(&value_ref.as_ref().unwrap().1)
}
}
经过了这样的修改,测试代码也得到了正确的结果,我们发现此时得到的 b 就不再发生变更了:
rust
fn simple_token_center() {
let token_center = TokenCenter::new(|| random::<u8>());
let b = token_center.get();
println!("{}, {b}", token_center.get()); // 248, 248
sleep(Duration::from_secs(200000));
println!("{}, {b}", token_center.get()); // 182, 248
sleep(Duration::from_secs(200000));
println!("{}, {b}", token_center.get()); // 86, 248
}
总结
从一开始全部显式暴露可变,到使用 RefCell 实现内部可变性避免可变引用的传染性,再到可重置 Lazy 显式 drop 来保证借用规则符合要求,最终选择了 UnsafeCell 来实现更好的 API 暴露和更好的性能。
但我仍为自己制定了额外的规则:
- 不对外传播不安全的引用,如 Ref,MutRef 以及 unsafe 产生的 &
- 仅在结构体内部谨慎维护可变性,不对外暴露 RefCell、UnsafeCell 等 API,仅能通过函数访问得到所需的安全的内容
其他
- 飞书文档原文:[Rust] 最终我还是选择了 UnsafeCell
- 个人主页:Base / Homepage / Main