Rust语言入门教程(六) - 字符串类型

在Rust中, 字符串类型其实是一个比较复杂的话题。在Rust的标准库中,至少都提供了6种字符串类型,我们平常使用的最多的是其中的两种。这两种类型互相之间也有所关联:

  • str: 字符串切片
  • String 字符串
    其中, 字符串切片的常见形式是它的借用类型&str, 通常,一些字符串字面量都属于&str类型 ,例如:
rust 复制代码
let msg = "Hello 🌏";  // msg的类型是&str

字符串切片通常也被直接称为字符串, 很多人会把它跟另一种字符串类型String混淆。他们之间的主要区别在于:

  • &str: 是一个借用,不能被修改
  • String: 可以被修改

我们常用两个函数将字符串切片转换成字符串:

rust 复制代码
let msg = "ab🎉".to_string();    // 调用字符串切片的to_string()函数
let msg = String::from("ab🎉");  // 将字符串切片作为参数传给String类型的from函数

从数据结构的角度来看, &str类型由一个指向一组字节的指针和长度(len)属性组成

String类型由一个指向一组字节的指针, 长度(len)属性和容量(capacity)属性组成

因此,可以看出,&str其实可以看作是String的一部分。 因此, 它们也具有很多其他相同的特征, 例如,根据定义、编译器强制要求以及运行时检查,这两种字符串类型都是有效的 UTF-8格式。

另外, 不论是&str还是String, 都不能用下标来访问对应位置的字符,因为英文并不是这个世界上唯一的语言, 随便google一下就可以得知,这个世界上至少有6900多种不同的语言文字和甚至还有各种不同的表情图案, 要把这么多种文字都能通过编码的形式表达, 只有Unicode编码可以做到, 因此, 字符串都是Unicode编码的, 这就是为什么字符串中的字符不能用下标来访问的原因,例如:

rust 复制代码
let word = "สวัสดี";

如果我们想要通过下标来访问最后一个符号,可能会想到这样做:

rust 复制代码
word[3]  // ดี

但这不能得到我们想要的结果,实际上,上面的字符串会被存储在一个18字节的可变数组(vector)中, 如下:

224 184 170 224 184 177 224 184 177 224 184 170 224 184 148 224 184 181

上面的word[3]实际上得到的就是上面这个数组中的第4个元素224, UTF-8的编码规则下, 一个Unicode字符可能占用1 - 4个字节的长度不定,因此必须要遍历每个字节,才知道每个符号从哪里开始,在哪里结束。在上面的例子中,每3个字节代表了一个Unicode符号(scalars):

而其中可能由一个或多个Unicode符号才能组成一个有意义的文字符号(graphemes)

Rust的标准库的集合类型提供的索引操作始终保证是时间恒定的操作, 但是对于字符串的索引却不能做到,因为当我们对字符串进行索引操作时,得到的是字节,而这个结果大概率并不是我们想要得到的结果(如上所述,一个有意义的语言文字字符可能是一个或多个字节组成的)。

所以当我们看到一个字符串时,我们可以选择进行下面的操作:

  • word.bytes(); : 用bytes()函数来获取字符串的UTF-8字节的向量(Vector), 如果你能保证使用的文字只有ASCII码中包含的部分的话, 用索引来获取字符串中的字符也没有问题;
  • word.chars(): 用chars()函数可以获得一个迭代器,可以返回字符串中的每个Unicode标量, 再用例如unicode-segmentation这样的包中提供的函数,来得到有意义的文字符号 。

如果选择使用迭代器来处理字符串的话, 迭代器提供了一个函数nth(), 可以用来替代索引, 例如:

rust 复制代码
word.chars().nth(3)  // 获取word中的第4个Unicode标量

Rust的字符串类型提供了许多现成的函数,用于处理字符串,下面是列出的一些:

相关推荐
同学小张15 小时前
【端侧AI 与 C++】1. llama.cpp源码编译与本地运行
开发语言·c++·aigc·llama·agi·ai-native
踢球的打工仔16 小时前
PHP面向对象(7)
android·开发语言·php
汤姆yu18 小时前
基于python的外卖配送及数据分析系统
开发语言·python·外卖分析
Yue丶越18 小时前
【C语言】字符函数和字符串函数
c语言·开发语言·算法
翔云 OCR API18 小时前
人脸识别API开发者对接代码示例
开发语言·人工智能·python·计算机视觉·ocr
V***u45319 小时前
MS SQL Server partition by 函数实战二 编排考场人员
java·服务器·开发语言
这是程序猿19 小时前
基于java的ssm框架旅游在线平台
java·开发语言·spring boot·spring·旅游·旅游在线平台
芳草萋萋鹦鹉洲哦19 小时前
【elemen/js】阻塞UI线程导致的开关卡顿如何优化
开发语言·javascript·ui
爱学习的小邓同学19 小时前
C++ --- 多态
开发语言·c++
颜*鸣&空19 小时前
QT实现串口通信+VSPD+串口调试工具
开发语言·qt