【程序员必知必会2】中英文混合超长字符串如何截断(C++)

背景

用户输入的搜索关键词可能是包含中英文、特殊字符混合的字符串,如果长度超长,可能会导致下游服务的报错,需要提前对keyword做截断。

版本一 (只考虑中英文)

cpp 复制代码
bool CutOff(std::string keyword){
      
   int query_length = keyword.length();
  
   // 空结果直接返回
   if(keyword == 0){
       LOG(WARNING) <<"bad query, the length of query is zero";
   return false;
   }

   auto query_max_length=Config::GetMaxKeywordQueryLength()*3;
	// 超过最大长度截断 注:一个汉字长度为3
    if (query_length > query_max_length) {
      const char* query = keyword.c_str();
      int end = 0;
      while (end < query_max_length && end < strlen(query)) {
        int one_word = ((unsigned int)query[end] > 0x80) ? 3 : 1;
        if (end + one_word <= query_max_length) {
          end += one_word;
        } else {
           break;
        }
      }
      keyword = keyword.substr(0, end);
   }
}

版本二(考虑所有字符)

上线后发现请求下游rpc服务时会有INTERNAL错误。原因是keyword中可能包含特殊字符,只按照3字节和1字节的方式取有可能出现将一个字符截取一半,出现乱码的情况。

为了覆盖所有的字符类型,需要了解UTF-8的特点。

  1. UTF-8是一种变长字节编码方式。 对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;
  2. 如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。
  3. UTF-8最多可用到6个字节。

读取每个字符的时候需要根据其首位字节的大小,确定该字符占用了多少字节,再往后取多少字节。

cpp 复制代码
bool CutOff(std::string keyword) {
  int query_length = keyword.length();
  // 空结果直接返回
  if (query_length == 0) {
    LOG(WARNING) << "bad query, the length of query is zero";
    return false;
  }

  auto query_max_length = 300;

  // 超过最大长度,截断
  if (query_length > query_max_length) {
    const char* query = search_context->query.c_str();
    int end = 0;
    int one_word = 0;
    while (end < query_max_length && end < strlen(query)) {
      unsigned char str = (unsigned int)query[end];
      if (str >= 252) {  // 六个字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        one_word = 6;
      } else if (str >= 248) {  // 五个字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        one_word = 5;
      } else if (str >= 240) {  // 四个字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        one_word = 4;
      } else if (str >= 224) {  // 三字节 1110xxxx 10xxxxxx 10xxxxxx
        one_word = 3;
      } else if (str >= 192) {  // 两字节 110xxxxx 10xxxxxx
        one_word = 2;
      } else {  // 单字节 0xxxxxxx
        one_word = 1;
      }

      if (end + one_word <= query_max_length) {
        end += one_word;
      } else {
        break;
      }
    }
    keyword = keyword.substr(0, end);
  }
}
相关推荐
lzjava202413 分钟前
Python的数据结构,推导式、迭代器和生成器
数据结构·windows·python
极客BIM工作室41 分钟前
OCCT gp_Trsf 三维变换类深度剖析:经典设计与底层陷阱
c++
code_pgf42 分钟前
改进模型架构来减少MLLMs中的幻觉现象
人工智能·深度学习·算法
2301_764441331 小时前
基于AI的本地文件归档智能管理工具梳理
人工智能·python·算法·目标检测·交互
醉城夜风~1 小时前
类和对象III
开发语言·c++
无限码力1 小时前
美团研发岗 4月18号笔试真题 - 包包的最长公共子序列3
算法·美团笔试题·美团研发岗笔试题·美团机试题
阿里matlab建模师1 小时前
基于matlab时域频域处理的语音信号变声处理系统设计与算法原理(论文+程序源码+GUI图形用户界面)——变声算法
算法·matlab·语音识别
IMPYLH1 小时前
HTML 的 <abbr> 元素
前端·算法·html
leo__5201 小时前
小波特征与模糊支持向量机(FSVM)的脑电信号分类方法
算法·支持向量机·分类
wabs6662 小时前
关于动态规划【纯粹的0-1背包需要思考的问题】
算法·动态规划