【高并发服务器】三、正则表达式的使用

文章目录

推荐阅读链接

Ⅰ. 什么是正则表达式

​ 正则表达式(regular expression )描述了一种 字符串匹配的模式pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

​ 简单地说,就是正则表达式的作用就是找到一个字符串中我们需要的部分!

​ 正则表达式的使用,可以 使得 HTTP 请求的解析更加简单 (这里指的时程序员的工作变得的简单,这 并不代表处理效率会变高 ,实际上效率上是低于直接的字符串处理的),使我们实现的 HTTP 组件库使用起来更加灵活,我们就不需要像之前那样用朴素的字符串操作解析请求了!

Ⅱ. c++中的正则表达式库

推荐阅读:

​ 需要注意的是:C++ 中,反斜杠 \ 是一个特殊字符,需要进行转义 ,以表示正则表达式模式中的特殊字符。比如要匹配一个或多个数字字符,我们 需要使用 \\d+,而不是 \d+

​ 对字符串内容进行匹配的最常见手段就是使用正则表达式。 可惜在传统 C++ 中正则表达式一直没有得到语言层面的支持,没有纳入标准库, 而 C++ 作为一门高性能语言,在后台服务的开发中,对 URL 资源链接进行判断时, 使用正则表达式也是工业界最为成熟的普遍做法。

​ 一般的解决方案就是使用 boost 的正则表达式库。 而 C++11 正式将正则表达式的的处理方法纳入标准库的行列,从语言级上提供了标准的支持, 不再依赖第三方。

C++11 提供的正则表达式库操作 std::string 对象, 模式 std::regex (本质是 std::basic_regex)进行初始化, 通过 std::regex_match 进行匹配, 从而产生 std::smatch(本质是 std::match_results 对象)。

我们通过一个简单的例子来简单介绍这个库的使用。考虑下面的正则表达式:

  • [a-z]+\.txt: 在这个正则表达式中, [a-z] 表示匹配一个小写字母, + 可以使前面的表达式匹配多次, 因此 [a-z]+ 能够匹配一个小写字母组成的字符串。 在正则表达式中一个 . 表示匹配任意字符,而 \. 则表示匹配字符 ., 最后的 txt 表示严格匹配 txt 则三个字母。因此这个正则表达式的所要匹配的内容就是由纯小写字母组成的文本文件。

​ 其中 std::regex_match 用于匹配字符串和正则表达式,有很多不同的重载形式。 最简单的一个形式就是传入 std::string 以及一个 std::regex 进行匹配, 当匹配成功时,会返回 true,否则返回 false。例如:

cpp 复制代码
#include <iostream>
#include <string>
#include <regex>
using namespace std;

int main()
{
    string fnames[] = {"foo.txt", "bar.txt", "test", "a0.txt", "AAA.txt"};
    
    // 在 C++ 中 \ 会被作为字符串内的转义符
    // 为使 \. 作为正则表达式传递进去生效,需要对 \ 进行二次转义,从而有 \\.
    regex txt_regex("[a-z]+\\.txt");

    for(const auto& fname : fnames)
    {
        cout << fname << " : " << regex_match(fname, txt_regex) << endl;
    }
    return 0;
}

// 执行结果:
[liren@VM-8-7-centos test]$ ./regex 
foo.txt : 1
bar.txt : 1
test : 0
a0.txt : 0
AAA.txt : 0

​ 另一种常用的形式就是依次传入 std::stringstd::smatchstd::regex 三个参数, 其中 std::smatch 的本质其实是 std::match_results 也就是匹配结果集。 故而在标准库的实现中, std::smatch 被定义为了 std::match_results<std::string::const_iterator>, 也就是一个子串迭代器类型的 match_results。 使用 std::smatch 可以方便的对匹配的结果进行获取,例如:

cpp 复制代码
#include <iostream>
#include <string>
#include <regex>

int main()
{
    std::string fnames[] = {"foo.txt", "bar.txt", "test", "a0.txt", "AAA.txt"};
    
    std::regex base_regex("([a-z]+)\\.txt"); // 将其中的[a-z]+部分单独获取到结果集中
    std::smatch base_match;
    for(const auto &fname: fnames) 
    {
        if (std::regex_match(fname, base_match, base_regex)) 
        {
            // std::smatch 的第一个元素匹配整个字符串
            // std::smatch 的第二个元素匹配了第一个括号表达式
            if (base_match.size() == 2) 
            {
                std::cout << "sub-match[0]: " << base_match[0].str() << std::endl;
                std::cout << fname << " sub-match[1]: " << base_match[1].str() << std::endl;
            }
        }
    }
    return 0;
}

// 执行结果:
[liren@VM-8-7-centos test]$ ./regex 
sub-match[0]: foo.txt
foo.txt sub-match[1]: foo
sub-match[0]: bar.txt
bar.txt sub-match[1]: bar

尝试对简单的请求报头解析

​ 这里我们对简单的请求报头解析一下,所以只是一个 demo 演示!

​ 一个简单的 http 请求行大概是这样子:请求类型 + URI + 版本 ,最后别忘了接上一个 \r\n 表示边界!

cpp 复制代码
std::string str = "GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1\r\n";

​ 根据请求报头的格式,可以这样子解析:

cpp 复制代码
#include <iostream>
#include <string>
#include <regex>

int main()
{
    std::string req = "GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1\r\n";
    
    std::smatch base_match; // 结果集

    // (GET|POST|HEAD|PUT|DELETE)   表示匹配并提取其中任意一个字符串
    // [^?]*                        [^?] 匹配非问号字符,后边的*表示 0次或多次
    // \\?(.*)                      \\? 表示原始的 ? 字符,(.*)表示提取 ? 之后的任意字符 0 次或多次,直到遇到空格
    // (?:\\?(.*))?                 表示匹配了上一条内容 0 次或 1 次,并且不获取该内容
    // HTTP/1\\.[01]                表示匹配以 HTTP/1. 开始,后边有个 0 或 1 的字符串
    // (?:\n|\r\n)?                 (?: ...) 表示匹配某个格式字符串,但是不提取,最后的 ? 表示的是匹配前边的表达式 0 次或 1 次
    std::regex base_regex("(GET|POST|HEAD|PUT|DELETE) ([^?]*)(?:\\?(.*))? (HTTP/1\\.[01])(?:\n|\r\n)?");

    // 进行匹配
    bool ret = std::regex_match(req, base_match, base_regex);
    if(ret == false)
        return -1;
    
    // 输出匹配内容
    for(int i = 0; i < base_match.size(); ++i)
    {
        std::cout << i << " : ";
        std::cout << base_match[i] << std::endl;
    }

    return 0;
}

// 执行结果:
[liren@VM-8-7-centos test]$ ./regex 
0 : GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1

1 : GET
2 : /liren/login
3 : user=xiaoming&pass=123123
4 : HTTP/1.1
相关推荐
芝士小宇2 小时前
tcp 服务器的设计思路
服务器·网络·tcp/ip
wu~9702 小时前
web服务器有哪些?服务器和web服务器有什么区别
运维·服务器·前端
₯㎕星空&繁华2 小时前
阿里云服务器安装MySQL服务器
服务器·ubuntu·阿里云·云计算
爱倒腾的老唐2 小时前
13、Linux 基本权限
linux·运维·服务器
cililin3 小时前
第4章 文件管理
linux·服务器·网络·操作系统·unix
小何好运暴富开心幸福3 小时前
C++之再谈类与对象
开发语言·c++·vscode
郝学胜-神的一滴4 小时前
中秋特别篇:使用QtOpenGL和着色器绘制星空与满月
开发语言·c++·算法·软件工程·着色器·中秋
薰衣草23334 小时前
linux练习-2
linux·运维·服务器
驰羽4 小时前
C++网络编程(三)TCP通信流程
服务器·网络·tcp/ip