【高并发服务器】三、正则表达式的使用

文章目录

- - 推荐阅读链接
[Ⅰ. 什么是正则表达式](#Ⅰ. 什么是正则表达式)
[Ⅱ. c++中的正则表达式库](#Ⅱ. c++中的正则表达式库)
- 尝试对简单的请求报头解析

Ⅰ. 什么是正则表达式

正则表达式（regular expression ）描述了一种 字符串匹配的模式 （pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

简单地说，就是正则表达式的作用就是找到一个字符串中我们需要的部分！

正则表达式的使用，可以 使得 HTTP 请求的解析更加简单 （这里指的时程序员的工作变得的简单，这 并不代表处理效率会变高 ，实际上效率上是低于直接的字符串处理的），使我们实现的 HTTP 组件库使用起来更加灵活，我们就不需要像之前那样用朴素的字符串操作解析请求了！

Ⅱ. c++中的正则表达式库

推荐阅读：

需要注意的是：在 C++ 中，反斜杠 \ 是一个特殊字符，需要进行转义 ，以表示正则表达式模式中的特殊字符。比如要匹配一个或多个数字字符，我们 需要使用 \\d+，而不是 \d+。

对字符串内容进行匹配的最常见手段就是使用正则表达式。可惜在传统 C++ 中正则表达式一直没有得到语言层面的支持，没有纳入标准库，而 C++ 作为一门高性能语言，在后台服务的开发中，对 URL 资源链接进行判断时，使用正则表达式也是工业界最为成熟的普遍做法。

一般的解决方案就是使用 boost 的正则表达式库。而 C++11 正式将正则表达式的的处理方法纳入标准库的行列，从语言级上提供了标准的支持，不再依赖第三方。

C++11 提供的正则表达式库操作 std::string 对象，模式 std::regex (本质是 std::basic_regex）进行初始化，通过 std::regex_match 进行匹配，从而产生 std::smatch（本质是 std::match_results 对象）。

我们通过一个简单的例子来简单介绍这个库的使用。考虑下面的正则表达式:

[a-z]+\.txt: 在这个正则表达式中, [a-z] 表示匹配一个小写字母, + 可以使前面的表达式匹配多次，因此 [a-z]+ 能够匹配一个小写字母组成的字符串。在正则表达式中一个 . 表示匹配任意字符，而 \. 则表示匹配字符 .，最后的 txt 表示严格匹配 txt 则三个字母。因此这个正则表达式的所要匹配的内容就是由纯小写字母组成的文本文件。

其中 std::regex_match 用于匹配字符串和正则表达式，有很多不同的重载形式。最简单的一个形式就是传入 std::string 以及一个 std::regex 进行匹配，当匹配成功时，会返回 true，否则返回 false。例如：

cpp 复制代码

#include <iostream>
#include <string>
#include <regex>
using namespace std;

int main()
{
    string fnames[] = {"foo.txt", "bar.txt", "test", "a0.txt", "AAA.txt"};
    
    // 在 C++ 中 \ 会被作为字符串内的转义符
    // 为使 \. 作为正则表达式传递进去生效，需要对 \ 进行二次转义，从而有 \\.
    regex txt_regex("[a-z]+\\.txt");

    for(const auto& fname : fnames)
    {
        cout << fname << " : " << regex_match(fname, txt_regex) << endl;
    }
    return 0;
}

// 执行结果：
[liren@VM-8-7-centos test]$ ./regex 
foo.txt : 1
bar.txt : 1
test : 0
a0.txt : 0
AAA.txt : 0

另一种常用的形式就是依次传入 std::string、std::smatch、std::regex 三个参数，其中 std::smatch 的本质其实是 std::match_results 也就是匹配结果集。故而在标准库的实现中， std::smatch 被定义为了 std::match_results<std::string::const_iterator>，也就是一个子串迭代器类型的 match_results。使用 std::smatch 可以方便的对匹配的结果进行获取，例如：

cpp 复制代码

#include <iostream>
#include <string>
#include <regex>

int main()
{
    std::string fnames[] = {"foo.txt", "bar.txt", "test", "a0.txt", "AAA.txt"};
    
    std::regex base_regex("([a-z]+)\\.txt"); // 将其中的[a-z]+部分单独获取到结果集中
    std::smatch base_match;
    for(const auto &fname: fnames) 
    {
        if (std::regex_match(fname, base_match, base_regex)) 
        {
            // std::smatch 的第一个元素匹配整个字符串
            // std::smatch 的第二个元素匹配了第一个括号表达式
            if (base_match.size() == 2) 
            {
                std::cout << "sub-match[0]: " << base_match[0].str() << std::endl;
                std::cout << fname << " sub-match[1]: " << base_match[1].str() << std::endl;
            }
        }
    }
    return 0;
}

// 执行结果：
[liren@VM-8-7-centos test]$ ./regex 
sub-match[0]: foo.txt
foo.txt sub-match[1]: foo
sub-match[0]: bar.txt
bar.txt sub-match[1]: bar

尝试对简单的请求报头解析

这里我们对简单的请求报头解析一下，所以只是一个 demo 演示！

一个简单的 http 请求行大概是这样子：请求类型 + URI + 版本 ，最后别忘了接上一个 \r\n 表示边界！

cpp 复制代码

std::string str = "GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1\r\n";

根据请求报头的格式，可以这样子解析：

cpp 复制代码

#include <iostream>
#include <string>
#include <regex>

int main()
{
    std::string req = "GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1\r\n";
    
    std::smatch base_match; // 结果集

    // (GET|POST|HEAD|PUT|DELETE)   表示匹配并提取其中任意一个字符串
    // [^?]*                        [^?] 匹配非问号字符，后边的*表示 0次或多次
    // \\?(.*)                      \\? 表示原始的 ? 字符，(.*)表示提取 ? 之后的任意字符 0 次或多次，直到遇到空格
    // (?:\\?(.*))?                 表示匹配了上一条内容 0 次或 1 次，并且不获取该内容
    // HTTP/1\\.[01]                表示匹配以 HTTP/1. 开始，后边有个 0 或 1 的字符串
    // (?:\n|\r\n)?                 (?: ...) 表示匹配某个格式字符串，但是不提取，最后的 ? 表示的是匹配前边的表达式 0 次或 1 次
    std::regex base_regex("(GET|POST|HEAD|PUT|DELETE) ([^?]*)(?:\\?(.*))? (HTTP/1\\.[01])(?:\n|\r\n)?");

    // 进行匹配
    bool ret = std::regex_match(req, base_match, base_regex);
    if(ret == false)
        return -1;
    
    // 输出匹配内容
    for(int i = 0; i < base_match.size(); ++i)
    {
        std::cout << i << " : ";
        std::cout << base_match[i] << std::endl;
    }

    return 0;
}

// 执行结果：
[liren@VM-8-7-centos test]$ ./regex 
0 : GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1

1 : GET
2 : /liren/login
3 : user=xiaoming&pass=123123
4 : HTTP/1.1

【高并发服务器】三、正则表达式的使用

文章目录

推荐阅读链接

Ⅰ. 什么是正则表达式

Ⅱ. c++中的正则表达式库

尝试对简单的请求报头解析