webserver的http实现

1、用了状态机,为什么要用状态机?
在逻辑处理模块中,响应的http请求采用主从状态机完成,
传统的控制流程都是按照顺序执行的,状态机能够处理任意顺序的事件,并能提供有意义的响应--即使这些事件发生的顺序和预计的不同。
项目中使用主从状态机的模式进行解析, 从状态机负责读取报文的一行,主状态机负责对该行数据进行解析,主状态机内部调用从状态机,从状态机驱动主状态机。
每解析一部分都会将整个请求的check_state状态改变,状态机也就是根据这个状态来进行不同部分的解析跳转的。
2、状态机的转移图画一下

1、主状态机的三种状态,标志解析位置
REQUESTLINE,解析请求行
HEADER,解析请求头
BODY,解析消息体,仅用于解析POST请求
2、从状态机的状态,标识解析一行的读取状态
ParseRequestLine,完整读取一行,该条件涉及解析请求行和请求头部
ParseHeader,报文语法有误
ParseBody,读取的行不完整
3、处理结果
NO_REQUEST:请求不完整,需要继续读取请求报文数据
GET_REQUEST 获得了完整的HTTP请求
BAD_REQUEST HTTP请求报文有语法错误
INTERNAL_ERROR 服务器内部错误
3、状态机的缺点是什么?
状态机的缺点就是 性能比较低 ,一般一个状态做一个事情,性能比较差,在追求高性能的场景下一般不用,高性能场景一般使用 流水线设计。
4、get和post的区别
get主要用来获取数据,而post是提交或修改数据;
get有长度限制(2048字节)而post没有;
get的参数是显式的,get的参数会附加在url之 中,以 " ? "分割url和传输数据,多个参数用 "&"连接;而post是隐式的,post是放在请求体中;
get请求会保存在浏览器历史记录中,也可以保存在web服务器日志中;
get在浏览器回退时是无害的,而post会再次提交请求;
get请求只能进行url编码,而post支持多种编码方式;
get请求的参数数据类型只接受ASCII字符,而post没有限制。
5、http请求怎么拆包?
HTTP请求内容:请求行,请求头,空行,请求体
一个有报文的请求到服务器时,请求头里都会有content_length,这个指定了报文的大小。报文如果很大的时候,会通过一部分一部分的发送请求,直到结束。当这个过程中,出现多个请求,第一个请求会带有请求头信息,前面一个请求的发送的报文如果没有满时,会把后面一个请求的内容填上,这个操作就叫 粘包 。这样粘包后, 它会通过content_length字段的大小,来做拆包。
在post发送大数据量时会分段发,接收端一次接收的只是部分post, 源代码读到len=-1直接开始处理了 ,但实际上还有数据没发过来,在process内判断buffer收到的len和header中的content-length是否匹配,如果不匹配直接返回false,下一个post包发过来接着用buffer收,最后收完了再开始request处理。
6、HTTP的整体流程
浏览器发出http连接请求,主线程创建http对象接收请求同时将所有数据存到对应的buffer,将该对象插入任务队列,工作线程从任务队列中取出一个任务进行处理。
工作线程取出任务后,调用process_read函数,通过主从状态机对请求报文进行解析。
解析完成后,跳转do_request函数生成响应报文,通过process_write写入buffer,返回给浏览器端。
**注意:**在生成的响应报文中并没有返回消息的具体内容,文件也并不在缓冲区,因此传输的时候采取分块写的方式,一块传输buff里面的内容,另一块传输内存映射的文件指针。

7、报文解析的整体流程
1、利用search从缓冲区读取响应的报文片段。
2、建立请求报文的有限状态机,请求报文中一般包含post和get。该有限状态机的作用原理在于每次读取缓冲区中的一行进行匹配,直到状态变为finish。

REQUEST_LINE------ParseRequestLine_(line)
HEADERS------ParseHeader_(line)
BODY------ParseBody_(line)
调用ParsePost();,因为只有post中有请求体

  1. 解析 POST 请求 :检查请求方法和 Content-Type 是否符合条件。
  2. 解析表单数据 :从 URL 编码的请求体中提取用户提交的数据。
    cpp /*URL 编码 是一种用于将数据编码为有效 URL 字符串的方式,其中特殊字符(如空格、&、= 等)会被替换为特定的字符序列: *空格编码为 %20 *特殊字符(如 &, =)不会直接出现在值中,而需要进行编码 *其他特殊字符也会有类似的编码方式,如 %3A 表示冒号 :
  3. 路径判断 :检查路径是否是需要处理的特定页面(如登录或注册页面)。
  4. 登录或注册逻辑 :根据路径进行用户验证,判断是登录还是注册,并根据结果决定跳转的页面。
    8、报文响应的流程(httpresponse):
    httprequest是对读取缓冲区中的可读数据进行解析,
    httpresponse是对缓冲区中的可写数据进行写入。

    响应报文的四个部分:

    9、buffer缓冲区总结:
相关推荐
严文文-Chris7 小时前
【一个HTTP请求和一个HTTP会话的区别】
网络·网络协议·http
ChennyWJS15 小时前
06.HTTPS的实现原理-HTTPS的握手流程(TLS1.3)
网络·数据库·网络协议·http·https
Themberfue17 小时前
HTTP/HTTPS ②-Cookie || Session || HTTP报头
网络·网络协议·计算机网络·http·https
无名之逆1 天前
搭建SSL邮件服务器
开发语言·网络·网络协议·http·https·ssl·request
16年上任的CTO2 天前
一文大白话讲清楚HTTP和HTTPS
网络协议·http·https
flying robot2 天前
小结:DNS,HTTP,SMTP,IMAP,FTP,Telnet,TCP,ARP,ICMP
网络协议·tcp/ip·http
Toormi2 天前
Python实现一个简单的 HTTP echo 服务器
服务器·python·http
多恩Stone2 天前
【HTTP和gRPC的区别】协议类型/传输效率/性能/语义/跨语言支持/安全性/使用场景/易用性对比
网络·网络协议·http
古怪今人2 天前
前端同步发送HTTP请求 Ajax、Fetch和Axios实现HTTP同步请求
前端·http·ajax