【探索Linux】P.33(HTTP协议)

阅读导航

引言

在上一篇文章中,我们深入探讨了"自定义协议"的概念、原理及其应用,并通过一个实际案例------跨网络计算器,展示了自定义协议如何有效地促进不同网络环境下的设备间通信和数据交换。自定义协议的灵活性和高效性为特定场景下的通信提供了强有力的支持。

今天,我们将转换视角,聚焦于互联网世界中最为广泛使用的一种协议------HTTP协议。HTTP(超文本传输协议)是构建万维网(WWW)的基础,它定义了客户端与服务器之间如何进行数据的传输和沟通。通过本文的介绍,我们将了解HTTP协议的基本结构、工作原理以及它在网络通信中的重要性。让我们一起开始这段关于HTTP协议的学习之旅吧。

一、认识URL

URL 代表着是统一资源定位符(Uniform Resource Locator)。URL 无非就是一个给定的独特资源在 Web 上的地址。理论上说,每个有效的 URL 都指向一个唯一的资源。这个资源可以是一个 HTML 页面,一个 CSS 文档,一幅图像,等等。而在实际中,也有一些例外,最常见的情况就是一个 URL 指向了不存在的或是被移动过的资源。由于通过 URL 呈现的资源和 URL 本身由 Web 服务器处理,因此 web 服务器的拥有者需要认真地维护资源以及与它关联的 URL。

一个 URL 由不同的部分组成,其中一些是必须的,而另一些是可选的。让我们以下面这个 URL 为例看看其中最重要的部分:

  1. http 是协议。它表明了浏览器必须使用何种协议。它通常都是 HTTP 协议或是 HTTP 协议的安全版,即 HTTPS。Web 需要它们二者之一,浏览器也知道如何处理其他协议,比如 mailto:(打开邮件客户端)或者 ftp:(处理文件传输),所以当你看到这些协议时,不必惊讶。
  2. www.example.com 是域名。它表明正在请求哪个 Web 服务器。或者,可以直接使用IP address,但是因为它不太方便,所以它不经常在网络上使用。
  3. :80 是端口。它表示用于访问 Web 服务器上的资源的技术"门"。如果 Web 服务器使用 HTTP 协议的标准端口(HTTP 为 80,HTTPS 为 443)来授予其资源的访问权限,则通常会被忽略。否则是强制性的。
  4. /path/to/myfile.html 是网络服务器上资源的路径。在 Web 的早期阶段,像这样的路径表示 Web 服务器上的物理文件位置。如今,它主要是由没有任何物理现实的 Web 服务器处理的抽象。
  5. ?key1=value1&key2=value2 是提供给网络服务器的额外参数。这些参数是用 & 符号分隔的键/值对列表。在返回资源之前,Web 服务器可以使用这些参数来执行额外的操作。每个 Web 服务器都有自己关于参数的规则,唯一可靠的方式来知道特定 Web 服务器是否处理参数是通过询问 Web 服务器所有者。
  6. #SomewhereInTheDocument 是资源本身的另一部分的锚点。锚点表示资源中的一种"书签",给浏览器显示位于该"加书签"位置的内容的方向。例如,在 HTML 文档上,浏览器将滚动到定义锚点的位置;在视频或音频文档上,浏览器将尝试转到锚代表的时间。

🚨注意后面的部分(也称为片段标识符)从来没有发送到请求的服务器 。上面内容摘自:MDN

在网络通信中,尤其是通过HTTP协议进行数据传输时,经常需要对URL中的某些字符进行编码和解码,以确保数据的正确性和安全性。urlencodeurldecode就是这样两种常用的技术。

二、URL编码和解码

1. Urlencode(URL编码)

urlencode是一种编码机制,用于将非ASCII字符和一些特殊字符转换为可以在URL中安全传输的格式。这是因为URL只允许一小部分字符直接显示,而其他字符可能会引起歧义或被错误地解释。例如,空格' '在URL中通常被视为参数分隔符,而不是字符串的一部分。因此,urlencode会将空格转换为+,或者将其转换为%20这样的百分比编码形式。

在进行urlencode时,以下字符会被保留,不需要编码:

  • 字母(a-zA-Z
  • 数字(0-9
  • - _ . ! ~ * ' ( )

所有其他字符都会被编码为%后跟两位十六进制数的形式。

2. Urldecode(URL解码)

urlencode相对应,urldecode是将编码后的URL转换回原始格式的过程。例如,%20会被解码回空格' '+会被解码回空格,其他编码的字符也会被转换回其原始表示。

  1. 应用场景

    • 表单提交 :在HTML表单中,用户输入的数据需要通过URL或POST请求发送到服务器。urlencode用于确保这些数据在传输过程中不会被误解或损坏。
    • URL参数 :URL中的查询字符串参数经常需要包含特殊字符,使用urlencode可以确保这些参数能够正确地被服务器解析。
    • 数据传输 :在网络应用中,为了确保数据的完整性和准确性,发送方需要对数据进行urlencode,接收方在接收到数据后需要进行urldecode以还原数据的原始形式。
  2. 示例

    • 原始字符串:Hello, World!
    • urlencode后:Hello%2C%20World!
    • urldecode后:Hello, World!

通过urlencodeurldecode,我们可以确保在网络中传输的数据不会因为特殊字符而遭到破坏,从而保证了数据的完整性和安全性。这两种技术在日常网络应用中扮演着至关重要的角色。

三、HTTP的方法

方法 简介 支持HTTP协议版本
GET 请求从服务器获取指定资源的数据。GET请求应该是幂等的,多次执行相同的GET请求应得到相同的结果。 HTTP/1.1
POST 向服务器提交数据,请求服务器处理并可能创建新资源。POST请求可能会导致服务器上数据的改变。 HTTP/1.1
PUT 请求服务器存储一个资源,并用请求体中的内容替换目标资源的所有当前内容。 HTTP/1.1
DELETE 请求服务器删除指定的资源。 HTTP/1.1
HEAD 请求获取与GET请求相同的响应,但没有响应体。HEAD请求主要用于检查资源的元数据。 HTTP/1.1
OPTIONS 请求查询服务器的性能,如询问哪些HTTP方法该服务器支持。 HTTP/1.1
PATCH 请求对资源应用部分修改。PATCH请求主要用于更新资源的一部分,而不是整个资源。 HTTP/1.1, HTTP/2
CONNECT 用于代理服务器,建立到目标服务器的隧道。主要用于HTTPS代理。 HTTP/1.1
TRACE 回显服务器收到的请求,主要用于测试或诊断。 HTTP/1.1

四、HTTP的状态码

下表是一些常见的HTTP状态码

状态码 说明 适用场景
100 Continue 服务端已接收到请求的初始部分,要求客户端继续发送剩余部分。
200 OK 请求成功。常用的状态码之一。
201 Created 请求成功并且服务器创建了新的资源。
202 Accepted 服务器已接受请求,但尚未处理完成。
203 Non-Authoritative Information 服务器已成功处理请求,但返回的信息可能来自另一来源。
204 No Content 服务器成功处理请求,但没有返回任何内容。
205 Reset Content 服务器成功处理请求,且要求客户端重置其文档视图。
206 Partial Content 服务器成功处理了部分请求。
300 Multiple Choices 指示请求的资源有一系列可供选择的回馈信息,用户或浏览器能够自行选择一个首选的地址进行重定向。
301 Moved Permanently 请求的资源已永久移动到新位置,以后应使用资源现在所指的URI。
302 Found 请求的资源现在临时从不同的URI响应请求。
303 See Other 与302类似,但要求始终使用头字段中给出的新的URI进行后续请求。
304 Not Modified 自从上次请求后,请求的资源未修改过。
305 Use Proxy 被请求的资源必须通过指定的代理才能被访问。
307 Temporary Redirect 请求的资源临时从不同的URI响应请求。
400 Bad Request 服务器无法理解请求的格式。
401 Unauthorized 请求要求身份验证。
402 Payment Required 保留有效,但尚未使用。
403 Forbidden 服务器拒绝请求。
404 Not Found 请求失败,服务器找不到请求的资源。
405 Method Not Allowed 禁用请求中指定的方法。
406 Not Acceptable 服务器无法提供请求的响应,因为客户端不接受服务器可以生成的响应格式。
407 Proxy Authentication Required 要求代理身份验证。
408 Request Timeout 服务器在等待客户端发送请求时超时。
409 Conflict 服务器在尝试处理请求时发生冲突。
410 Gone 请求的资源永久性地从服务器上移除了。
411 Length Required 服务器拒绝请求,因为请求没有包含有效的长度头部。
412 Precondition Failed 服务器未满足请求者在请求中设置的其中一个前提条件。
413 Payload Too Large 服务器无法处理请求,因为请求的主体过大。
414 URI Too Long 请求的URI过长,服务器无法处理。
415 Unsupported Media Type 服务器无法处理请求,因为请求的媒体类型不被支持。
416 Range Not Satisfiable 无法满足请求的Range头所指定的范围。
417 Expectation Failed 服务器无法满足请求者在请求中设置的期望值。
500 Internal Server Error 服务器遇到错误,无法完成请求。
501 Not Implemented 服务器不具备完成请求的功能。
502 Bad Gateway 服务器作为网关或代理,从上游服务器收到无效响应。
503 Service Unavailable 服务器目前无法使用(由于超载或停机维护)。
504 Gateway Timeout 服务器作为网关或代理,但是没有及时从上游服务器收到请求。
505 HTTP Version Not Supported 服务器不支持请求中所用的HTTP协议版本。

⭕ 这些状态码是HTTP协议中定义的一部分,用于告知客户端请求的处理结果。状态码分为五个类别:1xx(信息性状态码),2xx(成功状态码),3xx(重定向状态码),4xx(客户端错误状态码)和5xx(服务器错误状态码)。每个状态码都有其特定的含义和用途,帮助开发者和用户理解HTTP请求的结果,并采取相应的措施。

五、HTTP常见Header

头部名称 描述 请求/响应 常见值示例
Host 指定请求的服务器域名和端口号 请求 example.com:80
User-Agent 客户端的用户代理信息 请求 Mozilla/5.0 (Windows NT 10.0; Win64; x64)
Accept 客户端可接受的媒体类型 请求 text/html,application/xhtml+xml,application/xml
Accept-Language 客户端偏好的语言 请求 en-US,en;q=0.5
Accept-Encoding 客户端可接受的压缩格式 请求 gzip, deflate
Connection 指定连接的选项 请求 keep-aliveclose
Content-Type 发送数据的媒体类型 请求/响应 application/x-www-form-urlencoded
Content-Length 请求体的长度 请求/响应 123
Authorization 认证信息 请求 Basic YWRtaW46YWRtaW4= (基本认证示例)
Cache-Control 请求和响应的缓存指令 请求/响应 no-cache, no-store, must-revalidate
Cookie 客户端发送的cookie信息 请求 sessionid=abc123; username=johndoe
Server 服务器软件信息 响应 Apache/2.4.7 (Unix)
Set-Cookie 服务器设置新的cookie 响应 sessionid=abc123; expires=Sat, 10 Apr 2021 08:00:00 GMT
WWW-Authenticate 认证挑战信息 响应 Basic realm="Restricted Area"
Date 响应生成的日期和时间 响应 Tue, 07 Apr 2025 16:00:00 GMT
Last-Modified 资源最后修改的时间 响应 Tue, 07 Apr 2025 15:00:00 GMT
ETag 资源的特定版本标识符 响应 "xyz123"

请注意,上表中的"常见值示例"列仅提供了可能的值,并不是完整的头部字段值。实际的头部字段值可能会根据具体的应用场景和需求而有所不同。

六、最简单的HTTP服务器

cpp 复制代码
#include <sys/socket.h>  // 引入套接字相关的头文件
#include <netinet/in.h>    // 引入处理IPv4地址的头文件
#include <arpa/inet.h>     // 引入INET相关函数的头文件
#include <unistd.h>        // 引入UNIX标准函数,如close()
#include <stdio.h>         // 引入标准输入输出头文件
#include <string.h>        // 引入字符串处理函数的头文件
#include <stdlib.h>        // 引入标准库函数,如atoi()

// 打印服务器的使用方法
void Usage() {
    printf("usage: ./server [ip] [port]\n");
}

int main(int argc, char* argv[]) {
    // 确保命令行参数数量正确(应为3个:程序名、IP地址和端口号)
    if (argc != 3) {
        Usage();
        return 1;
    }

    // 创建一个基于IPv4的TCP套接字
    int fd = socket(AF_INET, SOCK_STREAM, 0);
    if (fd < 0) {
        perror("socket"); // 如果创建失败,打印错误信息
        return 1;
    }

    struct sockaddr_in addr; // 定义一个地址结构体
    addr.sin_family = AF_INET; // 设置为IPv4地址族
    addr.sin_addr.s_addr = inet_addr(argv[1]); // 设置IP地址
    addr.sin_port = htons(atoi(argv[2])); // 设置端口号,并转换为网络字节序

    // 将套接字绑定到指定的IP地址和端口
    int ret = bind(fd, (struct sockaddr*)&addr, sizeof(addr));
    if (ret < 0) {
        perror("bind"); // 如果绑定失败,打印错误信息
        return 1;
    }

    // 开始监听传入的连接,允许最多10个连接同时等待
    ret = listen(fd, 10);
    if (ret < 0) {
        perror("listen"); // 如果监听失败,打印错误信息
        return 1;
    }

    // 无限循环,持续接受客户端的连接
    for (;;) {
        struct sockaddr_in client_addr; // 定义客户端地址结构体
        socklen_t len = sizeof(client_addr); // 定义长度变量
        // 接受一个客户端连接,并将客户端的地址信息存储在client_addr中
        int client_fd = accept(fd, (struct sockaddr*)&client_addr, &len);
        if (client_fd < 0) {
            perror("accept"); // 如果接受连接失败,打印错误信息
            continue; // 继续下一次循环
        }

        // 定义一个缓冲区,用于存储从客户端读取的数据
        char input_buf[1024 * 10] = {0};
        // 从客户端读取数据,最多读取缓冲区大小-1字节
        ssize_t read_size = read(client_fd, input_buf, sizeof(input_buf) - 1);
        if (read_size < 0) {
            perror("read"); // 如果读取失败,打印错误信息
            close(client_fd); // 关闭客户端套接字
            continue; // 继续下一次循环
        }

        // 打印接收到的请求
        printf("[Request] %s\n", input_buf);

        // 定义一个缓冲区,用于存储响应数据
        char buf[1024] = {0};
        // 定义要发送的HTML内容
        const char* hello = "<h1>hello world</h1>";
        // 格式化HTTP响应消息,包括HTTP头部和HTML内容
        sprintf(buf, "HTTP/1.0 200 OK\nContent-Length:%lu\n\n%s", strlen(hello), hello);
        // 将响应消息发送回客户端
        write(client_fd, buf, strlen(buf));

        // 关闭客户端套接字
        close(client_fd);
    }

    // 关闭服务器套接字
    close(fd);

    return 0; // 正常退出
}

这段代码是一个简单的HTTP服务器实现,它监听指定的IP地址和端口上的TCP连接,并响应每个连接以"Hello, World!"页面,服务器使用标准的套接字API来处理网络通信。

温馨提示

感谢您对博主文章的关注与支持!如果您喜欢这篇文章,可以点赞、评论和分享给您的同学,这将对我提供巨大的鼓励和支持。另外,我计划在未来的更新中持续探讨与本文相关的内容。我会为您带来更多关于Linux以及C++编程技术问题的深入解析、应用案例和趣味玩法等。如果感兴趣的话可以关注博主的更新,不要错过任何精彩内容!

再次感谢您的支持和关注。我们期待与您建立更紧密的互动,共同探索Linux、C++、算法和编程的奥秘。祝您生活愉快,排便顺畅!

相关推荐
小歆88416 分钟前
100%全国产化时钟服务器、全国产化校时服务器、全国产化授时服务器
运维·服务器
涛ing1 小时前
21. C语言 `typedef`:类型重命名
linux·c语言·开发语言·c++·vscode·算法·visual studio
翻滚吧键盘1 小时前
debian中apt的配置与解析
运维·debian
0xfather1 小时前
在Debian系统中安装Debian(Linux版PE装机)
linux·服务器·debian
workingman_li1 小时前
centos虚拟机异常关闭,导致数据出现问题
linux·运维·centos
Fireworkitte2 小时前
linux环境变量配置文件区别 /etc/profile和~/.bash_profile
linux
Jackson~Y2 小时前
Linux(LAMP)
linux·运维·服务器
不知 不知2 小时前
最新-CentOS 7安装1 Panel Linux 服务器运维管理面板
linux·运维·服务器·centos
湫qiu3 小时前
带你写HTTP/2, 实现HTTP/2的编码
java·后端·http
晚秋贰拾伍4 小时前
设计模式的艺术-职责链模式
运维·设计模式·运维开发·责任链模式·开闭原则·单一职责原则