文章目录
IP地址和MAC地址
IP协议有两个版本,IPv4和IPv6,凡是提到IP协议,没有特殊说明的默认都是指IPv4
IP地址是在IP协议中, 用来标识网络中不同主机的地址;
对于IPv4来说, IP地址是一个4字节, 32位的整数;
我们通常也使用 "点分十进制" 的字符串表示IP地址, 例如 192.168.0.1 ; 用点分割的每一个数字表示一个字节, 范围是 0 - 255
MAC:
MAC地址用来识别数据链路层中相连的节点;
长度为48位, 及6个字节. 一般用16进制数字加上冒号的形式来表示(例如: 08:00:27:03:fb:19)
在网卡出厂时就确定了, 不能修改. mac地址通常是唯一的(虚拟机中的mac地址不是真实的mac地址, 可能会冲突; 也有些网卡支持用户配置mac地址)
IP地址可以在局域网和广域网中工作,主要在广域网中使用。MAC地址通常在局域网中使用
源IP地址和目的IP地址
首先要有一个概念:一台主机向另一台主机发送数据时,如果是在同一个局域网中那么可以通过MAC地址就能找到另一台主机。如果是两台主机不是在同一个区域内,那么发送数据的主机就需要通过另一台主机的IP地址来找到它。
因此当数据传送时不仅是有数据,还会发送两台主机各自的IP地址,其中发送数据的主机IP地址就成为源IP,接收数据的主机就称为目的IP
端口号(port)
首先要明确,两台主机之间传递数据并不是传输的真正目的,只是传输的手段而已。真正的目的是实现主机上面的APP通信。例如手机打开抖音的客户端,那么想要看到视频就得接收到抖音服务器端发送过来的数据。那么在系统层面而言,一个可执行程序运行需要被系统加载到内存并创建指定的PCB,也就是进程。因此网络通信的本质可以理解为:基于不同主机之间进程的通信
那么在一台主机中肯定不止是有一个进程,那么从源主机发送过来的数据要怎么样确保是指定的进程接收呢。这就要引入一个概念:端口号
端口号是用来标识进程唯一性的,是一个2字节16位的整数
一个端口号在同一个主机中有且仅有一个对应的进程
综上可以得出,在网络层面上一个主机的一个进程是由IP地址 + 端口号 来标识唯一性的 。那么进程的通信的前提是让进程之间看到同一份公共资源,对于网络通信而言这一份公共资源就是网络
端口号和PID
在系统中,每个进程会有其对应的PID标识其唯一性,那么为什么还要存在端口号呢?其中最主要的目的就是为了解耦,从两个方面进行分析
- PID是由系统规定的,端口号是由网络规定的。并不是所有的进程都需要网络通信的,因此并不是所有的进程都需要端口号,但是所有的进程在系统中一旦被创建就一定需要有PID
- 每一次创建出来的进程的PID都不是固定的,一旦进程被关闭之后再次打开那么其PID是会发生改变的,但是跨主机的网络传输就拿不到每一次打开进程的PID就不能够保证数据的传输能准确无误的传输到指定进程。端口号是不会被改变的,就像现实生活中 110就代表着报警电话,120就代表着急救电话。
一个端口号只能绑定一个进程,但是一个进程可以绑定多个端口号
在网络传输的过程中:不仅会把数据发送,也会把IP地址和端口号一并发送。因为网络的传输不是单向的,数据也是需要被传送回来的 ,除了数据外多出来的那一部分"数据"在传输过程中会以协议的形式呈现
初识TCP/UDP协议
在使用网络套接字编程时一定会遵守协议分层的原则依次往下,第一个遇到的分层为传输层。在传输层中会用到的协议就是TCP/UDP这两种协议
TCP
TCP(Transmission Control Protocol 传输控制协议)
- 传输层协议
- 通信前需要建立连接
- 可靠传输
- 面向字节流
UDP
UDP(User Datagram Protocol 用户数据报协议)
- 传输层协议
- 通信前不需要建立连接
- 不可靠传输
- 面向数据报
可靠/不可靠传输
对于这两种协议的可不可靠并不是褒义词和贬义词,是一个中性的概念
在发送数据时如果出现了丢包的情况,或者数据被重复传递等情况就称为不可靠
那么实现可靠传输是肯定需要成本的,往往代码较为复杂维护成本较高。不可靠传输就较为简单,因此根据使用场景来选择合适的方式即可
网络字节流
在系统内存中存储数据是会有大小端之分的
小端:低权值放在低地址
大端:低权值放在高地址
那么在传输中就会出现问题,两个大小端不同的主机传输数据就会出现数据不明确的问题。因为是跨主机所以并不清楚接收到的数据是按什么端存储的。
因此为了避免这种情况,在网络中规定所有的数据都按照大端的方式 ,发送数据的机器如果不是大端就必须要将数据转换为大端再发送
- 发送主机把发送缓冲区中的数据按内存地址从低到高的顺序发出
- 接收主机把从网络上接到的字节依次保存在接收缓冲区中,也是按内存地址从低到高的顺序保存。也就是说先发出的数据是低地址,后发出的数据是高地址
- TCP/IP协议规定,网络数据流应采用大端字节序,即低地址高字节 不管这台主机是大端机还是小端机, 都会按照这个TCP/IP规定的网络字节序来发送/接收数据;如果当前发送主机是小端, 就需要先将数据转成大端; 否则就忽略, 直接发送即可
在系统中存在着四个接口提供小端转换大端
cpp
#include <arpa/inet.h>
// 主机序列转网络序列
uint16_t htons(uint16_t hostshort);
uint32_t htonl(uint32_t hostlong);
// 网络序列转主机序列
uint16_t ntohs(uint16_t netshort);
uint32_t ntohl(uint32_t netlong);
其中:h表示host,n表示network,l表示32位长整数,s表示16位短整数。主机是大端还是小端,函数内部会自行判断。
理解socket套接字概念
IP地址+端口号能够标识该主机上的唯一的一个进程 :ip和端口号port就叫为套接字,socket就是插座的意思,进行网络通信时就需要插头和插座配套使用
套接字的种类较多,最常见的有三种
- 网络套接字
- 原始套接字
- unix域间套接字
网络套接字主要运用于跨主机之间的通信,也能支持本地通信,而域间套接字只能在本地通信。而原始套接字可以跨过传输(TCP/IP协议)访问底层的数据,为了应对不同的使用场景,设计者们只设计了一套接口根据不同的参数应对不同的使用场景
socket常见API
cpp
// 创建 socket 文件描述符 (TCP/UDP, 客户端 + 服务器)
int socket(int domain, int type, int protocol);
// 绑定端口号 (TCP/UDP, 服务器)
int bind(int socket, const struct sockaddr *address,socklen_t address_len);
// 开始监听socket (TCP, 服务器)
int listen(int socket, int backlog);
// 接收请求 (TCP, 服务器)
int accept(int socket, struct sockaddr* address,socklen_t* address_len);
// 建立连接 (TCP, 客户端)
int connect(int sockfd, const struct sockaddr *addr,socklen_t addrlen);
socket接口参数中的结构体
可以看到上面的接口中会出现一种 struct sockaddr的结构体类型,那么这个结构体是什么呢
struct sockaddr_in(inet,网络通信) 和 struct sockaddr_un(unix,域间通信)这两种就是常见的套接字结构体类型
cpp
struct sockaddr_in {
short int sin_family; // 地址族,一般为AF_INET
unsigned short int sin_port; // 端口号,网络字节序
struct in_addr sin_addr; // IP地址
unsigned char sin_zero[8]; // 用于填充,使sizeof(sockaddr_in)等于16
};
struct sockaddr_un {
sa_family_t sun_family; /* AF_UNIX */
char sun_path[108]; /* 带有路径的文件名 */
};//通过同一个文件的路径来让进程看到同一份资源
通过前两个字节区别两者,16地址类型协议家族的标识符(代表是本地通信还是网络通信)
那既然struct sockaddr_in 是代表网络通信,为什么传参数时传入的却是sockaddr呢。事实上不管是struct sockaddr_in 还是 struct sockaddr_un 传入接口时都会强转成 sockaddr类型,内部实现时再强转回来。
这就好比:sockaddr是基类,struct sockaddr_in和struct sockaddr_un 是派生类