网络通信另个角度的认识(进程间通信),端口号(为什么要有,和pid的关系,分类,如何封装,和进程的定位原理+对应关系),客户端如何拿到服务端的port

另一个角度认识网络通信

端口号

[引入 -- 为什么要有端口号](#引入 -- 为什么要有端口号)

问题

另一个角度认识网络通信

前面我们总是说,主机a和主机b之间进行通信,但网络通信实际上真的是两台主机设备在进行通信吗?

不是的,设备之间的通信,是我们进行网络通信的基本保证

而进行通信是需要用户使用应用层软件,来进行数据的发送和接收

而软件启动起来,也就是创建了进程

所以,网络通信的本质是通过网络协议栈,借助主机的通信能力,使运行在两台主机上的两个进程能够进行数据的发送和接收

相当于在两台设备上创建了两个进程,通过网络进行进程间通信

所以,我们日常的网络间通信也可以叫进程间通信

进程间通信我们熟悉啊,有很多种方式可以实现(管道,共享内存等)

而其本质就是让通信双方看见同一份资源,这份资源作为中间介质

而网络通信的公共资源就是网络 (一个向网络里写,一个从网络里读),提供的方法也就是网络协议栈

端口号

引入 -- 为什么要有端口号

问题

我们可以使用各种应用层软件,来向其他下载了该软件的人发送消息

如果对方也运行了该软件,数据就可以通过两次贯穿协议栈,将数据从服务器运输过去,对方就会显示收到了消息

假设a和b通信不需要经过服务器:

当a发给b的数据运输到b设备的传输层后,传输层肯定是要发送给微信进程的

不然发给其他软件也无法解析出有效载荷/数据被直接丢弃

但是运行的应用那么多,数据经过的都是同一个网络协议栈,它如何知道发送上层的哪一个应用呢?

解决

这种一对多的关系就必须要有可以定位的字段,也就是端口号

我们为需要网络服务的进程分配唯一的端口号(比如我们眼熟的8080,3306等等)

端口号和pid

两者都用来标识本地主机上唯一的进程,那为什么要再来一个端口号呢?

从技术角度来说,使用pid作为网络中标识进程的字段,是完全可以的

但为什么没有这样设计呢?

如果这样设计,进程管理和网络管理就会耦合,那么一旦系统修改,网络也会跟着受影响

所以就为网络功能单独设计了一个字段

举例

就像,明明身份证已经可以唯一表示我们的个人身份了,进入学校依然会有学号,进入公司会有工号

就是为了防止如果身份证取消使用了,改成了其他方式标识每个人,那么学校/公司的管理系统就得跟着改

所以,不如就直接自己规定一个字段

介绍

端口号是一个2字节16位的整数

范围是 $0,65535=2\^16$

分类

端口号会大致分为三类:

知名端口

$0,1023$ 被系统保留给一些广泛使用的协议和服务

例如http(端口80),https(端口443),ftp(端口21),ssh(端口22)等

就像打电话的时候,110是报警电话,119是火警电话,他们都是强相关的

需要使用root权限才可以使用这个范围内的端口

注册端口

$1024,49151$ 用于用户注册的应用程序，也就是说，由一些软件开发者和组织注册使用

例如,mysql(端口3306)

动态端口

为客户端应用程序动态分配的，通常用于临时性的连接

大多数操作系统动态选择一个空闲的端口分配给客户端应用程序，以便进行通信

客户端如何知道服务端的端口号

每次的网络行为,都是我们用户主动向服务端发起的

比如:打开某网页,播放某视频等等

那这样看的话,我们其实是无法得知服务端的端口号的,又是如何完成通信的呢?

即使你说可能是服务端提前告诉我们的,那服务端又是如何得知我们客户端的端口号呢?

所以就只能是 -- 每一个服务的端口号都是约定好的,被客户端知晓的

比如:mysql的默认端口号是3306

所以,是在app开发时,就将服务端的端口号内置进去了

封装端口号

有了端口号,就可以在 $a使用设备的传输层的报头$ 里存放目标端口号(因为问题就出在传输层)

当报文传到b设备的传输层时,就可以解析出端口号,然后将有效载荷交给端口号匹配的进程

同理,也需要存放源端口号

当b回复消息时,需要这个源端口号来定位

在b设备的传输层将源/目的端口号反过来存,就可以准确将有效载荷交给a设备中对应的进程

定位原理

定位的原理类似于哈希表

传输层里会有一张表,里面存放着task_struct*指针,指向进程tcb

当进程分配到一个端口号后,就经过哈希运算,映射到表中某一位置

如果已经被占用,就需要重新分配 ; 如果未占用,就将该进程的指针放入该位置中

当有数据发送过来的时候,就可以直接将解析出的目的端口号 进行哈希运算 -> 拿到映射的位置,也就找到了指定的那个进程

进程和端口号的对应关系

一个进程可以绑定多个端口号

只要保证自底向上是唯一的就行

也可以用哈希表的角度来思考,一个位置只能存一个指针,但可以在多个位置存同一个tcb指针

反过来说,一个端口号只能绑定一个进程

不然如何确定报文交给谁呢?

数据如何被上层进程读到

和进程读取文件内容的原理是一样的(也就是每个进程会有专门存放文件数据的缓冲区)

(别忘了网卡和磁盘都是底层硬件,操作他俩的原理大差不差)

将本层的有效载荷交给对方进程用来存放网络数据的缓冲区即可

然后上层就可以以类似读取文件的方式拿到数据 (以tcp协议的形式)