网络-内核是如何与用户进程交互

1、socket的直接创建

cpp 复制代码

net/socket.c

SYSCALL_DEFINE3(socket, int, family, int, type, int, protocol)
{
	...
	retval = sock_create(family, type, protocol, &sock);
	...
}

int sock_create(int family, int type, int protocol, struct socket **res)
{
	return __sock_create(current->nsproxy->net_ns, family, type, protocol, res, 0);
}

int __sock_create(struct net *net, int family, int type, int protocol,
			 struct socket **res, int kern)
{
	int err;
	struct socket *sock;
	const struct net_proto_family *pf;
	...
	//分配socket对象
	sock = sock_alloc();
	...
	//获取对应协议簇的操作表
	pf = rcu_dereference(net_families[family]);
	...
	//调用协议簇的创建函数，对于AF_INET对应的是inet_create,这个函数在inet_init函数中被初始化
	err = pf->create(net, sock, protocol, kern);
	...
}
EXPORT_SYMBOL(__sock_create);

socket在内核中是怎么创建的？

sock_create->__sock_create->inet_create

在__sock_create里首先调用sock_alloc来分配一个struct sock内核对象，接着获取协议簇的操作函数表，调用其create方法。对于AF_INET协议簇来说，执行到的是inet_create函数。

cpp 复制代码

static int inet_create(struct net *net, struct socket *sock, int protocol,
                       int kern)
{
	struct sock *sk;            // 指向 sock 结构体，表示套接字
	struct inet_protosw *answer; // 指向 inet_protosw 结构体，表示协议开关
	struct inet_sock *inet;     // 指向 inet_sock 结构体，表示 IPv4 套接字
	struct proto *answer_prot;  // 指向 proto 结构体，表示协议操作
	unsigned char answer_flags;  // 协议开关标志
	int try_loading_module = 0;  // 尝试加载模块的次数
	int err;                    // 用于存储函数返回值

	/*
	 * 检查协议号是否在有效范围内。
	 * 如果不在，返回 -EINVAL 错误。
	 */
	if (protocol < 0 || protocol >= IPPROTO_MAX)
		return -EINVAL;

	/*
	 * 初始化套接字状态为未连接。
	 */
	sock->state = SS_UNCONNECTED;

	/*
	 * 查找请求的类型/协议对。
	 * 首先尝试在 RCU 读锁保护下查找协议。
	 */
lookup_protocol:
	err = -ESOCKTNOSUPPORT; // 设置错误为"不支持的套接字类型"
	rcu_read_lock();        // 锁定 RCU 读锁

	/*
	 * 遍历协议开关列表，查找匹配的协议。
	 * 如果找到匹配的协议，跳出循环。
	 */
	list_for_each_entry_rcu(answer, &inetsw[sock->type], list) {
		if (protocol == answer->protocol) {
			if (protocol != IPPROTO_IP)
				break;
		} else {
			if (IPPROTO_IP == protocol) {
				protocol = answer->protocol;
				break;
			}
			if (IPPROTO_IP == answer->protocol)
				break;
		}
		err = -EPROTONOSUPPORT; // 设置错误为"不支持的协议"
	}

	/*
	 * 如果没有找到匹配的协议，尝试加载相应的模块。
	 * 如果模块加载后，再次尝试查找协议。
	 */
	if (unlikely(err)) {
		if (try_loading_module < 2) {
			rcu_read_unlock(); // 解锁 RCU 读锁
			if (++try_loading_module == 1)
				request_module("net-pf-%d-proto-%d-type-%d",
					       PF_INET, protocol, sock->type);
			else
				request_module("net-pf-%d-proto-%d",
					       PF_INET, protocol);
			goto lookup_protocol; // 重新查找协议
		} else {
			goto out_rcu_unlock; // 如果模块加载失败，跳转到错误处理
		}
	}

	/*
	 * 检查是否允许非内核进程创建原始套接字。
	 * 如果不允许，返回 -EPERM 错误。
	 */
	err = -EPERM;
	if (sock->type == SOCK_RAW && !kern &&
	    !ns_capable(net->user_ns, CAP_NET_RAW))
		goto out_rcu_unlock;

	/*
	 * 设置套接字的操作函数和协议。
	 */
	sock->ops = answer->ops;
	//获得tcp_port
	answer_prot = answer->prot;
	answer_flags = answer->flags;
	rcu_read_unlock(); // 解锁 RCU 读锁

	/*
	 * 分配套接字内存。
	 * 如果分配失败，返回 -ENOBUFS 错误。
	 */
	err = -ENOBUFS;
	sk = sk_alloc(net, PF_INET, GFP_KERNEL, answer_prot, kern);
	if (!sk)
		goto out;

	/*
	 * 初始化套接字。
	 */
	err = 0;
	if (INET_PROTOSW_REUSE & answer_flags)
		sk->sk_reuse = SK_CAN_REUSE; // 设置套接字重用标志

	inet = inet_sk(sk); // 获取 IPv4 套接字结构体
	inet->is_icsk = (INET_PROTOSW_ICSK & answer_flags) != 0; // 设置是否为控制套接字

	// 初始化其他 IPv4 特定字段
	inet->nodefrag = 0;
	if (SOCK_RAW == sock->type) {
		inet->inet_num = protocol;
		if (IPPROTO_RAW == protocol)
			inet->hdrincl = 1;
	}
	if (net->ipv4.sysctl_ip_no_pmtu_disc)
		inet->pmtudisc = IP_PMTUDISC_DONT;
	else
		inet->pmtudisc = IP_PMTUDISC_WANT;
	inet->inet_id = 0;

	// 关联套接字和协议
	sock_init_data(sock, sk);

	sk->sk_destruct	   = inet_sock_destruct;
	sk->sk_protocol	   = protocol;
	sk->sk_backlog_rcv = sk->sk_prot->backlog_rcv;

	inet->uc_ttl	= -1;
	inet->mc_loop	= 1;
	inet->mc_ttl	= 1;
	inet->mc_all	= 1;
	inet->mc_index	= 0;
	inet->mc_list	= NULL;
	inet->rcv_tos	= 0;

	sk_refcnt_debug_inc(sk); // 增加套接字引用计数

	// 如果设置了特定协议号，添加到协议哈希链
	if (inet->inet_num) {
		err = sk->sk_prot->hash(sk);
		if (err) {
			sk_common_release(sk);
			goto out;
		}
	}

	// 如果协议需要，调用协议的初始化函数
	if (sk->sk_prot->init) {
		err = sk->sk_prot->init(sk);
		if (err) {
			sk_common_release(sk);
			goto out;
		}
	}

	// 对于非内核进程，运行 BPF cgroup 套接字挂钩程序
	if (!kern) {
		err = BPF_CGROUP_RUN_PROG_INET_SOCK(sk);
		if (err) {
			sk_common_release(sk);
			goto out;
		}
	}
out:
	return err; // 返回结果
out_rcu_unlock:
	rcu_read_unlock(); // 解锁 RCU 读锁
	goto out; // 跳转到函数出口
}

在inet_create中根据类型SOCK_STREAM查找到对于TCP定义的操作方法实现集合inet_stream_ops和tcp_port，并把它们分别设置到socket->ops和sock->sk_port上。

cpp 复制代码

void sock_init_data(struct socket *sock, struct sock *sk)
{
	/* 初始化套接字通用字段 */
	sk_init_common(sk);
	...
	/* 设置套接字的接收和发送缓冲区大小 */
	sk->sk_rcvbuf = sysctl_rmem_default; // 接收缓冲区默认大小
	sk->sk_sndbuf = sysctl_wmem_default; // 发送缓冲区默认大小
	...
	/* 设置套接字状态为 TCP_CLOSE（关闭状态） */
	sk->sk_state = TCP_CLOSE;

	/* 将套接字与 socket 结构体关联 */
	sk_set_socket(sk, sock);
	/* 设置套接字的回调函数 */
	//当套接字的状态发生变化时，这个回调函数被调用。例如，套接字从监听状态变为已连接状态，或者从已连接状态变为关闭状态。
	sk->sk_state_change = sock_def_wakeup;
	//当套接字接收队列中有数据可读时，这个回调函数被调用。它通知套接字数据已经准备好，可以被用户空间读取。
	sk->sk_data_ready = sock_def_readable;
	//当套接字的发送队列有足够的空间来接受新的数据时，这个回调函数被调用。它通知套接字发送缓冲区不再满，可以发送更多数据。
	sk->sk_write_space = sock_def_write_space;
	//当套接字遇到错误时，这个回调函数被调用。它负责向用户空间报告错误，例如连接重置、数据传输错误等。
	sk->sk_error_report = sock_def_error_report;
	//当套接字被销毁时，这个回调函数被调用。它负责执行清理操作，释放套接字占用的资源。
	sk->sk_destruct = sock_def_destruct;

	/* 设置套接字的接收和发送超时时间 */
	sk->sk_rcvtimeo = MAX_SCHEDULE_TIMEOUT;
	sk->sk_sndtimeo = MAX_SCHEDULE_TIMEOUT;
	...
	/* 设置套接字的时间戳 */
	sk->sk_stamp = SK_DEFAULT_STAMP;

}
EXPORT_SYMBOL(sock_init_data);

2、内核IO和用户进程协作之阻塞方式

同步阻塞IO总体流程如下：

2.1 等待接收消息

recv函数通过strace命令跟踪，可以看到recv会执行recvform调用。

下面从源代码看看recvfrom是怎么把自己阻塞掉的。

cpp 复制代码

SYSCALL_DEFINE6(recvfrom, int, fd, void __user *, ubuf, size_t, size,
		unsigned int, flags, struct sockaddr __user *, addr,
		int __user *, addr_len)
{
	...
	err = import_single_range(READ, ubuf, size, &iov, &msg.msg_iter);
	if (unlikely(err))
		return err;
	
	// 根据用户传入的fd找到socket对象
	sock = sockfd_lookup_light(fd, &err, &fput_needed);
	...
	err = sock_recvmsg(sock, &msg, flags);
	...
}

接下来调用顺序为：

sock_recvmsg==>sock_recvmsg_nosec==>inet_recvmsg==>tcp_recvmsg

cpp 复制代码

int sock_recvmsg(struct socket *sock, struct msghdr *msg, int flags)
{
	int err = security_socket_recvmsg(sock, msg, msg_data_left(msg), flags);

	return err ?: sock_recvmsg_nosec(sock, msg, flags);
}

static inline int sock_recvmsg_nosec(struct socket *sock, struct msghdr *msg,
				     int flags)
{
	return sock->ops->recvmsg(sock, msg, msg_data_left(msg), flags);
}

int inet_recvmsg(struct socket *sock, struct msghdr *msg, size_t size,
		 int flags)
{
	struct sock *sk = sock->sk;
	int addr_len = 0;
	int err;

	sock_rps_record_flow(sk);

	err = sk->sk_prot->recvmsg(sk, msg, size, flags & MSG_DONTWAIT,
				   flags & ~MSG_DONTWAIT, &addr_len);
	if (err >= 0)
		msg->msg_namelen = addr_len;
	return err;
}

cpp 复制代码

int tcp_recvmsg(struct sock *sk, struct msghdr *msg, size_t len, int nonblock,
		int flags, int *addr_len)
{
	...
	do {
		...
		//遍历接收队列接收数据
		skb_queue_walk(&sk->sk_receive_queue, skb) {
			...
		//数据接收完成则返回
		if (copied >= target && !sk->sk_backlog.tail)
			break;

		if (copied >= target) {
			/* Do not sleep, just process backlog. */
			release_sock(sk);
			lock_sock(sk);
		} else {
			//没有收到足够的数据，启用sk_wait_data阻塞当前进程，等待数据到来的通知
			sk_wait_data(sk, &timeo, last);
		}
		...
	} while (len > 0);

}
EXPORT_SYMBOL(tcp_recvmsg);

这里可以看到，skb_queue_Walk在访问sock对象下的接收队列，如果没有收到数据或者收到的不够多，那么调用sk_wait_data将当前进程阻塞。

cpp 复制代码

int sk_wait_data(struct sock *sk, long *timeo, const struct sk_buff *skb)
{
	//当前进程关联到所定义的等待队列项上，并设置唤醒回调函数
	DEFINE_WAIT_FUNC(wait, woken_wake_function);
	int rc;
	//添加等待队列项到sock的等待队列中
	add_wait_queue(sk_sleep(sk), &wait);
	sk_set_bit(SOCKWQ_ASYNC_WAITDATA, sk);
	//通过调用wait_woken让出CPU，然后进入睡眠
	rc = sk_wait_event(sk, timeo, skb_peek_tail(&sk->sk_receive_queue) != skb, &wait);
	sk_clear_bit(SOCKWQ_ASYNC_WAITDATA, sk);
	remove_wait_queue(sk_sleep(sk), &wait);
	return rc;
}

#define sk_wait_event(__sk, __timeo, __condition, __wait)		\
	({	int __rc;						\
		release_sock(__sk);					\
		__rc = __condition;					\
		if (!__rc) {						\
			*(__timeo) = wait_woken(__wait,			\
						TASK_INTERRUPTIBLE,	\
						*(__timeo));		\
		}							\
		sched_annotate_sleep();					\
		lock_sock(__sk);					\
		__rc = __condition;					\
		__rc;							\
	})

当内核收完数据产生就绪事件的时候，会通过回调查找socket等待队列项，进而可以找到回调函数和在等待该socket就绪事件的进程。

2.2 软中断模块

网络包从网卡后怎么接收再交给软中断处理的，这篇文章有描述：添加链接描述

下面从tcp_v4_rcv的源码开始看，总体接收流程如下：

软中断里收到数据之后，发现是TCP包就会执行tcp_v4_rcv函数。如果是ESTABLISH状态下的数据包，则最终会把数据解析出来放到对应socket的接收队列中，然后调用sk_data_ready来唤醒用户进程。

cpp 复制代码

int tcp_v4_rcv(struct sk_buff *skb)
{
	...
	th = (const struct tcphdr *)skb->data;	//获取tcp header
	iph = ip_hdr(skb);	//获取ip header
	...
lookup:
	//根据数据包header中的IP、端口信息查找到对应的socket
	sk = __inet_lookup_skb(&tcp_hashinfo, skb, __tcp_hdrlen(th), th->source,
			       th->dest, &refcounted);	
	if (!sk)
		goto no_tcp_socket;

process:
	if (sk->sk_state == TCP_TIME_WAIT)
		goto do_time_wait;

	if (sk->sk_state == TCP_NEW_SYN_RECV) {
		struct request_sock *req = inet_reqsk(sk);
		struct sock *nsk;

		sk = req->rsk_listener;
		if (unlikely(tcp_v4_inbound_md5_hash(sk, skb))) {
			sk_drops_add(sk, skb);
			reqsk_put(req);
			goto discard_it;
		}
		if (unlikely(sk->sk_state != TCP_LISTEN)) {
			inet_csk_reqsk_queue_drop_and_put(sk, req);
			goto lookup;
		}
		/* We own a reference on the listener, increase it again
		 * as we might lose it too soon.
		 */
		sock_hold(sk);
		refcounted = true;
		nsk = tcp_check_req(sk, skb, req, false);
		if (!nsk) {
			reqsk_put(req);
			goto discard_and_relse;
		}
		if (nsk == sk) {
			reqsk_put(req);
		} else if (tcp_child_process(sk, nsk, skb)) {
			tcp_v4_send_reset(nsk, skb);
			goto discard_and_relse;
		} else {
			sock_put(sk);
			return 0;
		}
	}
	if (unlikely(iph->ttl < inet_sk(sk)->min_ttl)) {
		__NET_INC_STATS(net, LINUX_MIB_TCPMINTTLDROP);
		goto discard_and_relse;
	}

	if (!xfrm4_policy_check(sk, XFRM_POLICY_IN, skb))
		goto discard_and_relse;

	if (tcp_v4_inbound_md5_hash(sk, skb))
		goto discard_and_relse;

	nf_reset(skb);

	if (tcp_filter(sk, skb))
		goto discard_and_relse;
	th = (const struct tcphdr *)skb->data;
	iph = ip_hdr(skb);

	skb->dev = NULL;

	if (sk->sk_state == TCP_LISTEN) {
		ret = tcp_v4_do_rcv(sk, skb);
		goto put_and_return;
	}
	//socket未被用户锁定
	if (!sock_owned_by_user(sk)) {
		if (!tcp_prequeue(sk, skb))
			ret = tcp_v4_do_rcv(sk, skb);
	} else if (tcp_add_backlog(sk, skb)) {
		goto discard_and_relse;
	}
}

在tcp_v4_do_rcv中，首先找到对应skb对应的socket，然后进入tcp_v4_do_rcv。

cpp 复制代码

int tcp_v4_do_rcv(struct sock *sk, struct sk_buff *skb)
{
	struct sock *rsk;

	if (sk->sk_state == TCP_ESTABLISHED) { /* Fast path */
		struct dst_entry *dst = sk->sk_rx_dst;

		sock_rps_save_rxhash(sk, skb);
		sk_mark_napi_id(sk, skb);
		if (dst) {
			if (inet_sk(sk)->rx_dst_ifindex != skb->skb_iif ||
			    !dst->ops->check(dst, 0)) {
				dst_release(dst);
				sk->sk_rx_dst = NULL;
			}
		}
		//执行连接状态下的数据处理
		tcp_rcv_established(sk, skb, tcp_hdr(skb), skb->len);
		return 0;
	}
	//其他非ESTABLISH状态的数据包处理
	...
}

在tcp_v4_do_rcv中会调用tcp_rcv_established，在tcp_rcv_established中会调用tcp_queue_rcv把数据添加到接收队列末尾，然后调用sock的sk_data_ready函数指针，这个指针在sock初始化的时候已经被设置成了sock_def_readable，所以会调用到sock_def_readable。

cpp 复制代码

void tcp_rcv_established(struct sock *sk, struct sk_buff *skb,
			 const struct tcphdr *th, unsigned int len)
{
	struct tcp_sock *tp = tcp_sk(sk); // 获取 TCP 套接字的特定结构体
	skb_mstamp_get(&tp->tcp_mstamp); // 获取当前时间戳
	if (unlikely(!sk->sk_rx_dst)) // 检查接收目的地是否已设置
		inet_csk(sk)->icsk_af_ops->sk_rx_dst_set(sk, skb); // 设置接收目的地

	/*
	 * 头部预测。
	 * 代码大致遵循 Van Jacobson 的 "30 instruction TCP receive"。
	 */
	tp->rx_opt.saw_tstamp = 0; // 初始化接收选项

	/* 检查 TCP 头部的有效性 */
	if ((tcp_flag_word(th) & TCP_HP_BITS) == tp->pred_flags &&
	    TCP_SKB_CB(skb)->seq == tp->rcv_nxt &&
	    !after(TCP_SKB_CB(skb)->ack_seq, tp->snd_nxt)) {
		int tcp_header_len = tp->tcp_header_len;
		if (len <= tcp_header_len) {
			...
			if (!eaten) {
				...
				/* 大量数据传输：接收方 */
				eaten = tcp_queue_rcv(sk, skb, tcp_header_len, &fragstolen); // 将数据包排入接收队列
			}

			tcp_event_data_recv(sk, skb); // 触发数据接收事件

			if (TCP_SKB_CB(skb)->ack_seq != tp->snd_una) {
				/* 处理 ACK */
				tcp_ack(sk, skb, FLAG_DATA);
				tcp_data_snd_check(sk); // 检查发送数据
				if (!inet_csk_ack_scheduled(sk))
					goto no_ack;
			}

			__tcp_ack_snd_check(sk, 0); // 检查 ACK 发送
no_ack:
			if (eaten)
				kfree_skb_partial(skb, fragstolen); // 释放部分数据包
			sk->sk_data_ready(sk); // 通知套接字有数据可读
			return;
		}
	}
	...
}
EXPORT_SYMBOL(tcp_rcv_established);

cpp 复制代码

static int __must_check tcp_queue_rcv(struct sock *sk, struct sk_buff *skb, int hdrlen,
		  bool *fragstolen)
{
	int eaten;
	struct sk_buff *tail = skb_peek_tail(&sk->sk_receive_queue);

	__skb_pull(skb, hdrlen);
	eaten = (tail &&
		 tcp_try_coalesce(sk, tail, skb, fragstolen)) ? 1 : 0;
	tcp_rcv_nxt_update(tcp_sk(sk), TCP_SKB_CB(skb)->end_seq);
	//将接收到的数据添加到尾部
	if (!eaten) {
		__skb_queue_tail(&sk->sk_receive_queue, skb);
		skb_set_owner_r(skb, sk);
	}
	return eaten;
}

cpp 复制代码

static void sock_def_readable(struct sock *sk)
{
	struct socket_wq *wq;

	rcu_read_lock();
	wq = rcu_dereference(sk->sk_wq);
	if (skwq_has_sleeper(wq))
		//唤醒等待队列的进程
		wake_up_interruptible_sync_poll(&wq->wait, POLLIN | POLLPRI |
						POLLRDNORM | POLLRDBAND);
	sk_wake_async(sk, SOCK_WAKE_WAITD, POLL_IN);
	rcu_read_unlock();
}

#define wake_up_interruptible_sync_poll(x, m)				\
	__wake_up_sync_key((x), TASK_INTERRUPTIBLE, 1, (void *) (m))

//nr_exclusive被宏定义成了1，是为了防止惊群
void __wake_up_sync_key(wait_queue_head_t *q, unsigned int mode,
			int nr_exclusive, void *key)
{
	unsigned long flags;
	int wake_flags = 1; /* XXX WF_SYNC */

	if (unlikely(!q))
		return;

	if (unlikely(nr_exclusive != 1))
		wake_flags = 0;

	spin_lock_irqsave(&q->lock, flags);
	__wake_up_common(q, mode, nr_exclusive, wake_flags, key);
	spin_unlock_irqrestore(&q->lock, flags);
}

static void __wake_up_common(wait_queue_head_t *q, unsigned int mode,
			int nr_exclusive, int wake_flags, void *key)
{
	wait_queue_t *curr, *next;

	list_for_each_entry_safe(curr, next, &q->task_list, task_list) {
		unsigned flags = curr->flags;
		//调用进程加入等待队列时注册的回调函数
		if (curr->func(curr, mode, wake_flags, key) &&
				(flags & WQ_FLAG_EXCLUSIVE) && !--nr_exclusive)
			break;
	}
}

__wake_up_common实现唤醒，该函数调用的传入参数nr_exclusive写死了为1，这里是指即使有多个进程都阻塞在同一个socket上，也只唤醒一个进程。其作用是为了避免"惊群"。在recv注册等待队列项的时候，内核把curr->func设置成了woken_wake_function；在woken_wake_function中调用了woken_wake_function，最终调用到了try_to_wake_up，调用try_to_wake_up传入的参数curr->private就是当时因为等待而被阻塞的进程任务。当这个函数执行完的时候，在socket上等待而被阻塞的进程就被推入可运行队列了。

cpp 复制代码

int woken_wake_function(wait_queue_t *wait, unsigned mode, int sync, void *key)
{
	wait->flags |= WQ_FLAG_WOKEN;

	return default_wake_function(wait, mode, sync, key);
}

int default_wake_function(wait_queue_t *curr, unsigned mode, int wake_flags,
			  void *key)
{
	return try_to_wake_up(curr->private, mode, wake_flags);
}

同步阻塞整体流程图如下：

文章内容参考：《深入理解Linux网络》

Linux版本用的是4.12，书中用的是3.10