【docker】iptables实现NAT

iptables是一个Linux内核中的防火墙工具,可以被用来执行各种网络相关的任务,如过滤、NAT和端口转发等,可以监控、过滤和重定向网络流量。

iptables可以用于以下应用场景:

  1. 网络安全:iptables可以过滤网络流量,防止未经授权的访问和攻击。
  2. 网络管理:iptables可以限制网络带宽,控制网络流量,保证网络的稳定性和可靠性。
  3. 网络服务:iptables可以重定向网络流量,实现端口转发和负载均衡等功能。
  4. 网络监控:iptables可以记录网络流量,分析网络状况,提供网络性能和安全的监控和管理。

iptables实现SNAT和DNAT

主机规划:

  • host1:172.28.3.208/20
  • host2:172.28.15.169/20

原始网络模式

一开始,host1和host2都是通过网关gateway进行对外通讯。

原始网络模式如下:

在host2上可以访问百度:

shell 复制代码
$ ping www.baidu.com -c 3
PING www.wshifen.com (104.193.88.77) 56(84) bytes of data.
64 bytes from 104.193.88.77: icmp_seq=1 ttl=49 time=179 ms
64 bytes from 104.193.88.77: icmp_seq=2 ttl=49 time=173 ms
64 bytes from 104.193.88.77: icmp_seq=3 ttl=49 time=173 ms

--- www.wshifen.com ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 3036ms
rtt min/avg/max/mdev = 173.674/175.795/179.824/2.870 ms

SNAT

SNAT是source network address translation的缩写即源地址目标转换。

比如,多个PC机使用路由器共享上网,每个PC机都配置了内网IP。PC机访问外部网络的时候,路由器将数据包的报头中的源地址替换成路由器的ip。当外部网络的服务器比如网站web服务器接到访问请求的时候,他的日志记录下来的是路由器的ip地址,而不是pc机的内网ip。

这是因为,这个服务器收到的数据包的报头里边的"源地址",已经被替换了。所以叫做SNAT,基于源地址的地址转换。

现将host1作为host2的网关,在host1上进行SNAT转换,实现host2可以访问外网。

修改host2的默认网关

修改host2的默认网关为host1:

shell 复制代码
$ sudo ip route delete default
$ sudo ip route add default via 172.28.3.208 dev eth0
$ sudo ip route delete 172.28.0.1
$ sudo ip route delete 172.28.0.0/20

$ route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         172.28.3.208  0.0.0.0         UG    0      0        0 eth0

此时在host2尝试访问百度,发现已经无法访问外部网络:

shell 复制代码
$ ping www.baidu.com -c 3
ping: www.baidu.com: Temporary failure in name resolution

host1开启转发能力

在host1开启转发能力,Linux的IP Forwarding功能并不是默认开启的,可以采用下面的方法开启:

shell 复制代码
// 没有持久化,临时修改
$ sudo -i

# echo 1 >/proc/sys/net/ipv4/ip_forward

上面的方式只是临时开启转发能力,重启之后配置就会被重置,如果想永久修改可以在/etc/sysctl.conf下增加如下内容:

shell 复制代码
net.ipv4.ip_forward=1

然后使用sysctl -p重新加载配置文件:

shell 复制代码
$ sysctl -p /etc/sysctl.conf

host1配置SNAT规则

在host1上配置如下规则:

shell 复制代码
$ iptables -t nat -A POSTROUTING -s 172.28.15.169 -j SNAT --to-source 172.28.3.208

此时再去host2上访问百度,发现已经可以访问外部网络了:

shell 复制代码
$ ping www.baidu.com -c 3
PING www.wshifen.com (104.193.88.77) 56(84) bytes of data.
64 bytes from 104.193.88.77: icmp_seq=1 ttl=48 time=174 ms
64 bytes from 104.193.88.77: icmp_seq=2 ttl=48 time=174 ms
64 bytes from 104.193.88.77: icmp_seq=3 ttl=48 time=174 ms

--- www.wshifen.com ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2583ms
rtt min/avg/max/mdev = 174.052/174.397/174.846/0.585 ms

SNAT和MASQUERADE的区别

MASQUERADE是SNAT的一个特例。

SNAT是指在数据包从网卡发送出去的时候,把数据包中的源地址部分替换为指定的IP,这样,接收方就认为数据包的来源是被替换的那个IP的主机。

MASQUERADE是用发送数据的网卡上的IP来替换源IP,因此,对于那些IP不固定的场合,比如拨号网络或者通过dhcp分配IP的情况下,就得用MASQUERADE。

但使用SNAT的时候,出口ip的地址范围可以是一个,也可以是多个,例如如下命令表示把所有10.8.0.0网段的数据包SNAT成192.168.5.3的ip然后发出去

shell 复制代码
iptables -t nat -A POSTROUTING -s 10.8.0.0/24 -o eth0 -j SNAT --to-source 192.168.5.3

如下命令表示把所有10.8.0.0网段的数据包SNAT成192.168.5.3/192.168.5.4/192.168.5.5等几个ip然后发出去

shell 复制代码
iptables -t nat -A POSTROUTING -s 10.8.0.0/255.255.255.0 -o eth0 -j SNAT --to-source 192.168.5.3-192.168.5.5

这就是SNAT的使用方法,即可以NAT成一个地址,也可以NAT成多个地址,但是,对于SNAT,不管是几个地址,必须明确的指定要SNAT的ip。

假如当前系统用的是ADSL动态拨号方式,那么每次拨号,出口ip192.168.5.3都会改变,而且改变的幅度很大,不一定是192.168.5.3到192.168.5.5范围内的地址,这个时候如果按照现在的方式来配置iptables就会出现问题了。

因为每次拨号后,服务器地址都会变化,而iptables规则内的ip是不会随着自动变化的,每次地址变化后都必须手工修改一次iptables,把规则里边的固定ip改成新的ip,这样是非常不好用的。

MASQUERADE就是针对这种场景而设计的,他的作用是,从服务器的网卡上,自动获取当前ip地址来做NAT。

比如下边的命令:

shell 复制代码
iptables -t nat -A POSTROUTING -s 10.8.0.0/255.255.255.0 -o eth0 -j MASQUERADE

如此配置的话,不用指定SNAT的目标ip了,不管现在eth0的出口获得了怎样的动态ip,MASQUERADE会自动读取eth0现在的ip地址然后做SNAT出去,这样就实现了很好的动态SNAT地址转换。

注:对于MASQUERADE,只是计算机的负荷稍微多一点。因为对每个匹配的包,MASQUERADE都要查找可用的IP地址,而不象SNAT用的IP地址是配置好的。当然,这也有好处,就是我们可以使用通过PPP、PPPOE、SLIP等拨号得到的地址,这些地址可是由ISP的DHCP随机分配的。

DNAT

假设现在host2上了运行了一个端口在8080的web服务,但是没有外网ip,无法在外部直接访问host2的web服务,但是host1上有外网ip,可以通过DNAT将访问host1的8080端口的请求转发到host2的8080端口。

在host2上运行一个web服务:

shell 复制代码
$ sudo docker run -d --rm -p 8080:80 --name web httpd
9c9a499ce0e566e1a5897d81a21d6d97d8925ef25066f901e9d41de22bd2f0c5

$ curl localhost:8080
<html><body><h1>It works!</h1></body></html>

在host1上配置DNAT:

shell 复制代码
$ sudo iptables -t nat -A PREROUTING -p tcp --dport 8080 -j DNAT --to-destination 172.28.15.169

此时再去其他机器上访问host1的8080端口,发现流量已经转发到host1的8080端口了:

shell 复制代码
$ curl 172.28.3.208:8080
<html><body><h1>It works!</h1></body></html>

SNAT和DNAT的区别

SNAT是指在数据包从网卡发送出去的时候,把数据包中的源地址部分替换为指定的IP,这样,接收方就认为数据包的来源是被替换的那个IP的主机。

DNAT,就是指数据包从网卡发送出去的时候,修改数据包中的目的IP,表现为如果你想访问A,可是因为网关做了DNAT,把所有访问A的数据包的目的IP全部修改为B,那么,你实际上访问的是B。

因为,路由是按照目的地址来选择的,因此,DNAT是在PREROUTING链上来进行的,而SNAT是在数据包发送出去的时候才进行,因此是在POSTROUTING链上进行的。

iptables记录网络流量

为了方便调试,我们可以在raw的PREROUTING链上增加trace规则:

shell 复制代码
sudo iptables -t raw -I PREROUTING -p tcp --dport 8080 -j TRACE
sudo iptables -t raw -I PREROUTING -p tcp --sport 8080 -j TRACE

使用dmesg命令来查看日志

shell 复制代码
// 先清空下日志
$ dmesg -C

// 下面是curl 172.28.3.208:8080的部分日志
$ dmesg
[13428.991593] TRACE: raw:PREROUTING:policy:3 IN=eth0 OUT= MAC=00:15:5d:70:01:10:00:15:5d:cc:04:f5:08:00 SRC=172.28.0.1 DST=172.28.3.208 LEN=40 TOS=0x00 PREC=0x00 TTL=128 ID=32326 DF PROTO=TCP SPT=63368 DPT=8080 SEQ=94812980 ACK=2940281795 WINDOW=0 RES=0x00 ACK RST URGP=0
[13428.991675] TRACE: mangle:PREROUTING:policy:1 IN=eth0 OUT= MAC=00:15:5d:70:01:10:00:15:5d:cc:04:f5:08:00 SRC=172.28.0.1 DST=172.28.3.208 LEN=40 TOS=0x00 PREC=0x00 TTL=128 ID=32326 DF PROTO=TCP SPT=63368 DPT=8080 SEQ=94812980 ACK=2940281795 WINDOW=0 RES=0x00 ACK RST URGP=0
[13428.991697] TRACE: mangle:INPUT:policy:1 IN=eth0 OUT= MAC=00:15:5d:70:01:10:00:15:5d:cc:04:f5:08:00 SRC=172.28.0.1 DST=172.28.3.208 LEN=40 TOS=0x00 PREC=0x00 TTL=128 ID=32326 DF PROTO=TCP SPT=63368 DPT=8080 SEQ=94812980 ACK=2940281795 WINDOW=0 RES=0x00 ACK RST URGP=0
。。。。。。

查看/var/log/messages日志

直接查看系统日志文件/var/log/messages时会提示说没有这个文件或目录。

原因是Ubuntu默认不开启系统日志,配置文件/etc/rsyslog.d/50-default.conf中系统日志那段的代码默认是被注释掉的:

shell 复制代码
#*.=info;*.=notice;*.=warn;\
#        auth,authpriv.none;\
#        cron,daemon.none;\
#        mail,news.none          -/var/log/messages

我们只要将这4行前面的注释#去除即可。

然后需要重启rsyslog服务:

shell 复制代码
$ sudo service rsyslog restart

最后就可以查看/var/log/messages文件中的日志了。

会话跟踪

疑问:当host2给host1返回时,目标ip为host1,我们也没有配置什么NAT规则,把目标ip改成客户端的ip,那么,服务器为啥不是把报文交给host1的进程处理,而是原路forward转发呢?

这个其实还是因为NAT依赖了netfilter的会话跟踪功能,简单来说,netfilter是有状态的,以tcp举例,tcp连接的建立是因为客户端ip:客户端端口和服务端ip:服务端端口,这个四元组是有来有回的,就是我给你发了消息,你也回我了,此时,netfilter就认为这是一个会话。

所以,在host2给host1返回时,host1拿着四元组去查,查到有会话,因此,就按照之前的路径原路回来。

另外,nat这个table里的链,只在检测到之前不存在会话时,才会进,后续就不会再进了;也就是只有首次报文的时候进nat的链。

像上面这个案例,只要执行如下命令,关闭会话跟踪,就执行不成功了:

shell 复制代码
sudo iptables -t raw -I PREROUTING -p tcp --dport 8080 -j NOTRACK

可以安装conntrack工具来查看会话。

shell 复制代码
sudo apt-get install conntrack

使用conntrack -L命令来查看会话

shell 复制代码
$ conntrack -L
tcp      6 431997 ESTABLISHED src=172.28.0.1 dst=172.28.3.208 sport=65499 dport=8080 src=172.28.15.169 dst=172.28.0.1 sport=8080 dport=65499 [ASSURED] mark=0 use=1
tcp      6 300 ESTABLISHED src=172.28.0.1 dst=172.28.3.208 sport=54422 dport=22 src=172.28.3.208 dst=172.28.0.1 sport=22 dport=54422 [ASSURED] mark=0 use=1
conntrack v1.4.4 (conntrack-tools): 2 flow entries have been shown.
相关推荐
追梦不止~21 分钟前
Docker常用命令+详解
运维·docker·容器
铁锤妹妹头发多2 小时前
新手用docker真**难受
运维·docker·容器
南猿北者11 小时前
docker容器
docker·容器
二十雨辰11 小时前
[linux]docker基础
linux·运维·docker
time never ceases12 小时前
使用docker方式进行Oracle数据库的物理迁移(helowin/oracle_11g)
数据库·docker·oracle
MonkeyKing_sunyuhua14 小时前
ubuntu22.04 docker-compose安装postgresql数据库
数据库·docker·postgresql
追风林14 小时前
mac m1 docker本地部署canal 监听mysql的binglog日志
java·docker·mac
€☞扫地僧☜€15 小时前
docker 拉取MySQL8.0镜像以及安装
运维·数据库·docker·容器
茶馆大橘15 小时前
微服务系列六:分布式事务与seata
分布式·docker·微服务·nacos·seata·springcloud
全能全知者17 小时前
docker快速安装与配置mongoDB
mongodb·docker·容器