分布式文件系统05-生产级中间件的Java网络通信技术深度优化

生产级中间件的Java网络通信技术深度优化

134_完成读取本地磁盘文件以及发送给客户端的代码逻辑

java 复制代码

public class DataNodeNIOServer extends Thread {

    private Map<String, String> waitReadingFiles = new ConcurrentHashMap<String, String>();

	/**
	 * 将文件发送到客户端去
	 * @param channel
	 * @param key
	 * @throws Exception
	 */
	private void sendFileToClient(SocketChannel channel, SelectionKey key) throws Exception {
		// 构建针对本地文件的输入流
		if(!channel.isOpen()) {
			channel.close();
			return;
		}
		
		String remoteAddr = channel.getRemoteAddress().toString(); 
		String filename = waitReadingFiles.get(remoteAddr);

		File file = new File(filename);
		Long fileLength = file.length();
		
		FileInputStream imageIn = new FileInputStream(filename);    
    	FileChannel imageChannel = imageIn.getChannel();
		
		// 循环不断的从channel里读取数据，并写入磁盘文件
    	ByteBuffer buffer = ByteBuffer.allocate(
    			Integer.parseInt(String.valueOf(fileLength)) * 2);
    	long hasReadImageLength = 0L;
		int len = -1;
        while((len = imageChannel.read(buffer)) > 0) {
        	hasReadImageLength += len;
        	System.out.println("已经从本地磁盘文件读取了" + hasReadImageLength + "字节的数据");  
        	buffer.flip();
        	channel.write(buffer);
        	buffer.clear();
        }
        
        imageChannel.close();
        imageIn.close();
        
        // 判断一下，如果已经读取完毕，就返回一个成功给客户端
        if(hasReadImageLength == fileLength) {
        	System.out.println("文件发送完毕，给客户端: " + remoteAddr);
        }
	}

}

按理说，上面数据写完以后，需要把waitReadingFiles中的数据删除

135_在NIO中处理完一次读写请求之后应该如何处理事件的监听？

上面的实现方式，是把Read事件和Write事件，分开作两个流程进行处理，实际上，也不用那么麻烦，直接在处理Read事件时，就从磁盘中读出文件并通过channel写回到客户端即可。

waitReadingFiles的逻辑，也都就不需要了

java 复制代码

/**
 * 数据节点的NIOServer
 */
public class DataNodeNIOServer extends Thread {

    public static final Integer SEND_FILE = 1;
    public static final Integer READ_FILE = 2;

    // NIO的selector，负责多路复用监听多个连接的请求
    private Selector selector;
    // 内存队列，无界队列
    private List<LinkedBlockingQueue<SelectionKey>> queues =
            new ArrayList<LinkedBlockingQueue<SelectionKey>>();
    // 缓存的没读取完的文件数据
    private Map<String, CachedImage> cachedImages = new ConcurrentHashMap<String, CachedImage>();
    // 与NameNode进行通信的客户端
    private NameNodeRpcClient namenodeRpcClient;

    /**
     * NIOServer的初始化，监听端口、队列初始化、线程初始化
     */
    public DataNodeNIOServer(NameNodeRpcClient namenodeRpcClient) {
        ServerSocketChannel serverSocketChannel = null;

        try {
            this.namenodeRpcClient = namenodeRpcClient;

            selector = Selector.open();

            serverSocketChannel = ServerSocketChannel.open();
            serverSocketChannel.configureBlocking(false);
            serverSocketChannel.socket().bind(new InetSocketAddress(NIO_PORT), 100);
            serverSocketChannel.register(selector, SelectionKey.OP_ACCEPT);

            for (int i = 0; i < 3; i++) {
                queues.add(new LinkedBlockingQueue<SelectionKey>());
            }

            for (int i = 0; i < 3; i++) {
                new Worker(queues.get(i)).start();
            }

            System.out.println("NIOServer已经启动，开始监听端口：" + NIO_PORT);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public void run() {
        /**
         * 无限循环，等待IO多路复用方式监听请求
         */
        while (true) {
            try {
                selector.select();
                Iterator<SelectionKey> keysIterator = selector.selectedKeys().iterator();

                while (keysIterator.hasNext()) {
                    SelectionKey key = keysIterator.next();
                    keysIterator.remove();
                    handleEvents(key);
                }
            } catch (Throwable t) {
                t.printStackTrace();
            }
        }
    }

    /**
     * 处理请求分发
     *
     * @param key
     * @throws IOException
     * @throws ClosedChannelException
     */
    private void handleEvents(SelectionKey key) throws IOException {
        SocketChannel channel = null;

        try {
            if (key.isAcceptable()) {
                ServerSocketChannel serverSocketChannel = (ServerSocketChannel) key.channel();
                channel = serverSocketChannel.accept();
                if (channel != null) {
                    channel.configureBlocking(false);
                    channel.register(selector, SelectionKey.OP_READ);
                }
            } else if (key.isReadable()) {
                channel = (SocketChannel) key.channel();
                String remoteAddr = channel.getRemoteAddress().toString();
                int queueIndex = remoteAddr.hashCode() % queues.size();
                queues.get(queueIndex).put(key);
            }
        } catch (Throwable t) {
            t.printStackTrace();
            if (channel != null) {
                channel.close();
            }
        }
    }

    /**
     * 处理请求的工作线程
     */
    class Worker extends Thread {

        private LinkedBlockingQueue<SelectionKey> queue;

        public Worker(LinkedBlockingQueue<SelectionKey> queue) {
            this.queue = queue;
        }

        @Override
        public void run() {
            while (true) {
                
                SocketChannel channel = null;

                try {
                    
                    SelectionKey key = queue.take();
                    
                    channel = (SocketChannel) key.channel();
                    
                    handleRequest(channel, key);
                    
                } catch (Exception e) {
                    e.printStackTrace();
                    if (channel != null) {
                        try {
                            channel.close();
                        } catch (IOException e1) {
                            e1.printStackTrace();
                        }
                    }
                }
            }
        }

    }

    /**
     * 处理客户端发送过来的请求
     *
     * @param channel
     * @param key
     * @throws Exception
     */
    private void handleRequest(SocketChannel channel, SelectionKey key) throws Exception {
        
        // 假如说你这个一次读取的数据里包含了多个文件的话
        // 这个时候我们会先读取文件名，然后根据文件的大小去读取这么多的数据
        String remoteAddr = channel.getRemoteAddress().toString();
        System.out.println("接收到客户端的请求：" + remoteAddr);

        // 需要先提取出来这次请求是什么类型：1 发送文件；2 读取文件
        if (cachedImages.containsKey(remoteAddr)) {
            handleSendFileRequest(channel, key);
        } else {
            // 但是此时channel的position肯定也变为了4
            Integer requestType = getRequestType(channel); 
            
            if (SEND_FILE.equals(requestType)) {
                handleSendFileRequest(channel, key);
            } else if (READ_FILE.equals(requestType)) {
                handleReadFileRequest(channel, key);
            }
        }
    }

    /**
     * 发送文件
     */
    private void handleSendFileRequest(SocketChannel channel, SelectionKey key) throws Exception {
        String remoteAddr = channel.getRemoteAddress().toString();

        Filename filename = getFilename(channel);
        System.out.println("从网络请求中解析出来文件名：" + filename);
        if (filename == null) {
            channel.close();
            return;
        }
        // 从请求中解析文件大小
        long imageLength = getImageLength(channel);
        System.out.println("从网络请求中解析出来文件大小：" + imageLength);
        // 定义已经读取的文件大小
        long hasReadImageLength = getHasReadImageLength(channel);
        System.out.println("初始化已经读取的文件大小：" + hasReadImageLength);

        // 构建针对本地文件的输出流
        FileOutputStream imageOut = new FileOutputStream(filename.absoluteFilename);
        FileChannel imageChannel = imageOut.getChannel();
        imageChannel.position(imageChannel.size());

        // 循环不断的从channel里读取数据，并写入磁盘文件
        ByteBuffer buffer = ByteBuffer.allocate(10 * 1024);
        int len = -1;
        while ((len = channel.read(buffer)) > 0) {
            hasReadImageLength += len;
            System.out.println("已经向本地磁盘文件写入了" + hasReadImageLength + "字节的数据");
            buffer.flip();
            imageChannel.write(buffer);
            buffer.clear();
        }

        imageChannel.close();
        imageOut.close();

        // 判断一下，如果已经读取完毕，就返回一个成功给客户端
        if (hasReadImageLength == imageLength) {
            ByteBuffer outBuffer = ByteBuffer.wrap("SUCCESS".getBytes());
            channel.write(outBuffer);
            cachedImages.remove(remoteAddr);
            System.out.println("文件读取完毕，返回响应给客户端: " + remoteAddr);

            // 增量上报Master节点自己接收到了一个文件的副本
            // /image/product/iphone.jpg
            namenodeRpcClient.informReplicaReceived(filename.relativeFilename);
            System.out.println("增量上报收到的文件副本给NameNode节点......");

            key.interestOps(key.interestOps() & ~SelectionKey.OP_READ);
        }
        // 如果一个文件没有读完，缓存起来，等待下一次读取
        else {
            CachedImage cachedImage = new CachedImage(filename, imageLength, hasReadImageLength);
            cachedImages.put(remoteAddr, cachedImage);
            System.out.println("文件没有读取完毕，等待下一次OP_READ请求，缓存文件：" + cachedImage);
        }
    }

    /**
     * 读取文件
     */
    private void handleReadFileRequest(SocketChannel channel, SelectionKey key) throws Exception {
        String remoteAddr = channel.getRemoteAddress().toString();

        // 从请求中解析文件名
        // 已经是：F:\\development\\tmp1\\image\\product\\iphone.jpg
        Filename filename = getFilename(channel);
        System.out.println("从网络请求中解析出来文件名：" + filename);
        if (filename == null) {
            channel.close();
            return;
        }

        File file = new File(filename.absoluteFilename);
        Long fileLength = file.length();

        FileInputStream imageIn = new FileInputStream(filename.absoluteFilename);
        FileChannel imageChannel = imageIn.getChannel();

        // 循环不断的从channel里读取数据，并写入磁盘文件
        ByteBuffer buffer = ByteBuffer.allocate(
                Integer.parseInt(String.valueOf(fileLength)) * 2);
        long hasReadImageLength = 0L;
        int len = -1;
        while ((len = imageChannel.read(buffer)) > 0) {
            hasReadImageLength += len;
            System.out.println("已经从本地磁盘文件读取了" + hasReadImageLength + "字节的数据");
            buffer.flip();
            channel.write(buffer);
            buffer.clear();
        }

        imageChannel.close();
        imageIn.close();

        // 判断一下，如果已经读取完毕，就返回一个成功给客户端
        if (hasReadImageLength == fileLength) {
            System.out.println("文件发送完毕，给客户端: " + remoteAddr);
            
            // 把文件给客户端发送回去后，就删除要关注的Read事件
            // 表示这个连接的事情就处理完了，等待客户端主动关闭这个连接了，因为客户端用的是短连接
            key.interestOps(key.interestOps() & ~SelectionKey.OP_READ);
        }
    }

    /**
     * 获取本次请求的类型
     */
    public Integer getRequestType(SocketChannel channel) throws Exception {
        ByteBuffer requestType = ByteBuffer.allocate(4);
        channel.read(requestType);  // 此时requestType ByteBuffer，position跟limit都是4，remaining是0
        if (!requestType.hasRemaining()) {
            // 已经读取出来了4个字节，可以提取出来requestType了
            requestType.rewind(); // 将position变为0，limit还是维持着4
            return requestType.getInt();
        }
        return -1;
    }

}

主要就是加了，取消针对当前通道的Read事件的监听

136_在客户端实现从数据节点接收发送过来的图片数据

137_工业级NIO通信组件：请求头的拆包问题应该如何解决？

读取请求类型

第237行的remove动作不可少

读取文件名

java 复制代码

	/**
	 * 获取相对路径的文件名
	 * @param channel
	 * @return
	 */
	private String getRelativeFilename(SocketChannel channel) throws Exception {
		String client = channel.getRemoteAddress().toString();
		
		Integer filenameLength = null;
		String filename = null;
		
		// 读取文件名的大小
		if(!filenameByClient.containsKey(client)) {
			ByteBuffer filenameLengthBuffer = null;
			if(filenameLengthByClient.containsKey(client)) {
				filenameLengthBuffer = filenameLengthByClient.get(client);
			} else {
				filenameLengthBuffer = ByteBuffer.allocate(4);
			}
					
			channel.read(filenameLengthBuffer); 
			
			if(!filenameLengthBuffer.hasRemaining()) { 
				filenameLengthBuffer.rewind();
				filenameLength = filenameLengthBuffer.getInt();
				filenameLengthByClient.remove(client);
	 		} else {
	 			filenameLengthByClient.put(client, filenameLengthBuffer);
	 		}
		}
		
		// 读取文件名
		ByteBuffer filenameBuffer = null;
		if(filenameByClient.containsKey(client)) {
			filenameBuffer = filenameByClient.get(client);
		} else {
			filenameBuffer = ByteBuffer.allocate(filenameLength);
		}
		
		channel.read(filenameBuffer);
		
		if(!filenameBuffer.hasRemaining()) {
			filenameBuffer.rewind();
			filename = new String(filenameBuffer.array());  
			filenameByClient.remove(client);
		} else {
			filenameByClient.put(client, filenameBuffer);
		}
		
		return filename;
	}

读取文件长度

获取已经读取的文件大小

当客户端发送文件过来时，可能一个文件过大，不可避免的整个文件体就会被拆成多个包，表现在代码层面，就是会有一轮又一轮的Read事件达到，在最后一轮Read事件达到之前的每一轮，我们都需要记录已经读取了文件大小是多少。只有当已经读取的文件大小，等于请求头中的文件完整长度时，才表示这个文件全部接收完毕了

138_工业级NIO通信组件：多个数据文件的粘包问题应该如何解决？

某个客户端在一个连接中，连续上传了多个文件，才可能会出现粘包问题。虽然，我们这里使用的是短连接，一个请求一个连接，所以是不会出现粘包问题的

针对拆包问题，我们只要把已经读到的一部分包缓存起来，并保持对OP_READ事件的继续关注即可

针对粘包问题，我们就是一次只能读取一个文件的内容，如果一个文件读完了，channel中还有数据，那么就只能再走上面的拆包并缓存数据的逻辑，来重复处理第二个文件的数据包

这里是一个文件内容，发生拆包时的处理逻辑。如果要处理粘包问题，那么也还是在这段代码中进行修改，但是定义的fileBuffer也还是fileLength的大小

当前一个文件数据包处理完之后，继续while循环，从channel中读取数据，如果没有读取到数据就结束本次OP_READ事件处理，如果从channel中读取到了数据，则缓存起来，进行下一个包的的处理，依然是先获取4个字节的文件名长度的请求头或者8个字节文件长度的请求头，后续的处理逻辑又是拆包的处理逻辑

139_工业级NIO通信组件：数据文件的拆包问题应该如何解决？

上传文件

下载文件

140_工业级NIO通信组件：客户端读取文件的拆包问题如何解决？

141_工业级NIO通信组件：客户端读取多文件的粘包问题如何解决？

如果客户端通过一个连接，发送了多个文件的下载请求，服务端可能同时把多个文件包发过来，从而产生了粘包问题。我们这里使用的是短连接，当然对应客户端下载文件来说，也不存在粘包问题

通过定义的这个buffer，保证了每次最多只读完一个文件，不会读到下一个文件去。所以，如果发生粘包问题，我们依然可以通过给增加一个while循环，继续从channel中读取下一个文件包的内容即可。当然了，读取下一个文件包时，又有可能发生拆包问题

142_结合代码再谈NIO设计思想：到底什么是同步非阻塞？

之前大量的重构了我们的文件上传和下载的细节上的通信的代码，原生NIO相关的，代码重构量实在是太大了，所以必须得在这里详细的把文件的上传和下载，分别梳理一下代码流程

基于原生的NIO来编程，其实主要要处理的，就是类拆包和类粘包的两种问题。一次OP_READ事件读取到了前后两个数据包的内容就是粘包。底层的网络通信的模式是一种数据流的方式，各种各样的数据在底层会转换为电路信号不停的发送给你，所以你要知道如何切分开来不同的数据包

拆包是很典型的一个问题，就是一个文件，11.2MB，结果一次OP_READ就读取到了5.6MB，另外一部分在下一次OP_READ才可以读取到，这个就是所谓的典型的类拆包的问题，一个完整的数据需要多次读到

其实在真正的工业级的网络通信的程序里，主要要处理的就是这块东西，其他的一些，比如调参优化，参数调优，很多参数都还好，在kafka的源码分析的课程里，就是重点讲解了kafka源码中是如何进行工业级的NIO编程的

阻塞和非阻塞

经历过了一连串的编程之后，大量的代码实战之后，在这里必须从头对里面的NIO这块的代码做一下梳理和总结，反复加深大家的印象，彻底打通网络通信这块的任督二脉

143_探探我对于JDK中的NIO API设计的一些缺陷的看法以及改进的思考

我们继续来梳理咱们的NIO代码，这个过程急不得，我一定要把这块东西给大家讲深讲透，理解，掌握，这块东西真的是一个Java程序员最最底层的核心技术

144_NIO编程时如何避免对同一个网络事件进行多次重复处理？

很多同学都问过我的一个问题

本质上也是人家NIO API设计的一个不足之处，如果你获取了一个SelectionKey出来，此时就应该自动把他给删除掉，不应该继续留在自己内部的selectedKeys集合里了。如果获取了一个SelectionKey出来并处理完后，就应该给它remove掉，否则当地143行的while循环在146行又会立马把这个SelectionKey给select出来，从而产生事件的重复处理（但是这个SelectionKey对应的事件，其实在上一轮已经被处理完成了）

145_基于JDK注释深入分析NIO客户端发起连接的过程以及原理

146_工业级的网络数据包封装：如何设计数据包的包头？

在直接基于原生NIO，进行网络编程的时候，必须是得自己设计数据包的格式。

也就是说，一次调用SocketChannel.write写出去的是你自己封装好的一个完整的数据包，你必须考虑好这个包里有哪些数据，而且包里的数据是按照什么样的格式和顺序来放置的

kafka的数据包的设计，也就是类似这样而已，其实也没什么特别的东西

147_客户端在传输大数据包时如果出现拆包问题应该如何处理？

148_动手完成解决客户端大数据包类拆包问题的代码实现

149_再来仔细看看NIO到底是如何实现客户端连接请求的监听的？

我们已经讲完了客户端请求的发送，现在就是进行到NIO服务端，我们为什么要把这块代码仔仔细细的讲解一遍，再进行测试。是因为现在我们基于NIO写的代码已经完全实现了工业级了，代码是很复杂的，所以说我们需要把这块代码仔细的给讲解清楚才可以

150_当接收到客户端发送过来的请求时是如何基于多线程进行处理的？

核心就是，同一个channel过来的事件都会被hash到同一个worker线程，来进行处理。每个worker都有一个阻塞队列用来装channel过来的事件，worker线程从阻塞队列中取出一个个事件，然后处理即可

151_先分析一下服务端接收文件的正常情况下的核心流程

152_接着分析一下服务端接收文件的拆包粘包解决方案的代码

这里需要快速返回，

1，第395行到399行的代码，一开始遗漏了

2，读完以后一定要先rewind()

这里用于接收，服务端给客户端返回的SUCCESS，这里读完以后也要flip()

注意看，如果是buffer已经写满了，后续要读之前就可以rewind()，如果buffer没有写满，后续要读之前就需要flip()

flip()和rewind()区别

153_在客户端动手编写一个文件下载的测试用例代码

154_基于测试用例走读一下文件下载的正常流程中的代码

155_在文件上传的代码流程中加入测试需要观察的一些日志

java 复制代码

public class DataNodeNIOServer extends Thread {

    private void handleSendFileRequest(SocketChannel channel, SelectionKey key) throws Exception {
        String client = channel.getRemoteAddress().toString();

        // 从请求中解析文件名
        Filename filename = getFilename(channel);
        System.out.println("从网络请求中解析出来文件名：" + filename);
        if (filename == null) {
            return;
        }
        // 从请求中解析文件大小
        Long fileLength = getFileLength(channel);
        System.out.println("从网络请求中解析出来文件大小：" + fileLength);
        if (fileLength == null) {
            return;
        }
        // 获取已经读取的文件大小
        long hasReadImageLength = getHasReadFileLength(channel);
        System.out.println("初始化已经读取的文件大小：" + hasReadImageLength);

        // 构建针对本地文件的输出流
        FileOutputStream imageOut = null;
        FileChannel imageChannel = null;

        try {
            imageOut = new FileOutputStream(filename.absoluteFilename);
            imageChannel = imageOut.getChannel();
            imageChannel.position(imageChannel.size());
            System.out.println("对本地磁盘文件定位到position=" + imageChannel.size());

            // 循环不断的从channel里读取数据，并写入磁盘文件
            ByteBuffer fileBuffer = null;
            if (fileByClient.containsKey(client)) {
                fileBuffer = fileByClient.get(client);
            } else {
                fileBuffer = ByteBuffer.allocate(Integer.valueOf(String.valueOf(fileLength)));
            }

            hasReadImageLength += channel.read(fileBuffer);

            if (!fileBuffer.hasRemaining()) {

                // 1. 将从客户端接送到的文件字节数据，写入磁盘
                fileBuffer.rewind();
                int written = imageChannel.write(fileBuffer);
                fileByClient.remove(client);
                System.out.println("本次文件上传完毕，将" + written + " bytes的数据写入本地磁盘文件.......");

                // 2. 接收文件完毕，写SUCCESS回客户端
                ByteBuffer outBuffer = ByteBuffer.wrap("SUCCESS".getBytes());
                channel.write(outBuffer);
                cachedRequests.remove(client);
                System.out.println("文件读取完毕，返回响应给客户端: " + client);

                // 3. 增量上报Master节点自己接收到了一个文件的副本
                // /image/product/iphone.jpg
                namenodeRpcClient.informReplicaReceived(filename.relativeFilename);
                System.out.println("增量上报收到的文件副本给NameNode节点......");

                // 4. 取消监听当前通道的OP_READ事件
                key.interestOps(key.interestOps() & ~SelectionKey.OP_READ);

            } else {

                fileByClient.put(client, fileBuffer);
                getCachedRequest(client).hasReadFileLength = hasReadImageLength;
                System.out.println("本次文件上传出现拆包问题，缓存起来，下次继续读取.......");
            }
        } finally {
            imageChannel.close();
            imageOut.close();
        }
    }
}

将步骤2,3,4，统统挪入 if (!fileBuffer.hasRemaining())中

156_在文件下载的代码流程中加入测试需要观察的一些日志

157_清理一下本地磁盘中的文件准备一个干净的环境用来测试

实现数据节点可以部署多台机器，Master节点会负责整个集群的管控，客户端上传文件的时候走的是一个分布式存储，就是这个文件仅仅会在某个机器上存储一份，但是同时为了高可用，会做一个双副本的冗余，也就是说，每个文件在其他机器上都会有一个副本存在

Master可以收集和管理所有的集群里的元数据，文件目录树，各个机器上的存储的情况

文件下载，会从一个文件的多副本中随机选择某台机器出来，从这台机器上下载一个文件副本到本地

我们已经实现了一套工业级的分布式系统的元数据管理机制、分布式存储架构、多副本冗余的机制、分布式集群中的数据读取的机制、工业级的网络通信/磁盘读写/内存管理/并发控制，但是目前为止可能有一些少数的小bug

在公司里做项目，如此复杂的系统，有一些小bug是很正常的，实际上这些bug需要依靠大量的测试，在测试环境真实部署一套集群出来，然后模拟生产环境的各种情况来进行测试，才能知道具体是怎么回事

158_先测试文件上传后的分布式存储以及多副本冗余等机制是否正常

获取本地绝对路径时，目录在本地磁盘不存在，则直接创建目录

159_再测试基于已经分布式多副本存储的文件是否可以读取

rewind()不能漏，NIO的编程就这点比较恶心，这些buffer的操作

160_对分布式文件系统的架构总结：元数据管理、分布式存储、多副本冗余

目前为止整体的架构

（1）元数据管理机制：纯内存来进行管理、editslog机制、backup备份机制、fsimage合并机制，实现了元数据的初步的高可用的架构（冷备份实现的）

（2）分布式存储架构：海量文件分布式的存储在很多机器上，每台机器存储一部分的文件，后续就可以实现可伸缩性，可以进行集群扩容，就可以无限的扩容让更多的文件可以存储在集群里

（3）多副本冗余架构：因为文件上传的时候多副本冗余存储，如果说某台机器宕机不要紧，这些文件有其他的副本在别的机器上，这样的话就可以保证了数据容错性，高可用性

（4）内存管理机制、并发控制机制、磁盘读写、网络通信（重点）

（5）FastDFS（分布式文件系统，c语言写的，不太适合Java技术栈来使用，看不懂它源码，但是可以分析一下他的架构上的优点），TFS（淘宝内部的分布式文件系统，架构设计），吸取人家架构中的精华和优秀的架构设计思想

（6）高可用、高并发、高性能、可伸缩的架构

这个项目是非常非常具有工业级的价值和意义的，完全可以说你在自己公司里在基础架构的团队，负责带了几个小弟从0开始研发了这么一套分布式存储系统，支撑了公司上亿图片的存储，里面的架构设计的思想，都是极为有价值的

做这个项目的原因是，FastDFS用的时候会有各种各样的问题，而且是很难说是真的可以去读它的源码，分析它的架构，如果出了问题，你很难说去维护和改动它的源码

161_迄今为止已有架构通过一张图来整体梳理一下

why？

本项目的架构，完全是参考的HDFS的架构：文件目录树的更新。

文件目录树的维护是纯内存的操作，如果我们又将文件目录树的维护依赖第三方的zk作为NameNode，第一影响性能，第二又多了个依赖，如果zk挂了则NameNode就不可用了

避免磁盘随机写，通过editslog文件的磁盘顺序写，来避免直接操作磁盘产生磁盘随机写

对于我们的这套架构，里面有一些高可用的问题的，我们后面给大家来分析

对于NameNode我们引入了BackupNode，让BackupNode充当NameNode的冷备份角色，每搁一段时间让BackupNode做一次checkpoint，产生一份fsimage文件，且BackupNode内存中也有一套完整的文件目录树。引入BackupNode就是为了高可用，作为NameNode的备份

162_再来通过一张图梳理一下分布式存储的整体架构思想

不同的分布式系统，分布式NoSQL数据库（HBase），分布式文件系统DFS，分布式缓存系统Redis，分布式消息系统MQ，分布式数据库，分布式微服务注册中心，不同的分布式系统，其实他的元数据都是不一样的，在管理不同的元数据的时候，所采取的策略也是不一样的

HDFS，已经全世界规模最大、最成熟、最优秀的一种分布式文件系统了，他的元数据管理机制的设计都是经过大量的实践和考量的，我就给大家详细分析了为什么要那样设计一套架构

对技术的理解和掌握，大致分为以下几个level：

学习过我们的亿级流量，ES，面试突击，加上你平时自己会自学一些技术，比如说MQ等等，各种技术都知道，初步的能用各种技术做系统
还学过springcloud、分布式事务、分布式锁、并发，如果你学习过这样的一些技术，相当于就是读过了一些开源项目的源码
你能够自研分布式系统、中间件系统，能够基于最底层的数据结构、并发编程、网络通信、磁盘读写，去研发出来适用于特定场景的分布式系统，里面的架构设计的、机制的设计，你都能够玩儿的转
精读MQ、数据库中间件、ES、ZooKeeper、Dubbo，一些流行的分布式系统的源码，这些技术的落地使用（进行第4步的前提是要有第3步的功底）
结合业务，微服务架构，性能优化，高可用方案，高并发方案，把常见的技术在业务系统中的架构设计的方案，都能搞一遍

以上5个阶段都走过了，七八十万年薪的架构师，或者是技术专家的职位，妥妥的

再往后的高大上的架构，那个时候朝着的就是年薪百万以上的架构师，首席架构师，或者高级技术专家的职位去走了

163_先来看看分布式文件系统存在哪些高可用的问题？

如果你在设计一个系统的架构的时候，考虑高可用的话，考虑的就是，你的系统如果有任何一个部分挂掉了，此时你的系统如何继续保持对外是可用的

这个分布式文件系统讲完了以后，就讲Netty，然后就会把分布式微服务注册中心给搞定，做架构升级，用Netty做网络通信，因为当时网络通信的环节都没加入进去，他的架构参考比如阿里的Nacos等等给他做一个架构升级，这是后面课程的规划

我们会讲解ZooKeeper，就是放在分布式文件系统里，做双NameNode热备热切换的高可用的架构设计，然后就是用ZooKeeper再看看在微服务注册中心里有没有使用的场景

Dubbo，把最新的版本，源码，以及底层的Netty、ZooKeeper的使用都一起讲了，因为之前的电商项目是用的SpringCloud，所以Dubbo的使用，会结合别的业务讲一个小的项目出来

三个问题：

（1）副本数量的缺失：正常每个图片都是双副本，如果一个DataNode挂掉了，势必会导致一批图片只有单副本，如果此时再挂一台机器，就可能会导致部分图片就彻底丢失掉了

（2）如果某个客户端正在向DataNode上传图片，此时DataNode突然挂了，客户端发现图片上传失败了，此时如何处理？

（3）如果某个客户端正在从DataNode读取图片，此时DataNode突然挂了，客户端发现图片读取失败了，此时如何处理？

164_如果Master节点宕机之后如何手动完成主备切换？

搞一台新的机器，然后在上面放上去一个最新的fsimage（从BackupNode上来），接着部署一个新的NameNode，然后启动一个新的NameNode，对外来提供服务。比较挫的一个办法，就是得重新部署所有的系统，包括客户端，包括DataNode，包括BackupNode

正常来说，还是在原来的机器上，尝试重启NameNode，这样所有人，都可以基于原先配置的hostname之类的东西可以瞬间感知到NameNode重新起来了

如果原来的NameNode机器上，所有的editslog文件，还有fsimage都损坏了，那么就只能是用BackupNode他的fsimage，在新的一个机器上来部署NameNode

此时如果你要是实现NameNode高可用，必须得是引入ZooKeeper概念，NameNode的地址应该是写到ZooKeeper里去的，然后其他的BackupNode、DataNode、客户端感知NameNode他的地址的变化，都是通过zk来的。当个切换了NameNode后，zk上保存的NameNode地址就会变化，其他的BackupNode，DataNode，客户端就能感知NameNode他的地址的变化

这个时候，就会丢失一些文件或者目录，因为从BackupNode他的fsimage一定是比NameNode滞后一点点的

ZooKeeper主要作用

Hadoop 集群中确实使用了 ZooKeeper 。ZooKeeper主要为Hadoop提供分布式协调服务，确保集群的高可用性和稳定性。

ZooKeeper在Hadoop集群中主要负责‌NameNode的高可用管理‌。当主NameNode发生故障时，ZooKeeper会触发备NameNode的切换，保障HDFS文件系统的数据访问不中断

165_如果一个数据节点突然宕机了，Master节点如何感知到？

我们来看一下这一块，如果DataNode一旦宕机了，此时NameNode如何可以感知到？

166_感知到副本数量缺失之后触发副本复制的任务

一旦感知到了一个DataNode宕机，此时就应该触发这个DataNode上的所有的副本都需要新增一个异步复制的任务，交给其他的DataNode来进行副本复制，保证说每个图片都有2个副本

这个宕机的DataNode上有多个张图片，就需要有多少个副本异步复制的任务，这些副本复制任务又需要分发到别的未宕机的各个DataNode上去，让未宕机的各个DataNode去完成副本的复制

167_完善副本数据结构，需要知道每个数据节点有哪些文件副本

因为NameNode需要知道每个datanode上是有哪些文件副本的，从而在某个datanode宕机时，NameNode才能生成针对这个宕机的datanode上的所有文件副本的异步复制任务

168_为宕机的数据节点上的每个副本都生成一个复制任务

169_为副本复制任务去获取可用的源头数据节点

复制任务的源头节点，就是一个文件有两个副本，分别在两台dataNode只上，当前NameNode通过心跳探测机制，发现死了一个dataNode，那么另外一个dataNode就是本次文件副本的的复制源头节点

170_将创建好的副本复制任务放入目标数据节点的任务队列

171_目标数据节点发送心跳时将复制任务下发给该节点

172_通过心跳响应让目标数据节点接收一个复制任务

173_目标数据节点将接收到的复制任务放入本地任务队列中

因为NameNode管理着21台DataNode集群，NameNode在探测到DataNode-A宕机后，比如DataNode-A上一共有500万文件，NameNode会把这500万文件，平均分25w到另外存活的每台DataNode上去，也就是每台DataNode的上面图第54行，会被执行25w次

174_设计与实现一个用于异步副本复制的线程

java 复制代码

/**
 * 副本复制管理组件
 */
public class ReplicateManager {
	
	public static final Integer REPLICATE_THREAD_NUM = 3;

	/**
	 * 副本复制任务队列
	 */
	private final ConcurrentLinkedQueue<JSONObject> replicateTaskQueue =
			new ConcurrentLinkedQueue<JSONObject>();
	
	public ReplicateManager() {
		for(int i = 0; i < REPLICATE_THREAD_NUM; i++) {
			new ReplicateWorker().start();
		}
	}
	
	/**
	 * 添加复制任务
	 * @param replicateTask
	 */
	public void addReplicateTask(JSONObject replicateTask) {
		replicateTaskQueue.offer(replicateTask);
	}
	
	/**
	 * 副本复制线程
	 * @author zhonghuashishan
	 *
	 */
	class ReplicateWorker extends Thread {
		
		@Override
		public void run() {

			while(true) {
				try {

					JSONObject replicateTask = replicateTaskQueue.poll();

					if(replicateTask == null) {
						Thread.sleep(1000);
						continue;
					}
					
					
				} catch (Exception e) {
					e.printStackTrace();  
				}
			}
		}
		
	}
	
}

175_基于NIO实现两个数据节点之间进行副本的复制

这里将文件副本写到本地后，还忘了一件事，就是要往NameNode进行增量上报