Protobuf：基本概念与使用流程

基本概念

在进行网络编程时，经常需要进行数据传输，只有双方主机都保证数据格式的一致性，才能保证数据被正常解析。这个过程称为序列化与反序列化，当前主流的标准有json、xml等，而protobuf就是其中一个数据格式的标准。

json和xml都是人类可视化的序列化形式，存储的都是字符串，哪怕没有程序解析都可以直接读取。

比如一个Person类，分别用json和xml序列化的结果：

json：

json 复制代码

{
  "name" : "John Doe",
  "age" : 30,
  "email" : "john.doe@example.com"
}

xml：

xml 复制代码

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Person>
    <name>John Doe</name>
    <age>30</age>
    <email>john.doe@example.com</email>
</Person>

哪怕没有学习过相关语法，也可以很容易读取出序列化后的内容所包含的信息。

而protobuf存储的方式则是二进制形式，序列化后无法直接读取，只能看到乱码，必须由程序完成解析。相应的，protobuf的效率会比上面两者高很多，因为protobuf对数据的压缩效率极高，牺牲可视化换取高效，在一些需要高效传输数据的场景很有用。

一个序列化相关的协议，想要在计算机语言中使用，自然要配备相关的库，比如JavaScript原生对json的支持，C++通过jsoncpp库对json的支持。

protobuf由谷歌开发，谷歌也编写了相关的库，其可以支持C++、Java、Python、Go、C#、JavaScript、PHP等主流语言，本博客以C++讲解protobuf。

使用流程

.proto文件

就像C语言基于.c文件，C++基于.cpp文件，protobuf是基于.proto文件使用的。在.proto文件内部基于proto3语法编写文档，就可以自动生成其他语言的代码。

创建一个test.proto文件，在内部写以下内容：

cpp 复制代码

syntax = "proto3";
package test_pack;

message Person {
    string name = 1;
    int32 age = 2;
}

// 一条注释

.proto文件基本格式如下：

语法指定行

首行固定为语法指定行，用于指定protobuf的语法版本，格式：

cpp 复制代码

syntax = "版本号";

目前最新的版本为proto3，填入：

cpp 复制代码

syntax = "proto3";

注意一定要在首行，哪怕上面有空行也不行，否则无法编译。

package命名空间

package是一个命名空间，可以避免命名冲突，类似于C++中的namespace或者Java中的package。这是一个可选项，如果不怕命名冲突，也可以不指定。

语法：

cpp 复制代码

package 命名空间;

message 消息

message用于定义一个结构化的对象，其实就是一个class，内部可以定义成员。

成员字段的格式如下：

cpp 复制代码

类型 成员名 = 标签;

具体类型比较多，会有专门的博客讲解protobuf的类型。标签是protobuf压缩数据的重要方式，就是给每个变量指定一个编号，后续会专门讲解该内容。

标签范围： [ 1 , ( 2 29 − 1 ) ] [1, (2^{29} - 1)] [1,(229−1)]

其中[19000, 19999]不可用，是保留的编号。

解析：

cpp 复制代码

message Person {
    string name = 1;
    int32 age = 2;
}

name：字符串类型，标签为1
age：32位整型，标签为2

学过任何一门面向对象语言，这些内容都很好理解。

注释

.proto文件中注释格式有两种：

cpp 复制代码

// 行注释

/* 块注释 */

另外的，注释不占行数，也就是说首行可以是注释，不会影响syntax指定的语法标准：

cpp 复制代码

// 注释...
// 注释...
// 注释...
syntax = "proto3";

以上写法是合法的，syntax前面可以有注释，但不能有空行或其他内容。

编译

编写好一个基本的.proto文件后，就可以对其进行编译，需要通过protoc指令：

bash 复制代码

protoc [--proto_path=improt路径] --cpp_out=目标路径 源路径.proto

--proto_path：指定 .proto 文件的搜索路径

在.proto文件中，可以通过import导入其它的.proto文件，此时就需要通过--proto_path来指定其他文件的查找路径，否则无法找到文件。

--cpp_out=目标路径

--cpp_out用于指定输出C++语言的代码，目标路径是生成的代码的位置。

其他语言的选项：

选项	描述
`--cpp_out`	指定生成 `C++` 代码的目录
`--java_out`	指定生成 `Java` 代码的目录
`--python_out`	指定生成 `Python` 代码的目录
`--csharp_out`	指定生成 `C#` 代码的目录
`--go_out`	指定生成 `Go` 代码的目录
`--js_out`	指定生成 `JavaScript` 代码的目录
`--objc_out`	指定生成 `Objective-C` 代码的目录
`--php_out`	指定生成 `PHP` 代码的目录
`--ruby_out`	指定生成 `Ruby` 代码的目录
`--grpc_out`	指定生成 `gRPC` 服务端和客户端代码的目录
`--grpc_java_out`	指定生成 `Java` `gRPC` 代码的目录
`--swift_out`	指定生成 `Swift` 代码的目录

源文件路径

最后再指定xxx.proto源文件的路径。

如果是C++，编译后会产生如下文件：

至少产生了xxx.pb.cc和xxx.pb.h，这些就是生成的C++代码，后续可以直接使用内部的接口。

使用

在xxx.pb.h文件中至少可以找到以下内容：

cpp 复制代码

namespace test_pack {

class Person final : public ::google::protobuf::Message
/* @@protoc_insertion_point(class_definition:test_pack.Person) */ {
 public:
  inline Person() : Person(nullptr) {}
  ~Person() PROTOBUF_FINAL;
  // ...
  }
}

可以看到一个命名空间域namespace test_pack，这就是之前在.proto文件中写的package test_pack，最后转化为了C++的命名空间域。

message Person也转化为了class Person，其内部实现了大量接口，包含get，set等方法，以及序列化和反序列化接口。

运行机制

至此也可以看出protobuf具体是如何运行的了，如下图：

使用protobuf需要编写.proto文件，随后通过protoc编译器编译.proto文件，就可以得到对应语言的文件。在对应语言的文件中，会包含各类接口，最重要的就是序列化和反序列化。

在.proto文件中，会有很多和计算机语言具体对应的概念，比如message对应类，package对应命名空间域，或者其他语言的包。他们都会在编译器的作用下，自动转化成对应的语言。

最后只要往自己的业务代码中引入文件，比如#include "xxx.pb.h"，或者其他语言的import等，就可以直接在业务代码中使用protobuf了。