Protobuf:基本概念与使用流程

Protobuf:基本概念与使用流程


基本概念

在进行网络编程时,经常需要进行数据传输,只有双方主机都保证数据格式的一致性,才能保证数据被正常解析。这个过程称为序列化反序列化,当前主流的标准有jsonxml等,而protobuf就是其中一个数据格式的标准。

jsonxml都是人类可视化的序列化形式,存储的都是字符串,哪怕没有程序解析都可以直接读取。

比如一个Person类,分别用jsonxml序列化的结果:

json

json 复制代码
{
  "name" : "John Doe",
  "age" : 30,
  "email" : "john.doe@example.com"
}

xml

xml 复制代码
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Person>
    <name>John Doe</name>
    <age>30</age>
    <email>john.doe@example.com</email>
</Person>

哪怕没有学习过相关语法,也可以很容易读取出序列化后的内容所包含的信息。

protobuf存储的方式则是二进制形式,序列化后无法直接读取,只能看到乱码,必须由程序完成解析。相应的,protobuf的效率会比上面两者高很多,因为protobuf对数据的压缩效率极高,牺牲可视化换取高效,在一些需要高效传输数据的场景很有用。

一个序列化相关的协议,想要在计算机语言中使用,自然要配备相关的库,比如JavaScript原生对json的支持,C++通过jsoncpp库对json的支持。

protobuf由谷歌开发,谷歌也编写了相关的库,其可以支持C++JavaPythonGoC#JavaScriptPHP等主流语言,本博客以C++讲解protobuf


使用流程

.proto文件

就像C语言基于.c文件,C++基于.cpp文件,protobuf是基于.proto文件使用的。在.proto文件内部基于proto3语法编写文档,就可以自动生成其他语言的代码。

创建一个test.proto文件,在内部写以下内容:

cpp 复制代码
syntax = "proto3";
package test_pack;

message Person {
    string name = 1;
    int32 age = 2;
}

// 一条注释

.proto文件基本格式如下:

  1. 语法指定行

首行固定为语法指定行,用于指定protobuf的语法版本,格式:

cpp 复制代码
syntax = "版本号";

目前最新的版本为proto3,填入:

cpp 复制代码
syntax = "proto3";

注意一定要在首行,哪怕上面有空行也不行,否则无法编译。

  1. package命名空间

package是一个命名空间,可以避免命名冲突,类似于C++中的namespace或者Java中的package。这是一个可选项,如果不怕命名冲突,也可以不指定。

语法:

cpp 复制代码
package 命名空间;
  1. message 消息

message用于定义一个结构化的对象,其实就是一个class,内部可以定义成员。

成员字段的格式如下:

cpp 复制代码
类型 成员名 = 标签;

具体类型比较多,会有专门的博客讲解protobuf的类型。标签protobuf压缩数据的重要方式,就是给每个变量指定一个编号,后续会专门讲解该内容。

标签范围: [ 1 , ( 2 29 − 1 ) ] [1, (2^{29} - 1)] [1,(229−1)]

其中[19000, 19999]不可用,是保留的编号。

解析:

cpp 复制代码
message Person {
    string name = 1;
    int32 age = 2;
}
  • name:字符串类型,标签为1
  • age:32位整型,标签为2

学过任何一门面向对象语言,这些内容都很好理解。

  1. 注释

.proto文件中注释格式有两种:

cpp 复制代码
// 行注释

/* 块注释 */

另外的,注释不占行数,也就是说首行可以是注释,不会影响syntax指定的语法标准:

cpp 复制代码
// 注释...
// 注释...
// 注释...
syntax = "proto3";

以上写法是合法的,syntax前面可以有注释,但不能有空行或其他内容。


编译

编写好一个基本的.proto文件后,就可以对其进行编译,需要通过protoc指令:

bash 复制代码
protoc [--proto_path=improt路径] --cpp_out=目标路径 源路径.proto
  1. --proto_path:指定 .proto 文件的搜索路径

.proto文件中,可以通过import导入其它的.proto文件,此时就需要通过--proto_path来指定其他文件的查找路径,否则无法找到文件。

  1. --cpp_out=目标路径

--cpp_out用于指定输出C++语言的代码,目标路径是生成的代码的位置。

其他语言的选项:

选项 描述
--cpp_out 指定生成 C++ 代码的目录
--java_out 指定生成 Java 代码的目录
--python_out 指定生成 Python 代码的目录
--csharp_out 指定生成 C# 代码的目录
--go_out 指定生成 Go 代码的目录
--js_out 指定生成 JavaScript 代码的目录
--objc_out 指定生成 Objective-C 代码的目录
--php_out 指定生成 PHP 代码的目录
--ruby_out 指定生成 Ruby 代码的目录
--grpc_out 指定生成 gRPC 服务端和客户端代码的目录
--grpc_java_out 指定生成 Java gRPC 代码的目录
--swift_out 指定生成 Swift 代码的目录
  1. 源文件路径

最后再指定xxx.proto源文件的路径。

如果是C++,编译后会产生如下文件:

至少产生了xxx.pb.ccxxx.pb.h,这些就是生成的C++代码,后续可以直接使用内部的接口。


使用

xxx.pb.h文件中至少可以找到以下内容:

cpp 复制代码
namespace test_pack {

class Person final : public ::google::protobuf::Message
/* @@protoc_insertion_point(class_definition:test_pack.Person) */ {
 public:
  inline Person() : Person(nullptr) {}
  ~Person() PROTOBUF_FINAL;
  // ...
  }
}

可以看到一个命名空间域namespace test_pack,这就是之前在.proto文件中写的package test_pack,最后转化为了C++的命名空间域。

message Person也转化为了class Person,其内部实现了大量接口,包含getset等方法,以及序列化和反序列化接口。


运行机制

至此也可以看出protobuf具体是如何运行的了,如下图:

使用protobuf需要编写.proto文件,随后通过protoc编译器编译.proto文件,就可以得到对应语言的文件。在对应语言的文件中,会包含各类接口,最重要的就是序列化和反序列化。

.proto文件中,会有很多和计算机语言具体对应的概念,比如message对应类,package对应命名空间域,或者其他语言的包。他们都会在编译器的作用下,自动转化成对应的语言。

最后只要往自己的业务代码中引入文件,比如#include "xxx.pb.h",或者其他语言的import等,就可以直接在业务代码中使用protobuf了。


相关推荐
GDAL4 天前
GeoPB: A Protobuf Solution for Efficient Geospatial Data Handling
javascript·protobuf·geopb
剑海风云18 天前
Google大数据架构技术栈
大数据·google·架构·bigdata
孙中明1 个月前
Google的MapReduce和Hadoop的MapReduce基本原理
大数据·前端·hadoop·google·mapreduce·大数据精读周刊
小冰子X1 个月前
ProtoBuf 详解
c++·protobuf
SEO_juper1 个月前
Google Search Console:完整教程
搜索引擎·google·谷歌·工具·seo·数字营销
华研荟1 个月前
谷歌登录的时候,要求在手机的通知点是,并按数字来验证身份,但是手机通知栏没有收到通知和数字,原因是什么,怎么办?
google·gmail·google账号异常·google账号停用
地球空间-技术小鱼1 个月前
Android开发语言Kotlin简介
google
图灵搜开发1 个月前
做外贸如何判断国外采购商公司规模
大数据·人工智能·物联网·google·新媒体运营
小欧欧11 个月前
关于Protobuf在使用中的一些注意点
protobuf