引言
在嵌入式开发中,如何在资源受限的单片机上实现高效并发一直是个挑战。传统RTOS虽然功能强大,但内存开销和复杂性较高。
本文介绍一种基于协程的轻量级并发方案,实现起来非常简单,通过创新的宏设计实现了代码段命名,大幅提升了代码的可读性和可维护性。
这个编程思路的灵感是lua语言带给我的,如果你学过lua你会发现我就是再精简的模拟lua语言的协程。
协程的基本原理
协程是一种用户态的轻量级线程,其切换由程序控制而不涉及内核态切换,因此开销极小。我们的实现基于 Duff's Device 技术,
通过 switch-case 语句和标号计算实现函数的多重入口。
协程框架核心设计
c
enum CoroutineStatus{
COROUTINE_READY = 0, // 就绪状态
COROUTINE_RUNNING = 1, // 运行状态
COROUTINE_SUSPENDED = 2, // 挂起状态
COROUTINE_FINISHED = 3 // 完成状态
};
struct Coroutine{
void *args, *res; //协程参数和返回值
size_t pc; //模拟程序计数器
enum CoroutineStatus status; // 当前状态
void (*func)(struct Coroutine *); // 协程函数
};
typedef struct Coroutine Coroutine;
typedef void (*CoroutineFuncType)(Coroutine *);
核心管理函数
c
// 初始化协程
void coroutineInit(Coroutine *cor, void *args, void *res, CoroutineFuncType func){
cor->args = args;
cor->res = res;
cor->func = func;
cor->pc = 1;
cor->status = COROUTINE_READY;
}
// 运行协程单步
int runCoroutine(Coroutine *cor) {
if (cor->status == COROUTINE_READY || cor->status == COROUTINE_SUSPENDED){
cor->status = COROUTINE_RUNNING;
cor->func(cor);
return 0;
}
return -1;
}
// 轮询调度器
void schedule(Coroutine *cor, size_t len){
int active;
do{
active = 0;
for (int i = 0; i < len; ++i){
if (cor[i].status != COROUTINE_FINISHED){
runCoroutine(&cor[i]);
active += 1;
}
}
}while (active);
}
协程控制宏
c
// 跳转到指定位置并挂起
#define COROUTINE_YIELD_SET_PC(cor, val) \
do{ \
(cor)->pc = val; \
(cor)->status = COROUTINE_SUSPENDED; \
return ; \
}while(0)
// 跳转到相对位置并挂起
#define COROUTINE_YIELD_NEXT(cor, delt) \
do{ \
(cor)->pc += delt; \
(cor)->status = COROUTINE_SUSPENDED; \
return ; \
}while(0)
// 结束协程
#define COROUTINE_END(cor) \
do{ \
(cor)->status = COROUTINE_FINISHED; \
return ; \
}while (0)
// 生成标签枚举
#define MAKE_LABEL(n1, p1, n2, p2, n3, p3, n4, p4, \
n5, p5, n6, p6, n7, p7, n8, p8, \
n9, p9, n10, p10, n11, p11, \
n12, p12, n13, p13, n14, p14, \
n15, p15, n16, p16, ...) \
enum{ \
n1 = 1, n2, n3, n4, n5, n6, n7, n8, n9, n10, \
n11, n12, n13, n14, n15, n16 \
}
// 生成case语句切片,模仿goto
// 由于标准c语言语法中goto后面只能加常量标签所以这里用switch-case模拟goto语句
#define MAKE_LABEL_SLICE(n1, p1, n2, p2, n3, p3, n4, p4, \
n5, p5, n6, p6, n7, p7, n8, p8, \
n9, p9, n10, p10, n11, p11, \
n12, p12, n13, p13, n14, p14, \
n15, p15, n16, p16, ...) \
case n1: p1; case n2: p2; case n3: p3; case n4: p4; \
case n5: p5; case n6: p6; case n7: p7; case n8: p8; \
case n9: p9; case n10: p10; case n11: p11; case n12: p12; \
case n13: p13; case n14: p14; case n15: p15; case n16: p16; \
default: break;
// 协程主体定义宏
#define COROUTINE_PROGN(cor, ...) \
MAKE_LABEL(__VA_ARGS__, N16, , N15, , N14, ,N13, \
, N12, , N11, , N10, , N9, , N8, , N7, \
, N6, , N5, , N4, , N3, , N2, , N1,); \
switch ((cor)->pc){ \
MAKE_LABEL_SLICE(__VA_ARGS__, N16, , N15, , N14, ,N13, \
, N12, , N11, , N10, , N9, , N8, , N7, \
, N6, , N5, , N4, , N3, , N2, , N1,); \
}
这里我只写了16个case,也就是说如果超过16个代码片段就会被抛弃,如果你的程序真的很复杂也可以自己再加,
不过16个应该能满足绝大多数情况了。
另一个问题是此方法可能要求编译器有一定优化能力,因为如果只写了几个片段剩下的case就是空的,
不过本人测试了一下,像clang和gcc对空case的优化特别好,哪怕不开编译优化也不会增加代码体积。
接下来我们写一个最简单的多协程计算数组所有元素的和,示范一下:
c
struct I32AddStructure{
int *array;
size_t len, idx;
};
typedef struct I32AddStructure I32AddStructure;
void add(Coroutine *cor){
int *sum = (int *)cor->res;
I32AddStructure *add = (I32AddStructure *)cor->args;
COROUTINE_PROGN(cor,
ADD_ONE_NUM /*给代码段命名,一般情况下可能无用,
如果你想COROUTINE_YIELD_SET_PC进行绝对跳转的时候特别有用*/,
{
if (add->idx == add->len)
COROUTINE_END(cor); // 已经到最后一个元素关闭协程
*sum += add->array[add->idx++];
COROUTINE_YIELD_NEXT(cor, 0); // 挂起,并且下次执行再执行此代码段
}
);
}
int main(){
Coroutine cor[2];
int array[100];
I32AddStructure add1, add2;
int sum = 0;
for (int i = 0; i < 100; ++i){
array[i] = i;
}
add1.array = array;
add1.len = 50;
add1.idx = 0;
add2.array = array + 50; add2.len = 50;
add2.idx = 0;
coroutineInit(&cor[0], &add1, &sum, add);
coroutineInit(&cor[1], &add2, &sum, add);
schedule(cor, 2);
printf("%d\n", sum);
return 0;
}
当然这并不是再单片机上运行的程序,只是简单的举个例子。核心用法就是使用COROUTINR_PROGN生成需要分割的代码段。
每个代码段用COROUTINE_YIELD_NEXT(相对跳转并挂起)或者COROURINE_YIELD_SET_PC(绝对跳转并挂起)主动的让出cpu
也就是说可以在一些耗时等待其他硬件操作完成时主动调用COROUTINE_YIELD让出cpu,或者在一段时间内完成多个作业也可以使用这个框架。
接下来再来一个复杂的例子(伪代码):
c
// 传感器参数
typedef struct {
uint8_t sensor_pin;
float temperature;
float humidity;
uint32_t sample_count;
} SensorParams;
void sensorCoroutine(Coroutine *cor) {
SensorParams *params = (SensorParams*)cor->args;
static uint32_t last_sample_time = 0;
COROUTINE_PROGN(cor,
// 命名代码段:初始化传感器
INIT_SENSOR,
{
printf("初始化传感器引脚 %d\n", params->sensor_pin);
sensorInit(params->sensor_pin);
last_sample_time = getSystemTime();
COROUTINE_YIELD_NEXT(cor, 1); //挂起,下次运行时运行下一片段,也就是WAIT_SAMPLE_INTERVAL片段
}, // 别忘了这里的逗号
// 命名代码段:等待采样间隔
WAIT_SAMPLE_INTERVAL,
{
if (getSystemTime() - last_sample_time < 1000) { // 1秒间隔
COROUTINE_YIELD_NEXT(cor, 0); // 保持当前状态
}
COROUTINE_YIELD_NEXT(cor, 1); //挂起,下次运行时运行下一片段,也就是READ_SENSOR_DATA片段
}, // 别忘了这里的逗号
// 命名代码段:读取传感器数据
READ_SENSOR_DATA,
{
params->temperature = readTemperature(params->sensor_pin);
params->humidity = readHumidity(params->sensor_pin);
params->sample_count++;
last_sample_time = getSystemTime();
printf("第%lu样本: 温度=%.2fC, 湿度=%.2f%%\n",
params->sample_count, params->temperature, params->humidity);
COROUTINE_YIELD_NEXT(cor, -1); // 回到等待状态
// 或者使用COROUTINE_YIELD_SET_PC(cor, WAIT_SAMPLE_INTERVAL);
}
);
}
使用相对跳转还是使用绝对跳转要看情况,使用绝对跳转可以在以后维护添加代码时在一定程度上不受影响,相反的相对跳转会受影响。
相对跳转适合挂起后接着运行下一段代码片段。
技术优势
1. 极低的内存开销
每个协程仅需约20字节内存(还可以接着优化,比如pc和status可以都用uint8_t)
无需为每个任务分配独立堆栈
2. 高效的上下文切换
切换开销仅为几个寄存器操作
无系统调用开销
确定性执行时间
3. 避免复杂的同步机制
协程在明确位置主动让出CPU
无需互斥锁、信号量等同步原语
降低死锁风险
4. 高度可移植性
纯C实现,不依赖特定硬件特性
可在任何支持标准C的平台运行
与RTOS兼容,可作为补充方案
5. 灵活的调度策略
支持轮询、优先级等多种调度方式
可根据系统负载动态调整
关于拓展
值得注意的是我并没有写协程休眠的机制,其实也很好写,需要在Coroutine结构体中增加一个变量,
在CoroutineStatus增加COROUTINE_SLEEPING状态,并添加几个休眠宏函数,再修改runCoroutine函数就可以了:
c
enum CoroutineStatus{
COROUTINE_READY = 0,
COROUTINE_RUNNING = 1,
COROUTINE_SUSPENDED = 2,
COROUTINE_SLEEPING = 3, //增加睡眠状态
COROUTINE_FINISHED = 4
};
#define GET_TIME() clock(); //在单片机中可以用SysTick获取运行时间
int runCoroutine(Coroutine *cor) {
if (cor->status == COROUTINE_READY || cor->status == COROUTINE_SUSPENDED){
cor->status = COROUTINE_RUNNING;
cor->func(cor);
return 0;
} else if (cor->status == COROUTINE_SLEEPING){
//如果是睡眠状态检测是否到达唤醒时间
if (GET_TIME() >= cor->sleepEndTime){
cor->status = COROUTINE_SUSPENDED;
}
return 0;
}
return -1;
}
//睡眠并指定下一次唤醒跳转到哪里,绝对跳转
#define COROUTINE_SLEEP_SET_PC(cor, time, pc_val) \
do{ \
(cor)->pc = val; \
(cor)->sleepEndTime = GET_TIME() + time; \
(cor)->status = COROUTINE_SLEEPING; \
return ; \
}while(0)
//睡眠并指定下一次唤醒跳转到哪里,相对跳转
#define COROUTINE_SLEEP_NEXT(cor, time, delt) \
do{ \
(cor)->pc += delt; \
(cor)->sleepEndTime = GET_TIME() + time; \
(cor)->status = COROUTINE_SLEEPING; \
return ; \
}while(0)
不过可能很多人觉得这个和状态机很像,确实是这样,叫它封装的状态机也可以。最重要的是这种封装方式不仅简化代码,
而且也美观了一些不是吗?
结语
本文提出的基于协程的轻量级并发方案,为资源受限的嵌入式系统提供了一种简洁高效的并发编程范式。通过借鉴Lua语言的协程思想,
并巧妙运用C语言的宏定义和Duff's Device技术,我们成功地在单片机上实现了内存开销极低、切换效率极高的协程框架。
该方案的核心优势在于:
极简设计:每个协程仅需约20字节内存,无需独立堆栈
高效切换:纯用户态切换,无系统调用开销
代码优雅:通过宏定义实现了代码段命名,大幅提升了状态机代码的可读性和可维护性
高度可移植:纯C实现,不依赖特定硬件平台
与传统RTOS相比,本方案在满足大多数嵌入式并发需求的同时,避免了复杂的内存管理和同步机制,降低了系统复杂度和死锁风险。
特别是对于那些对内存和实时性要求极高的应用场景,这种轻量级协程框架展现出了独特的价值。
展望未来,该框架还可以进一步扩展,如增加优先级调度、协程间通信、动态创建销毁等功能。希望这个从Lua语言中汲取灵感的实现方案,能够为嵌入式开发者提供新的思路,在资源受限的环境中依然能够编写出清晰、高效的并发代码。
正如编程语言的设计哲学所示:简洁并不等于简单,优雅的解决方案往往来自于对问题本质的深刻理解。