【研发日记】嵌入式处理器技能解锁(六)——ARM的Cortex-M4内核

理论上指令集分为复杂指令集(Complex Instruction Set Computer，CISC)和精简指令集(Reduced Instruction Set Computer，RISC)。CISC出现的较早，典型的代表是x86架构。CISC里边的每个指令通常包含多个操作（指令长度在几字节到十几字节不等），这些操作可以在单个指令中完成，这样就可以通过一条指令完成复杂的操作，减少了内存访问次数实现更高的代码执行效率，同时也提高了代码密度减少了软件开发人员编写代码的时间和工作量。随着技术的发展，指令数量越来越多，CISC处理器的设计和优化变得越来越困难，并且大部分的指令的使用频率非常低，导致了硬件资源的浪费。所以就出现了RISC，慢慢更加流行起来。RISC的特点是每个指令只执行一个操作（指令长度在2字节或4字节），指令数量精简掉很多，提高了处理器的可靠性。软件开发人员组合使用这些指令，也可以实现复杂的功能，同时也更容易对复杂操作进行设计和优化。

下面以伪汇编指令举例，说明一个简单加法运算：地址 $0001$ 的数据，和地址 $0002$ 的数据相加，结果存到地址 $0003$ 里。

ACC形式的伪汇编指令如下：

cpp 复制代码

LOAD ACC [0001]  //地址[0001]的数据，加载到累加器ACC

ADD ACC [0002] ACC  //ACC加地址[0002]的数据，结果存到ACC

STOR ACC [0003]  //ACC的数据存到地址[0003]

LOAD_ STORE形式的伪汇编指令如下：

cpp 复制代码

LOAD R1 [0001]    //地址[0001]的数据，加载到R1寄存器

LOAD R2 [0002]    //地址[0002]的数据，加载到R2寄存器

ADD R3 R1 R2       //R1+R2，结果存到R3寄存器

STORE R3 [0003]   //R3寄存器的数据存到地址[0003]

ACC形式的微控制器只有一个ACC（累加器，ACC可以认为是一个寄存器），数据可以直接从RAM到ACC进行累加，但是运算结果需要还存回RAM里，ACC才能放入新数据。运算速度的瓶颈卡在ACC寄存器数量太少。

LOAD_ STORE形式的微控制器没有ACC，而是增加了多个内部运算寄存器R1、R2、R3、...、R12等等，多形参函数不用反复的压栈和出栈，降低了内核和外部数据的耦合程度（同时也增加了调度难度）。运算速度的瓶颈卡在LOAD环节太多。

总的来讲CISC和RISC各有优缺点，现代计算机处理器通常采用混合指令集。现实中的嵌入式系统芯片大多是以RISC为主体（有利于平台化通用化），少量补充一些专用CISC（有利于专项性能极致发挥），所以很难把一个厂商的处理器明确地划分为CISC或者RISC。当前影响比较大的两类是ARM(Advanced RISC Machines)和RISC-V(Reduced Instruction Set Computer -Five)。

ARM是一种基于RISC架构的处理器架构，采用了Thumb简化指令集和Thumb-2扩展指令集。Thumb简化指令集是一种基于RISC的指令集，指令长度为16位，比原本的32位指令集要短，占用空间更小，能够在存储和传输数据时提高效率。Thumb-2扩展指令集则是在Thumb简化指令集的基础上扩展而来的，指令长度包括16位和32位两种，支持更多的指令和操作，满足不同领域应用的需求。除了RISC之外，ARM还采用了一些特殊的技术，如流水线、分支预测等，以提高指令的执行速度和效率。ARM的部分指令集如下图所示：

RISC-V是基于RISC的一个开放，免费的指令集架构，具有灵活、可扩展定制、跨平台、广泛适用等特点。RISC-V指令集设计的目标是提供一种通用的指令集架构，适用于各种计算机系统和嵌人式系统，包括高性能服务器、个人计算机、移动设备、物联网、机器人、汽车电子等领域。RISC-V包括基本指令集(RV32I、RV64I)和标准扩展指令集(RV32G、RV64G)，以及可选的专用扩展指令集，如浮点指令集(RV32F、RV32D、RV64F、RV64D)，向量指令集(RV32V、RV64V)等，开发者可以根据实际需求选择合适的指令集。RISC-V的特性点决定了其在未来计算机系统和嵌人式系统发展趋势中的重要地位，是我国芯片领域自主创新的一个重要方向，以华为麒麟710、北京兆易GD32V系列为代表的国产RISC-V芯片，已经开始广泛用于各种领域。

Tips1：MIPS（Microprocessor without Interlocked Pipeline Stages）也是采取RISC的一种指令集架构。

Tips2：TI C2000 DSP的C28x内核官方宣称是RISC，实际上也包含了CISC。

ARM起源

1978年，物理学家Hermann Hauser和工程师Chris Curry在英国剑桥创办了CPU(Cambridge Processing Unit)公司，主要业务是为当地市场供应电子设备。后来公司改名为ACG(Acorn Computer Group)公司。

1983年，ACG公司开始研发一种新的处理器架构，命名为ARM(Advanced RISC Machine)。两年时间就开始被应用在自家的新一代计算机Archimedes上。

1990年，ACG公司正式改名为ARM计算机公司，吸引了很多大公司的投资。苹果公司、芯片厂商VLSI公司，加上ACG本身的资金和知识产权，一起人股做了一家这样的ARM计算机公司。起初由于业务不景气，ARM公司被迫放弃自己制造芯片，把芯片的设计方案授权给其他公司来生产。正是因为这个因祸得福的模式，使ARM的芯片遍地开花。这个迫于无奈的决定，在今天看来意义非常深远，奠定了ARM公司长久以来的发展模式。

近年来，ARM 继续推出了一系列高性能、低功耗的处理器，如Cortex-A76、Cortex-A77和Cortex-A78等，被广泛地应用于智能手机、物联网和自动驾驶等领域。同时，ARM还在人工智能、机器学习等领域不断进行探索。

现在的ARM公司是全球嵌人式处理器领域的领导者，在嵌入式领域有着巨大的影响。ARM公司基本不生产处理器芯片，而是专注于设计处理器内核和架构，然后再授权给其他芯片厂商，赚取首次的授权费和后续销售每颗处理器芯片的知识产权费。ARM合作商遍布全球，根据ARM公司发布的数据，其处理器架构在全球处理器市场份额已经超过50%，特别是在智能手机和平板电脑等领域，几乎是市场的独霸者。由于ARM刚好赶上了移动设备爆发式发展的时代，最终造就了它的辉煌。

未来，虽然ARM公司宣称其基本统一了全球的智能手机领域，但在手机领域里并不轻松，有被边缘化的可能性。手机行业的客户非常强大又强势，且客户的研发实力更强，也不想受制于人，都开始着手做自己的微架构（国内的手机公司也准备抛弃ARM公司的微架构）。苹果、高通等手机芯片厂家，并不采用ARM公司的微架构，仅购买其指令集，所以不同手机处理器厂家有不同的处理速度、扩展硬件和扩展指令。

Tips：ARM起初是一家英国公司，2016年被日本软银集团收购了，到了2020年美国NVIDIA（英伟达）想再次收购ARM，因垄断调查没有成功。

ARM分类

ARM处理器产品分为传统经典系列和较新的Cortex处理器系列，并且根据应用范围的不同又分为应用处理器、实时处理器、微控制处理器三种类别。如下图所示：

Cortex-A系列：这是一种ARMv7、ARMv8(64位)或ARMv9(64位)版本的应用处理器架构，采用了超标量流水线设计，能够实现更高的性能和效率。适用于高性能的移动设备、智能电视、网络设备、云计算和服务器等场景。

Cortex-R系列：这是一种针对实时系统的ARM架构，增加了一些安全机制，具有强实时性和高可靠性，支持容错和纠错机制。适用于汽车、工业自动化、航空航天和医疗设备等领域中的专项应用，相比A系列和M系列它的市场应用窄很多。

Cortex-M系列：这是一种专门为嵌入式系统和微控制器设计的ARM架构，具有低功耗、低成本和微实时性等特点，可以实现小型、低功耗的嵌入式系统设计。适用于智能家居、物联网、汽车、工业自动化、航空航天和医疗设备等领域的广泛应用。Cortex-M系列逐渐有覆盖R系列和A系列部分特性的发展趋势，其子系列非常丰富，包括：

1、低速度和低功耗定点系列：MO、M0+；

2、中端定点系列：M3；

3、中端含有DSP功能的可选浮点系列：M4；

4、高端含有DSP功能的浮点系列：M7；

5、加人安全机制系列：M23、M33、M35P。

Tips：这里缺少了M1系列，因为M1系列只适用于运行在FPGA上，不是通用的微控制器内核。

Cortex-M4

ST（意法半导体），由意大利和法国的两家半导体公司合并而成。ST公司以STM32为前缀的32位微处理器，就是采用ARM的内核。其中最为人熟知，最主流也是性价比最高的，就是入门级别的STM32 F1系列和中端级别STM32 F3系列。F1系列与F3系列最主要的不同之处就是，Cortex-M4比Cortex-M3多了浮点处理单元和DSP单元，如下图所示：

DSP(Digital Signal Process)特性：

Single-cycle 16/32-bit MAC(Combined Multiply and Accumulate);

Single-cycle dual 16-bit MAC;

8/16-bit SIMD(Single Instruction, Multiple Data) arithmetic;

Hardware support for conversion, addition, subtraction, multiplication with optional accumulate, division(2-12 cycles), and square root;

FPU(Floating-Point Unit)特性：

Optional single precision floating point unit;

IEEE 754 compliant;

内核框架

Cortex-M4的内核框架如下图所示：

指令流水线

Cortex-M4采用3级Pipeline（流水线）如下图所示：

实践应用

👍点赞过100，下一篇文章继续

总结

一个处理器要向更高性能升级，常用的主要途径是：

1、采用更先进的nm制程工艺水平；

2、降低内核电压，从而降低功耗获得更快的工作频率；

3、增加多级流水线；

4、多核，但也带来代码复杂性的急剧上升；

5、增加更宽的位数，从而一次性处理多个数据,即单指令多数据流(SIMD)；

6、添加新的独立硬件单元，并添加新指令。与此同时，仍要保持系统的向下兼容性，保留原先大多数的旧指令。

随着指令的增加，要保持系统仍是精简指令集，是一件困难的事情。有程序员感叹：这个世界到底有没有指令很少的精简指令集系统?虽然多数书籍时髦的人云亦云地说，RISC架构的指令更少，实际上不断增长的ARM指令非常多，绝对不比CISC指令少。

以上就是本人在研发中使用ARM Cortex-M4处理器时，一些个人理解和分析的总结，主要介绍了ARM的起源和发展，展示了ARM Cortex-M4内核的工作原理，并分析了它的特点和应用场景。

后续还会分享另外几个最近解锁的嵌入式处理器新技能，欢迎评论区留言、点赞、收藏和关注，这些鼓励和支持都将成文本人持续分享的动力。

另外，上述例程使用的Demo工程，可以到笔者的主页查找和下载。

参考资料

Arm-Cortex-M4-Processor-Datasheet.pdf