【论文解析】基于开源 Matrix 指令集扩展（矢量点积）的高性能 RISC-V 处理器“香山”（nanhu 版本）的 LLM 加速的研究

作者及发刊详情

选用了三种模型。

对 GPT-2 小型模型、中型模型、大型模型的推理速度提升分别为 30.9%、27.8%、27.9%。

nanhu-vdot 相比"香山"(nanhu 版本)增加 15677 个 LUT 单元，占比 2.8%，增加 2486 个 Flip-Flop 单元，占比 0.9%，BRAMs 未增加。

"香山"(nanhu 版本)的功耗开销为 8.454W，nanhu-vdot 功耗为 8.494W。nanhu-vdot 相比于"香山"(nanhu版本)的功耗仅增加 0.5%.

硬件：编写矢量点积计算定制自定义扩展指令的单元设计代码，对矢量点积进行加速，与高性能处理器"香山"(nanhu 版本)一起编译，生成可仿真的比特流。

软件：

增加自定义矢量点积计算指令
修改编译器，使其支持扩展的指令
修改 GPT-2 开源 C/C++代码,其中对于 int8 类型矢量点积计算部分通过汇编指令调用硬件执行单元,在调用硬件前后进行数据类型转换,最终通过硬件的加速计算得到文本输出。

实现 GPT-2 大模型推理中元素类型为 int8 的矢量点积计算实现

设计了矢量点积计算单元和流水线处理逻辑，即VDOTU模块。

该模块作为扩展指令的核心执行单元，采用SIMD向量化的执行方式。

该工作的硬件设计较为简单，大量的工作在原软件工作，特别是模型算子的移植。

值得借鉴的是该方案的测试流，极大的简化的软件工作，详细参考实验评估部分。