首尾元素相同的间隔循环策略

在看Flash Attention4的过程中,发现一个很有趣的细节。以往在写输出数组等方式时,会面临一个元素和逗号间接输出的情况,且第一个元素前和第二个元素后都不包含逗号,如[3, 4, 5, 6, 7],写过程序的应该都见过这种处理方式,一种手段是先输出一个元素,然后循环输出逗号+元素,另一种手段是先循环输出元素+逗号,然后输出输出最后一个元素。

然后我就在内联汇编里看到了如下代码:

cpp 复制代码
f"@leader_thread tcgen05.mma.cta_group::1.kind::f16 [tmem_acc], [tmem_a], smem_desc_b, idesc, {pred_str};\n\t"
            + "".join(
                (
                    # f"add.u32 tmem_a, tmem_a, {hex(offset_a_diff[k - 1])};\n\t"
                    f"add.u32 smem_desc_b_lo, smem_desc_b_lo, {hex(offset_b_diff[k - 1])};\n\t"
                    f"mov.b64 smem_desc_b, {{smem_desc_b_lo, smem_desc_b_hi}};\n\t"
                    # f"@leader_thread tcgen05.mma.cta_group::1.kind::f16 [tmem_acc], [tmem_a], smem_desc_b, idesc, 1;\n\t"
                    f"@leader_thread tcgen05.mma.cta_group::1.kind::f16 [tmem_acc], [tmem_a + {hex(offset_a[k])}], smem_desc_b, idesc, 1;\n\t"
                )
                for k in range(1, cute.size(tCrA.shape[2]) if cutlass.const_expr(mbar_ptr is None) else cute.size(tCrA.shape[2]) // 4 * 3)
            )
            ```
注意看第一个@leader_thread和随后的循环中的@leader_thread,正是采用第一种策略。
相关推荐
迷途之人不知返8 分钟前
优先级队列:priority_queue
数据结构·c++
曦夜日长12 分钟前
C++ STL容器string(一):string的变量细节、默认函数的认识以及常用接口的使用
java·开发语言·c++
代码中介商14 分钟前
C++ STL 标准模板库完全指南:从容器到迭代器
开发语言·c++·stl
winner888116 分钟前
C++ 构造函数、析构函数、虚函数、虚析构
开发语言·c++
想唱rap17 分钟前
应用层协议与序列化
linux·运维·服务器·网络·数据结构·c++·算法
许长安20 分钟前
protobuf 使用详解
c++·经验分享·笔记·中间件
资深流水灯工程师20 分钟前
UART 通讯DMA+IDLE模式笔记
笔记·单片机·嵌入式硬件
Soley23 分钟前
用 Boost.Log 封装一个更顺手的 C++17 日志库:GoodLog
c++
HAPPY酷29 分钟前
从Public到Private:UE5 C++类创建路径差异全解析
java·c++·ue5
无敌昊哥战神29 分钟前
【LeetCode 37】解数独 (Sudoku Solver) —— 回溯法详解 (Python/C/C++)
c语言·c++·python·算法·leetcode