在图像处理中,难免会遇到对图像进行卷积或者模板的局部处理,例如ISP中的一些算法,很大部分都需要一个窗口,在实时视频处理中,可以利用行缓存Line buffer可以暂存几行数据,然后同时输出每行中的对应列的像素。
下面以一个三行缓存进行解释
DVP像素流从Shif_in输入,像素不流不断在行缓存中移动,行缓存的最后一个像素使用line_out来保存,通过这种方式,lin_out输出部分就是每行对应列中的像素,在算法模块中,对line_out寄存三拍,就可以得到3x3的窗口大小。
暂存区的设计可以使用一个双口同步RAM来实现:
cpp
module simple_dp_ram
#(
parameter DW = 8,
parameter AW = 4,
parameter SZ = 2**AW
)
(
input clk,
input wen,
input [AW-1:0] waddr,
input [DW-1:0] wdata,
input ren,
input [AW-1:0] raddr,
output [DW-1:0] rdata
);
reg [DW-1:0] mem [SZ-1:0];
always @ (posedge clk) begin
if (wen) begin
mem[waddr] <= wdata;
end
end
reg [DW-1:0] q;
always @ (posedge clk) begin
if (ren) begin
q <= mem[raddr];
end
end
// always @(posedge clk) begin
// // 先执行读操作
// if (ren) begin
// q <= mem[raddr];
// end
// // 后执行写操作
// if (wen) begin
// mem[waddr] <= wdata;
// end
// end
assign rdata = q;
endmodule
这里涉及到一个问题,当读地址和写地址相同时,会导致冲突吗?
我这里找到的解释是,具体行为会依赖于底层的实现,在同一个时钟周期同时读写同一个地址在FPGA中通常是读优先的,即会先读取该地址的旧值,然后向该地址写如新值。(有大佬了解的可以帮忙解释以下:))。
行缓存LineBuffer源码如下所示:
cpp
///基于卷积或者模板的算法需要使用该模块
module shift_register
#(
parameter BITS = 8,
parameter WIDTH = 480, //行缓存宽度
parameter LINES = 3 //行缓存行数
)
(
input clock,
input clken,
input [BITS-1:0] shiftin, //输入数据流
output [BITS-1:0] shiftout, //当前行最后一个像素的数据输出。
output [BITS*LINES-1:0] tapsx //行缓存的输出:包含每行最后一个像素的输出,拼接成一个长向量
);
localparam RAM_SZ = WIDTH - 1; //每行的实际大小
localparam RAM_AW = clogb2(RAM_SZ); //计算地址宽度
///地址指针逻辑
reg [RAM_AW-1:0] pos_r; //pos_r:记录当前写入的位置。
///(RAM_SZ[RAM_AW-1:0] - 1'b1)实际上就是WIDTH - 2
//行缓存的最后一个像素使用line_out来保存,RAM实际上只保存了WDITH-1个像素(pos在0~WIDTH-2之间)
wire [RAM_AW-1:0] pos = pos_r < RAM_SZ ? pos_r : (RAM_SZ[RAM_AW-1:0] - 1'b1); ///当 pos_r 超过范围时限制其值,用于确保地址有效
always @ (posedge clock) begin
if (clken) begin
if (pos_r < RAM_SZ - 1)
pos_r <= pos_r + 1'b1; //地址指针 pos_r 循环递增,直到到达最大地址后重置为 0
else
pos_r <= 0;
end
end
reg [BITS-1:0] in_r;
always @ (posedge clock) begin
if (clken) begin
in_r <= shiftin; //寄存输入数据 shiftin,用于提供给第 0 行的 RAM 写入。
end
end
wire [BITS-1:0] line_out[LINES-1:0]; //记录每行的最后一个像素
///生成菊花链行缓存结构,在第二行开始才将上一行末尾连接到下一行的输入中,第一行输入in_r,每一行的最后一个像素寄存在line_out中
generate
genvar i;
for (i = 0; i < LINES; i = i + 1) begin : gen_ram_inst
//在当前周期,line_out[i] 先从 pos 地址中读取之前存储的数据。随后将 (i > 0 ? line_out[i-1] : in_r) 写入 pos 地址。
simple_dp_ram #(BITS, RAM_AW, RAM_SZ) u_ram(clock, clken, pos, (i > 0 ? line_out[i-1] : in_r), clken, pos, line_out[i]);
end
endgenerate
assign shiftout = line_out[LINES-1]; //移位输出
generate
genvar j;
for (j = 0; j < LINES; j = j + 1) begin : gen_taps_assign
assign tapsx[(BITS*j)+:BITS] = line_out[j];
end
endgenerate
//计算需要位宽
function integer clogb2;
input integer depth;
begin
for (clogb2 = 0; depth > 0; clogb2 = clogb2 + 1)
depth = depth >> 1;
end
endfunction
endmodule
这里使用了一个clogb2函数来获取配置的WIDTH需要的位宽。在代码中涉及了同一时钟周期对双口RAM中同一地址的读写问题,既然项目最后能跑起来,应该就是读优先的。