HLS 后端示例

更多 TVM 中文文档可访问 →Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。 | Apache TVM 中文站


TVM 支持带有 SDAccel 的 Xilinx FPGA 板,接下来介绍如何将 TVM 部署到 AWS F1 FPGA 实例。

备注:此功能仍处于测试阶段,目前无法用 SDAccel 部署端到端神经网络。

本教程使用了两个 Python 脚本:

  • build.py - 用于合成 FPGA 比特流的脚本。

    import tvm
    from tvm import te

    tgt= tvm.target.Target("sdaccel", host="llvm")

    n = te.var("n")
    A = te.placeholder((n,), name='A')
    B = te.placeholder((n,), name='B')
    C = te.compute(A.shape, lambda i: A[i] + B[i], name="C")

    s = te.create_schedule(C.op)
    px, x = s[C].split(C.op.axis[0], nparts=1)

    s[C].bind(px, tvm.te.thread_axis("pipeline"))

    fadd = tvm.build(s, [A, B, C], tgt, name="myadd")
    fadd.save("myadd.o")
    fadd.imported_modules[0].save("myadd.xclbin")

    tvm.contrib.cc.create_shared("myadd.so", ["myadd.o"])

  • run.py - 将 FPGA 作为加速器的脚本。

    import tvm
    import numpy as np
    import os

    tgt = "sdaccel"

    fadd = tvm.runtime.load_module("myadd.so")
    if os.environ.get("XCL_EMULATION_MODE"):
    fadd_dev = tvm.runtime.load_module("myadd.xclbin")
    else:
    fadd_dev = tvm.runtime.load_module("myadd.awsxclbin")
    fadd.import_module(fadd_dev)

    dev = tvm.device(tgt, 0)

    n = 1024
    a = tvm.nd.array(np.random.uniform(size=n).astype("float32"), dev)
    b = tvm.nd.array(np.random.uniform(size=n).astype("float32"), dev)
    c = tvm.nd.array(np.zeros(n, dtype="float32"), dev)

    fadd(a, b, c)
    tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())

设置

  • 用 FPGA Developer AMI 启动实例。无需 F1 实例来进行仿真和合成,因此推荐用开销较低的实例。

  • 设置 AWS FPGA 开发套件:

    git clone https://github.com/aws/aws-fpga.git
    cd aws-fpga
    source sdaccel_setup.sh
    source ${XILINX_SDX}/settings64.sh

  • 启用 OpenCL 前设置 TVM。

仿真​

  • 为仿真创建 emconfig.json:

    emconfigutil --platform ${AWS_PLATFORM} --nd 1

  • 将 emconfig.json 复制到 Python binary 目录下:因为当前的 Xilinx 工具包假定宿主机的二进制文件和 emconfig.json 文件处于同一路径。

    cp emconfig.json (dirname (which python))

  • 运行软件仿真:

    export XCL_EMULATION_MODE=1
    export XCL_TARGET=sw_emu

    python build.py
    python run.py

  • 运行硬件仿真:

    export XCL_EMULATION_MODE=1
    export XCL_TARGET=hw_emu

    python build.py
    python run.py

合成​

  • 用以下脚本进行合成:

    unset XCL_EMULATION_MODE
    export XCL_TARGET=hw

    python build.py

  • 创建 AWS FPGA 镜像,并将其上传到 AWS S3:

    ${SDACCEL_DIR}/tools/create_sdaccel_afi.sh
    -xclbin=myadd.xclbin -o=myadd
    -s3_bucket=<bucket-name> -s3_dcp_key=<dcp-folder-name>
    -s3_logs_key=<logs-folder-name>

这会生成 awsxclbin 文件(在 F1 实例上使用 AWS FPGA 镜像必需)。

运行​

  • 启动 Amazon EC2 F1 实例。

  • myadd.so,myadd.awsxclbin 和 run.py 复制到 F1 实例中。

  • 设置 AWS FPGA 开发套件:

    git clone https://github.com/aws/aws-fpga.git
    cd aws-fpga
    source sdaccel_setup.sh

  • 启用 OpenCL 前设置 TVM。

  • 以 root 身份设置环境变量:

    sudo sh
    source ${INSTALL_ROOT}/setup.sh

  • 运行:

    python run.py

相关推荐
NAGNIP6 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab7 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab7 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP10 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年10 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼11 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS11 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区12 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈12 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang13 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx