前端直传OSS服务端签名(Policy+Signature)/STS临时凭证

阿里云OSS 后端(你的服务器) 前端(浏览器/App) 阿里云OSS 后端(你的服务器) 前端(浏览器/App) 1. 获取临时签名 2. 文件直传 alt $配置了上传回调$ $未配置回调$ 请求获取上传签名/凭证生成Policy和Signature或获取STS临时凭证返回签名信息(AccessKeyId, Signature, etc.) 携带签名信息，直接上传文件返回文件信息(ETag, 地址等) 文件上传完成后，POST请求回调地址返回回调结果前端主动将文件信息发送给后端返回最终处理结果

⚙️ 后端必须执行的三个核心任务

无论你使用的是阿里云OSS、腾讯云COS还是AWS S3，以下三个步骤是后端在"前端直传"方案中必须承担的核心职责：

配置OSS环境 ：为后续的代码集成做好准备。
- 创建存储空间（Bucket）并设置访问权限 ：通常，权限建议设置为"公共读 "，即文件上传需要签名，但读取链接可以公开。严禁设置为"公共读写"，否则任何知道你Bucket地址的人都可以任意上传或删除文件。
- 配置跨域规则（CORS） ：必须为你的Bucket开启CORS，允许你的前端域名跨域访问OSS。在规则中，可以临时将"来源"设置为*（允许所有来源），但在生产环境务必将其替换为你的具体前端域名，以提升安全性。
颁发临时上传凭证：这是后端最核心的职责，目前有两种主流方式，各有优劣。

3.实现业务校验与控制：在生成凭证前，后端应进行必要的业务逻辑校验。

身份验证：先验证当前用户是否已登录，并确认其上传权限。
文件限制 ：根据业务场景，对允许上传的文件类型、大小、数量、用户每日配额等进行限制。
路径管理 ：为文件指定存储路径，建议为每个用户生成独立的目录（如/uploads/user_{id}/），避免文件被覆盖或越权访问。

📡 上传完成后的回调处理

文件成功上传到OSS后，你的应用还需要知道这件事。OSS提供了两种方式来通知你的后端：

方式一：配置上传回调 ：这是推荐的后端获取通知的方式 。前端发起上传请求时，将你后端的回调地址一并发给OSS。OSS保存文件后，会主动POST请求你配置的回调地址，传递文件信息，你可以据此更新数据库。
方式二：前端主动上报：如果不使用回调，OSS会将上传结果直接返回给前端。你可以让前端拿到结果后，再调用一个你自己的后端接口来上报信息。

✅ 方案优劣与实施检查清单

优势：后端完全解放，极大的减轻了服务器带宽和计算压力。同时，由于采用签名或临时凭证，避免了前端泄露密钥的风险，安全性远高于前端直传。
劣势：实现相对复杂，需要设计签名服务，并处理好前端、后端与OSS三方之间的交互逻辑。

实施检查清单：

环境配置 ：是否创建了"公共读"的Bucket并配置了CORS规则？
安全设计 ：后端是否在使用STS临时凭证，而不是直接暴露长期密钥？
业务控制：后端在生成凭证前，是否对用户身份和上传限制做了充分校验？
数据闭环 ：是否配置了OSS上传回调，或设计了前端上报机制，以确保文件信息被后端记录？

MD5 校验的具体方案：三种主流方式对比

阿里云OSS主要提供了MD5 和CRC64两种校验方式，以下是它们的对比：

校验方式	执行方	适用场景	优点	缺点
MD5	客户端计算，OSS服务端校验	对数据一致性有严格要求的场景，如金融、医疗、档案系统	客户端可提前知道文件MD5，实现秒传、去重等功能；校验严格	手动实现有一定复杂度；对性能有一定影响
CRC64	OSS服务端计算，客户端可选校验	默认开启，适用于对性能要求较高的通用场景	对性能影响小，由OSS SDK默认处理，无需额外开发	客户端需在下载时自行校验，无法主动上传前校验
不校验	无	不推荐用于生产环境，仅适用于测试	最简单，无开发量和性能损耗	无法保证数据完整性，存在静默损坏风险

🛠️ 如何在前端直传中实施MD5校验

阿里云OSS 你的后端服务前端(浏览器) 阿里云OSS 你的后端服务前端(浏览器) alt $校验不一致$ $校验一致$ 1. 计算文件的MD5值 2. 请求上传凭证 3. 业务验证 4. 返回临时凭证(含Policy) 5. 发起POST直传 (Header带Content-MD5) 6. 对比MD5 返回错误 (InvalidDigest) 返回成功 (含ETag) 7. 上报文件信息 (含服务端返回的ETag) 8. 二次校验，并更新数据库

具体到代码层面，这里有一些关键的实现要点

前端计算与传递MD5

前端计算：你需要在客户端（浏览器）读取用户选择的文件，并计算其MD5值。
- 标准方法 ：使用FileReader或Blob.slice()读取文件流，再用SubtleCrypto.digest()或SparkMD5等纯JS库计算。为避免大文件上传时的卡死，建议使用Web Worker在后台线程计算。
- 示例代码 (使用Web Crypto API)：
  
  javascript
  复制代码
```
async function computeMD5(file) {
  const buffer = await file.arrayBuffer();
  const hashBuffer = await crypto.subtle.digest('MD5', buffer);
  const hashArray = Array.from(new Uint8Array(hashBuffer));
  return hashArray.map(b => b.toString(16).padStart(2, '0')).join('');
}
// 将计算出的MD5（16进制）传入后续请求中
```
添加到请求 ：将计算出的MD5值作为 Content-MD5 头添加到上传请求中。
- 编码要求 ：注意，Content-MD5 头部要求的值是 文件的MD5原始二进制数据 再进行 Base64编码 的结果，而不是你计算出的32位十六进制字符串。
- 示例代码 (转换)：
  
  javascript
  复制代码
```
// md5Hex: 从上面获取的32位十六进制字符串
function hexToBase64(hexStr) {
    const bytes = new Uint8Array(hexStr.match(/.{1,2}/g).map(byte => parseInt(byte, 16)));
    return btoa(String.fromCharCode.apply(null, bytes));
}
// 实际使用
const contentMd5Base64 = hexToBase64(computedMD5Hex);
```
预签名方式 ：如果你使用的是服务端生成的预签名URL来上传，OSS也支持MD5校验。需要确保你的预签名策略中包含了 Content-MD5 头部，这样前端在上传时必须携带正确的MD5值才能成功

后端校验

MD5校验是一个需要前后端协同完成的工作，后端在此扮演着双重角色：

策略制定与凭证下发 ：在生成上传凭证（如STS Token）时，后端应在Policy中声明要求MD5校验。这是确保校验流程被强制执行的关键一步。
- Policy关键条件：
  
  json
  复制代码
```
{
  "conditions": [
    ["eq", "$content-md5", "待校验的Content-MD5值"]
  ]
}
```
  这样做可以让OSS服务端在接收文件时，强制要求请求头中携带的Content-MD5值与您计算的一致。
二次验证：这是防范中间环节篡改的最后一道防线。在接收到前端的上传成功通知后，后端不应盲目信任，而应主动校验。
- 结果对比 ：OSS上传成功后返回的ETag（对于简单上传即文件的MD5值）与前端计算并上报的MD5进行比对。
- 主动校验 ：对于非简单上传（如分片上传）或需要更高安全等级的文件，后端可以主动通过HeadObject接口获取文件的ETag或其他元信息进行比对。

📝 实施建议

小文件 vs 大文件 ：对于小文件（< 100 MB），直接计算并校验MD5开销不大，推荐使用。对于大文件，可以考虑两种方案：
- 分段计算 ：前端在选取文件后，通过Blob.slice()分块读取并逐步更新MD5，避免内存溢出。
- 高性能库 ：在大文件场景下，可以使用FlashMD5这类高性能库来提升计算速度。
分片上传 ：如果你实现了分片上传，阿里云支持在每个分片上传时分别进行MD5校验 。每个分片上传成功后，需要保存其ETag（即该分片的MD5值），最后在"完成分片上传"时，将所有分片的ETag列表提交给OSS以组装成完整文件。

🤔 常见误区：区分ETag与MD5

在实际开发中，一个常见的误区是将OSS返回的ETag直接当作文件的完整MD5来使用 。虽然对于简单的PutObject上传，ETag 确实是文件的MD5值。但对于以下情况，ETag 不等于 MD5：

分片上传 ：通过UploadPart和CompleteMultipartUpload上传的文件，其最终ETag是根据所有分片的MD5组合计算出的一个特殊值，不是整个文件的MD5。
其他方式创建 ：通过追加上传（Append）、拷贝（Copy）等方式创建的文件，ETag也不是文件的MD5。
安全说明 ：即使ETag是MD5，阿里云官方文档也不建议将其作为校验数据一致性的唯一依据。

因此，最严谨的做法是：主动将Content-MD5头随文件上传，让OSS完成校验，这是官方推荐的保障数据一致性的方法。

✅ 三种方案的对比与建议

方案	做法	是否推荐	理由
1. 不做任何主动 MD5 校验	仅依赖 OSS 默认的 CRC64 校验（SDK 或服务端自动完成）。	✅ 推荐（最常见）	头像损坏概率极低，CRC64 已能捕获绝大多数传输错误，实现成本为零。即使极少数坏图出现，用户反馈后再处理即可。
2. 前端计算 MD5 并带上 Content-MD5 头	前端计算 MD5 → 转 Base64 → 添加到请求头，OSS 服务端校验。	🟡 可选（增强可靠性）	多一层保障，能防止极罕见的静默损坏，且对小文件性能影响可忽略。但如果前端计算库有 bug 或浏览器支持问题，反而可能增加失败率。
3. 后端二次校验 ETag 或主动下载比对	回调接口里拿到 OSS 返回的 ETag，与前端上报的 MD5 比对，或后端下载头像重新计算。	❌ 不推荐	头像场景下收益极低，却增加了后端复杂度和回调延迟。ETag 对于普通上传等于 MD5，再比对意义不大；下载重算则浪费带宽和 CPU。

后端区分业务类型

后端区分业务类型的关键在于：前端在发起上传请求时，通过"自定义参数"把业务场景告诉 OSS，OSS 回调时再把这些参数透传给后端。

至于数据库操作，强烈建议在回调接口中直接完成，而不是让前端二次调用。原因：

避免数据不一致：OSS 回调是文件上传成功的权威确认。如果等前端再调接口，网络异常或用户关闭页面会导致回调成功但数据库没记录。
保持原子性：文件上传和数据库记录应该是事务性的。回调里完成业务逻辑最合理。
减少前端负担：前端不用等待上传后再调一次接口，逻辑更简单。

🏷️ 方案：通过 `callback-var` 自定义参数区分业务

阿里云 OSS 支持在直传时添加 自定义回调参数 （callback-var），这些参数会随回调请求一起发送到你的后端。

步骤 1：前端在表单中添加自定义变量

前端使用 OSS 的 multipart/form-data 表单上传时，除了必填的 key、policy、OSSAccessKeyId、signature 等，可以追加以 x: 开头的自定义变量：

javascript

复制代码

const formData = new FormData();
// OSS 必填字段
formData.append('OSSAccessKeyId', sts.accessKeyId);
formData.append('policy', policy);
formData.append('signature', signature);
formData.append('key', 'avatar/user123/head.jpg');
formData.append('file', file);

// 自定义业务变量（注意 key 必须带 'x:' 前缀）
formData.append('x:biz_type', 'avatar');        // 业务类型
formData.append('x:user_id', '123');            // 用户ID
formData.append('x:filename', 'head.jpg');      // 原始文件名

// 同时需要在 policy 的 conditions 中允许这些字段（否则签名校验会失败）

步骤 2：后端生成 Policy 时声明允许的 `x:` 字段

后端在生成 policy 时，需要在 conditions 数组中包含这些字段：

json

复制代码

{
  "conditions": [
    ["starts-with", "$key", "avatar/"],
    ["eq", "$x:biz_type", "avatar"],
    ["eq", "$x:user_id", "123"]
  ]
}

步骤 3：配置回调时要求携带自定义变量

后端生成 callback 参数时，可以这样设置（通常是 JSON 字符串）：

json

复制代码

{
  "callbackUrl": "https://your-api.com/api/oss/callback",
  "callbackBody": "bucket=${bucket}&object=${object}&etag=${etag}&size=${size}&biz_type=${x:biz_type}&user_id=${x:user_id}&filename=${x:filename}",
  "callbackBodyType": "application/x-www-form-urlencoded"
}

步骤 4：后端回调接口处理

在 Flask（或其他框架）的回调视图里，根据 biz_type 参数即可区分业务：

python

复制代码

@bp.route('/api/oss/callback', methods=['POST'])
def oss_callback():
    # 验证签名（必须！）
    # 获取参数
    biz_type = request.form.get('biz_type')
    user_id = request.form.get('user_id')
    object_key = request.form.get('object')
    etag = request.form.get('etag')
    size = request.form.get('size')
    
    if biz_type == 'avatar':
        # 直接更新用户表的 avatar_url 字段
        user = User.query.get(user_id)
        if user:
            user.avatar_url = f"https://your-bucket.oss-cn-shenzhen.aliyuncs.com/{object_key}"
            user.avatar_etag = etag
            db.session.commit()
        # 可选：删除旧头像文件（异步）
    elif biz_type == 'article_image':
        # 保存到图片表，暂不关联文章，等前端提交表单时再关联
        img = ArticleImage(
            user_id=user_id,
            url=f"https://.../{object_key}",
            etag=etag,
            status='uploaded'
        )
        db.session.add(img)
        db.session.commit()
        # 返回图片 ID 给前端（OSS 回调响应会被前端接收）
    else:
        return jsonify({'code': 400, 'msg': 'unknown biz_type'}), 400
    
    return jsonify({'code': 0, 'msg': 'ok'}), 200

📦 特殊情况：无法透传自定义参数时（如纯 GET 预签名）

如果你使用的是预签名 URL 方式（而不是 POST 表单），x: 参数无法通过 URL 传递。此时可以这样区分：

不同业务用不同的回调地址 ：例如头像回调 /api/oss/callback/avatar，文章配图回调 /api/oss/callback/article。后端生成预签名 URL 时就已经决定了回调地址。
通过 object key 前缀区分 ：强制要求头像上传的 key 必须以 avatar/ 开头，文章配图以 article/ 开头。回调里解析 object 字段，根据前缀判断业务。

💡 关于"回调直接保存 vs 前端二次调用"

场景	回调直接保存	前端二次调用
头像上传	✅ 推荐：回调里直接更新用户表的头像字段，原子性最好。	❌ 不好：用户上传完头像，还得再调接口，多了失败风险。
文章配图（先上传图片，最后提交文章）	✅ 回调里创建图片记录（状态为"未关联"），前端提交文章时传入图片 ID 完成关联。	🟡 也可以：前端拿到上传成功的 URL，最后一起提交。但会丢失 ETag、大小等元信息，且无法防止 URL 被篡改。
临时文件（如导入 Excel 后立即处理）	回调里触发异步任务（如发消息队列），不用等待前端。	❌ 不推荐：前端不知道处理进度，还得轮询。

结论：除非有特殊的"先上传再确认关联"需求，否则一律在回调中完成数据库写入或触发后续任务。前端二次调用仅用于"关联多对多关系"这种回调时无法确定关联 ID 的情况。

✅ 总结

区分业务类型 ：通过 OSS 自定义回调参数 x:biz_type 或 key 前缀。
数据库写入 ：直接在回调接口里完成，不要依赖前端二次调用（除了需要前端提供额外业务 ID 的情况）。
安全性：回调接口必须验证 OSS 签名，防止伪造请求。
头像场景典型做法 ：前端上传时携带 x:biz_type=avatar 和 x:user_id，回调里直接更新 User.avatar_url。

前端直传OSS服务端签名(Policy+Signature)/STS临时凭证

⚙️ 后端必须执行的三个核心任务

📡 上传完成后的回调处理

✅ 方案优劣与实施检查清单

MD5 校验的具体方案：三种主流方式对比

🛠️ 如何在前端直传中实施MD5校验

具体到代码层面，这里有一些关键的实现要点

前端计算与传递MD5

后端校验

📝 实施建议

🤔 常见误区：区分ETag与MD5

✅ 三种方案的对比与建议

后端区分业务类型

🏷️ 方案：通过 callback-var 自定义参数区分业务

步骤 1：前端在表单中添加自定义变量

步骤 2：后端生成 Policy 时声明允许的 x: 字段

步骤 3：配置回调时要求携带自定义变量

步骤 4：后端回调接口处理

📦 特殊情况：无法透传自定义参数时（如纯 GET 预签名）

💡 关于"回调直接保存 vs 前端二次调用"

✅ 总结

🏷️ 方案：通过 `callback-var` 自定义参数区分业务

步骤 2：后端生成 Policy 时声明允许的 `x:` 字段