【实战案例】电商自动化:如何用 OCR API 批量识别商品图片文字?(完整方案 + 代码示例)
在跨境电商 / 无货源 / 信息搬运等场景中,很多人都会遇到一个效率瓶颈:
👉 商品图片里的文字,如何批量提取?
比如:
-
商品标题在图片里
-
SKU / 参数在详情图中
-
多语言标签无法复制
👉 如果靠人工,一个店铺几百张图,基本"废掉一天"。
🚀 一句话解决方案
👉 OCR 文字识别 API + 自动化脚本 = 批量提取商品信息
一、真实应用场景(非常重要)
🛒 场景1:跨境电商(最常见)
-
识别英文商品图 → 转中文
-
提取产品参数(尺寸 / 材质)
🛍 场景2:无货源搬运
-
1688 / 淘宝 → 批量抓图
-
自动识别标题 / 描述
📦 场景3:商品数据整理
-
自动提取图片中的SKU
-
自动录入系统
👉 如果你还不了解 OCR 基础:《文字识别通用OCR接口调用与功能说明》
二、整体实现方案(核心结构)
👉 自动化流程如下:
1️⃣ 批量获取商品图片
2️⃣ 调用 OCR API 识别图片文字
3️⃣ 提取关键字段(标题 / 参数)
4️⃣ 写入数据库 / Excel
5️⃣ 自动生成商品数据
三、OCR API 接口说明
支持能力:
-
多语言识别(中 / 英 / 日 / 韩)
-
自动纠偏
-
高精度识别
-
批量调用
👉 免费在线体验,API文档齐全,提供多种接入语言案例: https://market.shiliuai.com/general-ocr

👉 API文档

四、实战案例:批量识别商品图片文字
🧩 案例目标
👉 批量读取一个文件夹中的商品图片,并提取文字
📂 示例目录
/images/
1.jpg
2.jpg
3.jpg
🧠 实现逻辑
👉 遍历图片 → 调用 OCR → 提取结果
💻 Python 示例代码
python
# =============================================================
# API文档:https://market.shiliuai.com/doc/advanced-general-ocr
# =============================================================
# -*- coding: utf-8 -*-
import requests
import base64
import json
# 请求接口
URL = "https://ocr-api.shiliuai.com/api/advanced_general_ocr/v1"
# 图片/pdf文件转base64
def get_base64(file_path):
with open(file_path, "rb") as f:
data = f.read()
return base64.b64encode(data).decode("utf8")
def demo(appcode, file_path):
# 请求头
headers = {
"Authorization": "APPCODE %s" % appcode,
"Content-Type": "application/json"
}
# 请求体
b64 = get_base64(file_path)
data = {"file_base64": b64}
# 请求
response = requests.post(url=URL, headers=headers, json=data)
content = json.loads(response.content)
print(content)
if __name__ == "__main__":
appcode = "你的APPCODE"
file_path = "本地文件路径"
demo(appcode, file_path)
🧾 输出效果示例
1.jpg => Wireless Mouse 2.4G
2.jpg => Size: 20cm x 10cm
3.jpg => Made in China
python
成功示例:
{
'code': 200,
'msg': 'OK',
'msg_cn': '成功',
'success': True,
'file_id': file id,
'request_id': request id,
'data': data, 具体看下面
}
data = {
"page_count": 5, // int, 文件页面总数
"process_pages": 3, // int, 处理页面数
"status": 2, // int, 处理状态,0: 已加入队列, 1: 正在处理中, 2: 已完成,同步时此值为2
"wait_time": 0.0 // float, 大概还需等待时间,同步时此值为0
// 如果status==2:
"pages": [
{
"width": 2000, // int, 页面宽度
"height": 2500, // int, 页面高度
"prob_mean": 0.98, // float, [0, 1], 页面文字置信度平均值,若is_line,则不返回该项
"prob_std": 0.11, // float, 页面文字置信度标准差,若is_line,则不返回该项
"lines": [
{
"text": "你好", // string, 文字内容
"prob": 0.995, // float, [0, 1], 文字内容置信度
"keypoints": [[50, 20], [150, 20], [150, 60], [50, 60]] // list, [[xi, yi]], 文字区域角点位置,以左上角为起点,按顺时针排列;若is_line,则不返回该项
},
......
]
},
......,
]
}
五、进阶优化
🚀 优化1:图片预处理(提升准确率)
👉 使用高清化API:
🚀 优化2:去水印再识别
👉 避免干扰文字:
🚀 优化3:关键词提取
👉 只保留:
-
标题
-
参数
-
品牌
(可结合正则 / NLP)
六、自动化升级玩法
🔥 玩法1:OCR + 翻译API
👉 实现:
-
英文 → 中文
-
日文 → 中文
👉 跨境电商神器
🔥 玩法2:OCR + 表格导出
👉 自动生成:
-
Excel商品表
-
SKU清单
🔥 玩法3:OCR + 自动上架
👉 结合自动化脚本(按键精灵 / EasyClick):
-
自动识别
-
自动填写
-
自动发布商品
七、为什么用 OCR API(而不是工具)
| 方案 | 优点 | 缺点 |
|---|---|---|
| 在线工具 | 简单 | ❌不能批量 |
| 本地OCR | 可离线 | ❌部署复杂 |
| OCR API | ✅批量 / 自动化 / 高精度 | 需要调用 |
八、总结
通过本方案,你可以实现:
✅ 商品图片 → 自动提取文字
✅ 批量处理(上百张图)
✅ 自动生成商品数据
✅ 节省90%人工时间
🎯 补充
👉 如果你正在做:
-
跨境电商
-
无货源搬运
-
商品数据整理
👉 强烈建议直接体验 OCR API:
✔ 支持免费测试
✔ 多语言识别
✔ 接口稳定(支持高并发)
📚 延伸阅读
💡 最后
👉 现在做电商,拼的不是人力,而是效率。
👉 谁能先实现自动化,谁就能放大规模。
👉 而 OCR,就是自动化的第一步。