鸿蒙 HarmonyOS 6 | AI Kit 集成 Core Vision Kit 基础视觉服务

文章目录

- 前言
- [一、 Core Vision Kit 的能力全景与核心价值](#一、 Core Vision Kit 的能力全景与核心价值)
- [二、通用文字识别：从图像到信息的结构化转化](#二、通用文字识别：从图像到信息的结构化转化)
- [三、人脸检测与比对：构建端侧安全验证链路](#三、人脸检测与比对：构建端侧安全验证链路)
- [四、主体分割：实现"一键扣图"的底层逻辑](#四、主体分割：实现“一键扣图”的底层逻辑)
- [五、多目标识别与骨骼点检测：探索高级交互](#五、多目标识别与骨骼点检测：探索高级交互)
- [六、资源管理、并发策略与数据合规建议](#六、资源管理、并发策略与数据合规建议)
- [七、总结](#七、总结)

前言

本篇技术博客将带你深入拆解 HarmonyOS Next 的 Core Vision Kit（基础视觉服务）。

通过本文的学习，你将掌握如何利用系统原生的机器视觉能力实现文字识别、人脸检测及主体分割，为你的应用构建起强大的视觉感知系统。

一、 Core Vision Kit 的能力全景与核心价值

在 HarmonyOS Next 的 AI 矩阵中，Core Vision Kit 承担着让应用"看懂世界"的角色。它通过高度封装的 API，将复杂的计算机视觉算法转化为开发者触手可及的基础能力。

该 Kit 的核心场景非常广泛，涵盖了从文档扫描（OCR）、身份验证（人脸比对）到创意图片编辑（主体分割）的方方面面。对于开发者而言，其核心价值在于本地化处理带来的隐私安全 与极致响应。所有的视觉分析工作均在设备端侧完成，图片数据不留存、不上传，这在处理涉及用户隐私的照片信息时尤为关键。

从硬件适配来看，Core Vision Kit 支持手机、平板以及 PC 等主流终端。需要特别提醒的是，由于该 Kit 深度依赖底层硬件加速，目前暂不支持模拟器运行。这意味着开发者在进行 OCR 或人脸识别开发时，必须准备真机进行逻辑验证。

此外，它支持多用户同时接入，但同一个进程内不支持对同一特性的并发调用，开发者在设计高频触发场景时需要注意排队机制。

二、通用文字识别：从图像到信息的结构化转化

通用文字识别（OCR）是视觉服务中最实用的功能之一。它能将印刷体文本从图片中精准提取，支持中、英、日、韩等多种语言。

集成 OCR 的核心在于 textRecognition 类。开发者需要经历初始化、传入数据、获取结果三个阶段。

复制代码

import { textRecognition } from '@kit.CoreVisionKit'

// 1. 在页面加载时初始化服务
async aboutToAppear(): Promise<void> {
  const initResult = await textRecognition.init();
  // 初始化结果为 0 代表成功
}

// 2. 构造识别入参，目前仅支持 PixelMap 格式
let visionInfo: textRecognition.VisionInfo = {
  pixelMap: this.chooseImage // 从图库或相机获取的 PixelMap
};

// 3. 配置识别选项，例如是否支持朝向检测（自动纠正旋转的文字）
let textConfiguration: textRecognition.TextRecognitionConfiguration = {
  isDirectionDetectionSupported: false
};

// 4. 调用异步接口获取结果
textRecognition.recognizeText(visionInfo, textConfiguration)
  .then((data) => {
    // data.value 包含了识别出的全文文本
    this.dataValues = data.value;
  });

OCR 的性能很大程度上取决于输入质量。官方建议图像分辨率在 720p 以上，且拍摄角度与文本平面的夹角应小于 30 度。

如果识别率不如预期，我们可以预先使用 ImageKit 对图片进行对比度增强或亮度修正。此外，由于 OCR 无法识别手写体，在业务设计上应明确告知用户其适用于票据、名片等印刷品。

三、人脸检测与比对：构建端侧安全验证链路

人脸能力包含检测（找位置）与比对（辨身份）两个子项。人脸检测可以返回五官坐标、面部朝向及置信度，而比对则用于判断两张照片是否为同一人。

人脸检测的调用逻辑非常直观，但需要注意其高负载特性。

复制代码

import { faceDetector } from '@kit.CoreVisionKit';

// 初始化服务
await faceDetector.init();

let visionInfo: faceDetector.VisionInfo = {
  pixelMap: this.chooseImage,
};

// 执行检测，返回 Face 数组，包含矩形框和特征点
faceDetector.detect(visionInfo)
  .then((faces: faceDetector.Face[]) => {
    if (faces.length > 0) {
      // 获取第一张脸的置信度
      console.info(`置信度: ${faces[0].confidence}`);
    }
  });

人脸检测接口调用耗时较久，不适合实时预览帧的连续检测（如视频流每帧识别）。

如果要做自研的美颜或贴纸功能，建议在拍照后的静态图上进行处理。而人脸比对（Face Comparator）目前仅支持 1v1 比对，非常适合做应用内的二次身份确认，比如修改敏感设置时，比对当前人脸与注册照片的相似度（Similarity）。

四、主体分割：实现"一键扣图"的底层逻辑

主体分割是近年来非常火热的 AI 功能，它能识别出图片中的显著主体（占比需大于 0.5%）并将其与背景分离。这在背景替换、主体贴纸等场景中有着天然的优势。

开发者通过 subjectSegmentation 接口可以获取分割后的前景图，甚至可以获取多个独立主体的坐标信息。

复制代码

import { subjectSegmentation } from '@kit.CoreVisionKit';

let config: subjectSegmentation.SegmentationConfig = {
  maxCount: 5, // 最多分割 5 个主体
  enableSubjectDetails: true, // 输出每个主体的详细坐标
  enableSubjectForegroundImage: true, // 输出分割后的透明背景图
};

subjectSegmentation.doSegmentation(visionInfo, config)
  .then((data) => {
    // data.fullSubject.foregroundImage 便是扣好的前景 PixelMap
    this.segmentedImage = data.fullSubject.foregroundImage;
  });

主体分割对于文字密集的图片（如报纸、书页）效果欠佳。它更擅长处理宠物、人物、建筑物等具有明确边界的目标。在 UI 设计上，拿到 foregroundImage 后，你可以利用 Canvas 组件将其绘制在不同的背景图上，瞬间完成背景替换效果。这种能力由于在本地运行，处理速度远超云端，用户体验非常丝滑。

五、多目标识别与骨骼点检测：探索高级交互

对于追求极致智能化的应用，多目标识别 和骨骼点检测提供了更细粒度的感知。

多目标识别：可以一键框选出图中的风景、建筑、动物甚至表格。它通常作为视觉搜索的前置功能，帮助开发者快速定位用户感兴趣的区域。
骨骼点检测：支持 17 个关键点（眼、耳、肩、膝、脚踝等）的识别。这在智能健身、康复训练或者虚拟现实交互中具有巨大的潜力。

import { skeletonDetection, visionBase } from '@kit.CoreVisionKit';

// 骨骼点检测采用 Request 封装模式
let request: visionBase.Request = {
inputData: { pixelMap: this.chooseImage }
};

// 异步处理并获取 17 个骨骼点的坐标
let detector = await skeletonDetection.SkeletonDetector.create();
let response = await detector.process(request);

开发者需要注意的是，骨骼点检测和多目标识别同样对图像质量有 720p 的建议要求。在处理运动员训练等高速运动场景时，建议使用高快门速度拍摄的静态图片，以减少运动模糊对识别精度的影响。

六、资源管理、并发策略与数据合规建议

视觉算法是资源消耗大户，作为 3 年经验的开发者，必须关注底层资源的回收与并发冲突。

引擎生命周期 ：所有的视觉子能力（OCR、人脸、比对、分割）都遵循 init() 和 release() 的配对原则。务必在 aboutToDisappear 中释放服务，否则长期的 Native 内存占用会导致应用被系统回收。
并发约束：系统不支持同一进程内对同一特性的并发调用。如果你在识别一张大图时，用户再次触发识别，必须通过状态位进行拦截，或者让后续任务进入排队。
数据安全：虽然 Core Vision Kit 声明"不留存"图片数据，但作为开发者，在调用图库（PhotoViewPicker）或相机获取图片时，仍需在应用的隐私协议中明确告知用户视觉分析的用途。

在优化层面，由于 PixelMap 的跨进程传输开销较大，建议在调用视觉接口前，先根据算法要求的尺寸（如 OCR 建议的 720p）对图片进行适度缩放，这样既能保证精度，又能大幅缩短 Native 层的序列化耗时。

七、总结

Core Vision Kit 为鸿蒙应用注入了强大的视觉感知灵魂。从基础的文字提取到复杂的人体骨骼分析，它不仅解决了开发者的算法焦虑，更通过端侧处理守护了用户的数据隐私。

掌握这套 Kit 的初始化、参数调优及资源回收流程，是每一位高级鸿蒙开发者的必修课。

随着全场景智能化的深入，这些视觉能力将与 Agent Framework Kit 结合，开启看图说话、视觉导览等更高级的 AI 交互篇章。

鸿蒙 HarmonyOS 6 | AI Kit 集成 Core Vision Kit 基础视觉服务

文章目录

前言

一、 Core Vision Kit 的能力全景与核心价值

二、 通用文字识别：从图像到信息的结构化转化

三、 人脸检测与比对：构建端侧安全验证链路

四、 主体分割：实现"一键扣图"的底层逻辑

五、 多目标识别与骨骼点检测：探索高级交互

六、 资源管理、并发策略与数据合规建议

七、 总结

二、通用文字识别：从图像到信息的结构化转化

三、人脸检测与比对：构建端侧安全验证链路

四、主体分割：实现"一键扣图"的底层逻辑

五、多目标识别与骨骼点检测：探索高级交互

六、资源管理、并发策略与数据合规建议

七、总结