HarmonyOS 音视频开发概述

在音视频开发指导中,将介绍各种涉及音频、视频播放或录制功能场景的开发方式,指导开发者如何使用系统提供的音视频 API 实现对应功能。比如使用 TonePlayer 实现简单的提示音,当设备接收到新消息时,会发出短促的"滴滴"声;使用 AVPlayer 实现音乐播放器,循环播放一首音乐。

在每个功能中,会介绍多种实现方式以应对不同的使用场景,以及该场景相关的子功能点。比如在音频播放功能内,会同时介绍音频的并发策略、音量管理和输出设备等在操作系统中的处理方式,帮助开发者能够开发出功能覆盖更全面的应用。

本开发指导仅针对音视频播放或录制本身,由@ohos.multimedia.audio(下文简称 audio 模块)和@ohos.multimedia.media(下文简称 media 模块)提供相关能力,不涉及 UI 界面、图形处理、媒体存储或其他相关领域功能。

开发说明

在开发音频功能之前,尤其是要实现处理音频数据的功能前,建议开发者先了解声学相关的知识,帮助理解操作系统提供的 API 是如何控制音频系统,从而开发出更易用、体验更好的音视频类应用。建议了解的相关概念包括但不限于:

● 音频量化的过程:采样 > 量化 > 编码

● 音频量化过程的相关概念:模拟信号和数字信号、采样率、声道、采样格式、位宽、码率、常见编码格式(如 AAC、MP3、PCM、WMA 等)、常见封装格式(如 WAV、MPA、FLAC、AAC、OGG 等)

在开发音乐、视频播放功能之前,建议了解流媒体播放的相关概念包括但不限于:

● 播放过程:网络协议 > 容器格式 > 音视频编解码 > 图形/音频渲染

● 网络协议:比如 HLS、HTTP/HTTPS;容器格式:比如 mp4,mkv,mpeg-ts,webm。

● 编码格式:比如 h263/h264/h265,MPEG4/MPEG2。

音频流介绍

在开发音频应用之前,还需要了解什么是音频流,它是 HarmonyOS 音频系统中的关键概念,在之后的章节中会多次提及。

音频流,是音频系统中对一个具备音频格式和音频使用场景信息的独立音频数据处理单元的定义,可以表示播放,也可以表示录制,并且具备独立音量调节和音频设备路由切换能力。

音频流基础信息通过AudioStreamInfo表示,包含采样、声道、位宽、编码信息,是创建音频播放或录制流的必要参数,描述了音频数据的基本属性。在配置时开发者需要保证基础信息与传输的音频数据是相匹配的,音频系统才能正确处理数据。

音频流使用场景信息

除了基本属性,音频流还需要具备使用场景信息。基础信息只能对音频数据进行描述,但在实际的使用过程中,不同的音频流,在音量大小,设备路由,并发策略上是有区别的。系统就是通过音频流所附带的使用场景信息,为不同的音频流制定合适的处理策略,以达到最佳的音频用户体验。

● 播放场景音频播放场景的信息,通过StreamUsageContentType进行描述。

StreamUsage 指音频流本身的用途类型,包括媒体、语音通信、语音播报、通知、铃声等。

ContentType 指音频流中数据的内容类型,包括语音、音乐、影视、通知、铃声等。

● 录制场景音频流录制场景的信息,通过SourceType进行描述。

SourceType 指音频流中录音源的类型,包括麦克风音频源、语音识别音频源、语音通话音频源等。

支持的音频格式

audio 模块下的接口支持 PCM 编码,包括 AudioRenderer、AudioCapturer、TonePlayer、OpenSL ES 等。

音频格式说明:

● 支持的常用的音频采样率(Hz):8000、11025、12000、16000、22050、24000、32000、44100、48000、64000、96000,具体参考枚举AudioSamplingRate。不同设备支持的采样率规格会存在差异。

● 支持单声道、双声道,具体参考AudioChannel

● 支持的采样格式:U8(无符号 8 位整数)、S16LE(带符号的 16 位整数,小尾数)、S24LE(带符号的 24 位整数,小尾数)、S32LE(带符号的 32 位整数,小尾数)、F32LE(带符号的 32 位浮点数,小尾数),具体参考AudioSampleFormat。由于系统限制,S24LE、S32LE、F32LE 仅部分设备支持,请根据实际情况使用。

小尾数指的是小端模式,即数据的高字节保存在内存的高地址中,而数据的低字节保存在内存的低地址中。这种存储模式将地址的高低和数据的位权有效结合起来,高地址部分权值高,低地址部分权值低。

media 模块下的接口支持的音视频格式将在AVPlayer和AVRecorder的介绍中承载。

media 模块提供了AVPlayerAVRecorder用于播放、录制音视频。

AVPlayer

AVPlayer 主要工作是将 Audio/Video 媒体资源(比如 mp4/mp3/mkv/mpeg-ts 等)转码为可供渲染的图像和可听见的音频模拟信号,并通过输出设备进行播放。

AVPlayer 提供功能完善一体化播放能力,应用只需要提供流媒体来源,不负责数据解析和解码就可达成播放效果。

音频播放

当使用 AVPlayer 开发音乐应用播放音频时,其交互关系如图所示。

图 1音频播放外部模块交互图

音乐类应用通过调用 JS 接口层提供的 AVPlayer 接口实现相应功能时,框架层会通过播放服务(Player Framework)将资源解析成音频数据流(PCM),音频数据流经过软件解码后输出至音频服务(Audio Framework),由音频服务输出至音频驱动渲染,实现音频播放功能。完整的音频播放需要应用、Player Framework、Audio Framework、音频 HDI 共同实现。

图 1 中,数字标注表示需要数据与外部模块的传递。

  1. 音乐应用将媒体资源传递给 AVPlayer 接口。

  2. Player Framework 将音频 PCM 数据流输出给 Audio Framework,再由 Audio Framework 输出给音频 HDI。

视频播放

当使用 AVPlayer 开发视频应用播放视频时,其交互关系如图所示。

图 2视频播放外部模块交互图

应用通过调用 JS 接口层提供的 AVPlayer 接口实现相应功能时,框架层会通过播放服务(Player Framework)解析成单独的音频数据流和视频数据流,音频数据流经过软件解码后输出至音频服务(Audio Framework),再至硬件接口层的音频 HDI,实现音频播放功能。视频数据流经过硬件(推荐)/软件解码后输出至图形渲染服务(Graphic Framework),再输出至硬件接口层的显示 HDI,完成图形渲染。

完整的视频播放需要:应用、XComponent、Player Framework、Graphic Framework、Audio Framework、显示 HDI 和音频 HDI 共同实现。

图 2 中,数字标注表示需要数据与外部模块的传递。

  1. 应用从 XComponent 组件获取窗口 SurfaceID,获取方式参考XComponent

  2. 应用把媒体资源、SurfaceID 传递给 AVPlayer 接口。

  3. Player Framework 把视频 ES 数据流输出给解码 HDI,解码获得视频帧(NV12/NV21/RGBA)。

  4. Player Framework 把音频 PCM 数据流输出给 Audio Framework,Audio Framework 输出给音频 HDI。

  5. Player Framework 把视频帧(NV12/NV21/RGBA)输出给 Graphic Framework,Graphic Framework 输出给显示 HDI。

支持的格式与协议

推荐使用以下主流的播放格式,音视频容器、音视频编码属于内容创作者所掌握的专业领域,不建议应用开发者自制码流进行测试,以免产生无法播放、卡顿、花屏等兼容性问题。若发生此类问题不会影响系统,退出播放即可。

支持的协议如下:

支持的音频播放格式如下:

说明

视频播放支持的视频格式分为必选规格和可选规格。必选规格为所有设备均支持的视频格式。对于可选规格,不同设备的实际实现不同。建议开发者做对应的兼容处理,保证应用功能全平台兼容。

支持的视频播放格式和主流分辨率如下:

AVRecorder

AVRecorder 主要工作是捕获音频信号,接收视频信号,完成音视频编码并保存到文件中,帮助开发者轻松实现音视频录制功能,包括开始录制、暂停录制、恢复录制、停止录制、释放资源等功能控制。它允许调用者指定录制的编码格式、封装格式、文件路径等参数。

图 3视频录制外部模块交互图

音频录制:应用通过调用 JS 接口层提供的 AVRecorder 接口实现音频录制时,框架层会通过录制服务(Player Framework),调用音频服务(Audio Framework)通过音频 HDI 捕获音频数据,通过软件编码封装后保存至文件中,实现音频录制功能。

● 视频录制:应用通过调用 JS 接口层提供的 AVRecorder 接口实现视频录制时,先通过 Camera 接口调用相机服务(Camera Framework)通过视频 HDI 捕获图像数据送至框架层的录制服务,录制服务将图像数据通过视频编码 HDI 编码,再将编码后的图像数据封装至文件中,实现视频录制功能。

说明

AVRecorder 只负责视频数据的处理,需要与视频数据采集模块配合才能完成视频录制。视频数据采集模块需要通过 Surface 将视频数据传递给 AVRecorder 进行数据处理。

当前常用的数据采集模块为相机模块,相关说明以相机举例,相机模块目前仅对系统应用开放。

通过音视频录制组合,可分别实现纯音频录制、纯视频录制,音视频录制。

图 3 中,数字标注表示需要数据与外部模块的传递。

  1. 应用通过 AVRecorder 接口从录制服务获取 SurfaceID。

  2. 应用将 SurfaceID 设置给相机服务,相机服务可以通过 SurfaceID 获取到 Surface。相机服务通过视频 HDI 捕获图像数据送至框架层的录制服务。

  3. 相机服务通过 Surface 将视频数据传递给录制服务。

  4. 录制服务通过视频编码 HDI 模块将视频数据编码。

  5. 录制服务将音频参数设置给音频服务,并从音频服务获取到音频数据。

支持的格式

支持的音频源如下:

支持的视频源如下:

支持的音视频编码格式如下:

支持的输出文件格式如下:

相关推荐
va学弟2 小时前
Java 网络通信编程(6):视频通话
java·服务器·网络·音视频
chy000012 小时前
视频播放器无法连接网络问题排查与解决总结
网络·音视频
Justin在掘金7 小时前
鸿蒙端 SDK 创建、单元测试、发布与依赖完整指南
harmonyos
小雨青年8 小时前
鸿蒙 HarmonyOS 6 | 混合开发 (01) Web 组件内核——ArkWeb 加载机制与 Cookie 管理
前端·华为·harmonyos
lqj_本人8 小时前
openYuanrong Agent 方向真实案例验证
华为
做cv的小昊11 小时前
【Video Agent】(Arxiv2601,Meta)Agentic Very Long Video Understanding
论文阅读·计算机视觉·语言模型·音视频·openai·论文笔记·视频理解
Swift社区11 小时前
ArkUI 的状态管理,其实很多人都用错了
架构·harmonyos
中杯可乐多加冰12 小时前
Serverless 时代的内核革命——华为 openYuanrong 深度解析 异构多级缓存与 D2D 高速传输实测
缓存·华为·开源·serverless·openyuanrong
互联网散修12 小时前
零基础鸿蒙应用开发第四节:运算符与运算规则
华为·harmonyos
纤纡.13 小时前
OpenCV 实战:从视频处理到图像轮廓检测的全维度解析
人工智能·opencv·音视频