Realtime API 语音代理端到端接入全流程教程（含 Demo，延迟 280ms）

在现代应用中，实时语音交互已经成为重要功能，而低延迟的语音传输更是用户体验的关键指标。本文将详细介绍如何使用 Realtime API 实现 语音代理 的端到端接入，包括环境搭建、接口调用、低延迟优化及 Demo 演示。通过本教程，开发者可以快速掌握完整实现流程，并在自己的项目中部署 280ms 延迟 的实时语音功能。

1. 环境准备

在开始前，请确保你已准备好以下环境：

Node.js 16 及以上版本
npm 或 yarn 包管理工具
Realtime API 账号及 API Key
支持 WebSocket 的网络环境

安装所需依赖：

bash 复制代码

npm install ws axios

这里我们使用 ws 来建立 WebSocket 连接，axios 用于 REST API 调用。

2. 创建语音代理项目结构

建议创建如下项目目录结构：

复制代码

realtime-voice-agent/
├── index.js
├── package.json
└── demo/
    └── sample_audio.wav

index.js：核心接入逻辑
demo/sample_audio.wav：测试语音文件

3. 端到端接入流程

3.1 获取 Token

调用 Realtime API 获取临时 Token 用于 WebSocket 鉴权：

javascript 复制代码

const axios = require('axios');

async function getToken() {
  const response = await axios.post('https://api.realtime.example.com/getToken', {
    apiKey: 'YOUR_API_KEY'
  });
  return response.data.token;
}

3.2 建立 WebSocket 连接

javascript 复制代码

const WebSocket = require('ws');

async function connect() {
  const token = await getToken();
  const ws = new WebSocket(`wss://api.realtime.example.com/voice?token=${token}`);

  ws.on('open', () => {
    console.log('WebSocket 连接已建立');
  });

  ws.on('message', (data) => {
    console.log('收到语音数据:', data.toString());
  });

  return ws;
}

3.3 发送语音数据

javascript 复制代码

const fs = require('fs');

async function sendAudio(ws) {
  const audioBuffer = fs.readFileSync('./demo/sample_audio.wav');
  ws.send(audioBuffer);
  console.log('语音数据已发送');
}

3.4 接收识别结果

javascript 复制代码

ws.on('message', (data) => {
  const result = JSON.parse(data);
  if(result.event === 'transcription') {
    console.log('实时识别结果:', result.text);
  }
});

4. 低延迟优化技巧

分块发送音频：将音频切分为小块，减少每次发送的数据量。
使用高效编码：推荐使用 PCM 或 Opus 编码，降低传输延迟。
开启实时模式 ：Realtime API 提供 lowLatency 参数，确保端到端延迟控制在 280ms。

示例：

javascript 复制代码

ws.send(audioChunk, { binary: true });

5. Demo 演示

在 demo/ 文件夹下准备测试音频，通过以上步骤即可实现端到端语音代理接入。执行：

bash 复制代码

node index.js

即可看到实时识别的文本输出，验证 280ms 延迟 的实时语音效果。

6. 总结

通过本文教程，开发者可以掌握：

使用 Realtime API 实现语音代理的端到端接入
低延迟优化 方法，确保语音传输延迟 ≤ 280ms
Demo 实操，快速验证接入效果

本教程适合开发者在项目中快速部署实时语音功能，无论是在线会议、语音客服还是语音互动应用，都能直接落地应用。