DigitalOcean Gradient™ 平台上线 fal 四款多模态 AI 模型：快速生成图像与音频

DigitalOcean 云平台近期宣布，来自 fal.ai 的四个多模态 AI 模型已在 DigitalOcean Gradient™ AI 平台上架，现在可通过 Serverless Inference 以公开预览版的形式使用。借助这些模型，你可以直接通过 API 生成图像和音频，无需操心基础设施、扩缩容或供应商管理。此次发布后，构建包含视觉与音频内容的 AI 驱动应用变得前所未有的简单。

对于不熟悉 fal.ai 的开发者来说，这里简单介绍一下。它是一家专注于为 生成式媒体（Generative Media） 提供高性能 AI 部署平台 的公司。简单来说，fal.ai 致力于解决 AI 模型推理速度慢、部署复杂的问题。他们提供了一个 Serverless 环境，让开发者能够通过简单的 API 快速、高效地运行 文生图、图生视频 等大规模 AI 模型，而无需管理底层 GPU 基础设施。fal.ai 的使命是提供行业领先的推理速度和效率，以加速 AI 驱动的创意应用的开发。

在此次发布中，fal.ai 的角色是高性能服务提供商，将这些强大的模型带到 DigitalOcean 平台上。

探索新模型

以下 fal.ai 的模型已进入公开预览版本，涵盖多种模态，可以帮助你快速实验、原型化并部署多模态 AI 功能：

图像生成的模型有：

Stable Diffusion XL fast (fal-ai/fast-sdxl) -- 高分辨率图像生成
FLUX.1 (schnell) (fal-ai/flux/schnell) -- 快速出图，适合快速原型

音频生成的模型有：

Stable Audio (fal-ai/stable-audio-25/text-to-audio) -- 将文本转换为自然听感的音频
ElevenLabs TTS Multilingual v2 9 (fal-ai/elevenlabs/tts/multilingual-v2) -- 多语种文本转语音

这些模型均通过 Serverless Inference 提供，你可在 DigitalOcean Gradient AI 平台上沿用已有的简单 API 工作流来生成图像与音频。

如何使用？

你可立即通过 Serverless Inference API（https://inference.do-ai.run）开始使用这些模型。以下是调用示例：

示例 1：生成图像

复制代码

export MODEL_ACCESS_KEY="YOUR_KEY"
curl -sS -X POST "https://inference.do-ai.run/v1/async-invoke" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/flux/schnell",
    "input": { "prompt": "A high-quality photo of a futuristic city at sunset" }
  }'

示例 2：带自定义参数生成图像

复制代码

curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/fast-sdxl",
    "input": {
      "prompt": "A high-quality photo of a futuristic city at sunset",
      "output_format": "landscape_4_3",
      "num_inference_steps": 4,
      "guidance_scale": 3.5,
      "num_images": 1,
      "enable_safety_checker": true
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 3：生成声音

复制代码

curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/stable-audio-25/text-to-audio",
    "input": {
      "prompt": "Futuristic epic song",
      "seconds_total": 60
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 4：文本转语音（TTS）

复制代码

curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/elevenlabs/tts/multilingual-v2",
    "input": {
      "text": "Hello, this is a text to speech example using Digital Ocean multilingual voice."
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

上述调用会启动作业并返回 request_id，可用于查询结果。由于 Serverless Inference 采用异步 API，你需要轮询直到任务完成。

/status 端点非常轻量，可频繁查询。当响应显示以下状态时

复制代码

{ "status": "COMPLETE" }

这说明已经可通过 /async-invoke/{request_id} 端点获取完整结果：

复制代码

curl -sS -X GET "https://inference.do-ai.run/v1/async-invoke/{request_id}" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY"

用 fal 在 DigitalOcean 实现创意

对于希望快速开发 AI 应用的开发者来说，时间就是金钱。自己部署虽然给予最大控制权，但耗时耗力，成本高昂。而使用 DigitalOcean 上的 fal.ai 服务，就是用一个简单的 API 调用，换取高效率、低成本的自动运维和专业的模型性能优化。

随着这四款多模态模型进入公开预览，你现在无需管理任何基础设施，就能构建更丰富的 AI 体验，生成图像与音频。

本次发布标志着 DigitalOcean 与 fal 的合作进一步扩展，通过 Gradient AI 平台为开发者带来高性能的图像与语音生成模型。如果你需要了解更多详情，包括 DigitalOcean Gradient AI 平台上的各种GPU Droplet服务器，比如H200、H100、MI325X、L40S等，你可以咨询 DigitalOcean 中国区独家战略合作伙伴卓普云aidroplet.com。