DigitalOcean Gradient™ 平台上线 fal 四款多模态 AI 模型:快速生成图像与音频

DigitalOcean 云平台近期宣布,来自 fal.ai 的四个多模态 AI 模型已在 DigitalOcean Gradient™ AI 平台上架,现在可通过 Serverless Inference 以公开预览版的形式使用。借助这些模型,你可以直接通过 API 生成图像和音频,无需操心基础设施、扩缩容或供应商管理。此次发布后,构建包含视觉与音频内容的 AI 驱动应用变得前所未有的简单。

对于不熟悉 fal.ai 的开发者来说,这里简单介绍一下。它是一家专注于为 生成式媒体(Generative Media) 提供高性能 AI 部署平台 的公司。简单来说,fal.ai 致力于解决 AI 模型推理速度慢、部署复杂的问题。他们提供了一个 Serverless 环境,让开发者能够通过简单的 API 快速、高效地运行 文生图、图生视频 等大规模 AI 模型,而无需管理底层 GPU 基础设施。fal.ai 的使命是提供行业领先的推理速度和效率,以加速 AI 驱动的创意应用的开发。

在此次发布中,fal.ai 的角色是高性能服务提供商,将这些强大的模型带到 DigitalOcean 平台上。

探索新模型

以下 fal.ai 的模型已进入公开预览版本,涵盖多种模态,可以帮助你快速实验、原型化并部署多模态 AI 功能:

图像生成的模型有:

  • Stable Diffusion XL fast (fal-ai/fast-sdxl) -- 高分辨率图像生成
  • FLUX.1 (schnell) (fal-ai/flux/schnell) -- 快速出图,适合快速原型

音频生成的模型有:

  • Stable Audio (fal-ai/stable-audio-25/text-to-audio) -- 将文本转换为自然听感的音频
  • ElevenLabs TTS Multilingual v2 9 (fal-ai/elevenlabs/tts/multilingual-v2) -- 多语种文本转语音

这些模型均通过 Serverless Inference 提供,你可在 DigitalOcean Gradient AI 平台上沿用已有的简单 API 工作流来生成图像与音频。

如何使用?

你可立即通过 Serverless Inference API(https://inference.do-ai.run)开始使用这些模型。以下是调用示例:

示例 1:生成图像

复制代码
export MODEL_ACCESS_KEY="YOUR_KEY"
curl -sS -X POST "https://inference.do-ai.run/v1/async-invoke" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/flux/schnell",
    "input": { "prompt": "A high-quality photo of a futuristic city at sunset" }
  }'

示例 2:带自定义参数生成图像

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/fast-sdxl",
    "input": {
      "prompt": "A high-quality photo of a futuristic city at sunset",
      "output_format": "landscape_4_3",
      "num_inference_steps": 4,
      "guidance_scale": 3.5,
      "num_images": 1,
      "enable_safety_checker": true
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 3:生成声音

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/stable-audio-25/text-to-audio",
    "input": {
      "prompt": "Futuristic epic song",
      "seconds_total": 60
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 4:文本转语音(TTS)

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/elevenlabs/tts/multilingual-v2",
    "input": {
      "text": "Hello, this is a text to speech example using Digital Ocean multilingual voice."
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

上述调用会启动作业并返回 request_id,可用于查询结果。由于 Serverless Inference 采用异步 API,你需要轮询直到任务完成。

/status 端点非常轻量,可频繁查询。当响应显示以下状态时

复制代码
{ "status": "COMPLETE" }

这说明已经可通过 /async-invoke/{request_id} 端点获取完整结果:

复制代码
curl -sS -X GET "https://inference.do-ai.run/v1/async-invoke/{request_id}" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY"

用 fal 在 DigitalOcean 实现创意

对于希望快速开发 AI 应用的开发者来说,时间就是金钱。自己部署虽然给予最大控制权,但耗时耗力,成本高昂。而使用 DigitalOcean 上的 fal.ai 服务,就是用一个简单的 API 调用,换取高效率、低成本的自动运维和专业的模型性能优化

随着这四款多模态模型进入公开预览,你现在无需管理任何基础设施,就能构建更丰富的 AI 体验,生成图像与音频。

本次发布标志着 DigitalOcean 与 fal 的合作进一步扩展,通过 Gradient AI 平台为开发者带来高性能的图像与语音生成模型。如果你需要了解更多详情,包括 DigitalOcean Gradient AI 平台上的各种GPU Droplet服务器,比如H200、H100、MI325X、L40S等,你可以咨询 DigitalOcean 中国区独家战略合作伙伴卓普云aidroplet.com

相关推荐
胎粉仔5 小时前
Swift 初阶 —— inout 参数 & 数据独占问题
开发语言·ios·swift·1024程序员节
MeowKnight9585 小时前
【C】使用C语言举例说明逻辑运算符的短路特性
c语言·1024程序员节
阿金要当大魔王~~5 小时前
uniapp 页面标签 传值 ————— uniapp 定义 接口
前端·javascript·uni-app·1024程序员节
数据库知识分享者小北5 小时前
如何构建企业级数据分析助手:Data Agent 开发实践
数据库·阿里云·1024程序员节·dataagent
小羊学伽瓦5 小时前
【Java数据结构】——常见力扣题综合
java·数据结构·leetcode·1024程序员节
GreatSQL社区6 小时前
GreatSQL 配置 SSL 访问:单机与 MGR 集群指南
1024程序员节
虎冯河6 小时前
图像,视频Lora模型训练的Timestep Type时间步类型
aigc·comfyui·模型训练·1024程序员节
helloworddm6 小时前
Orleans Grain Directory 系统综合分析文档
c#·1024程序员节
摸鱼的老谭6 小时前
Java学习之旅第三季-17:Lambda表达式
java·lambda表达式·1024程序员节