DigitalOcean Gradient™ 平台上线 fal 四款多模态 AI 模型:快速生成图像与音频

DigitalOcean 云平台近期宣布,来自 fal.ai 的四个多模态 AI 模型已在 DigitalOcean Gradient™ AI 平台上架,现在可通过 Serverless Inference 以公开预览版的形式使用。借助这些模型,你可以直接通过 API 生成图像和音频,无需操心基础设施、扩缩容或供应商管理。此次发布后,构建包含视觉与音频内容的 AI 驱动应用变得前所未有的简单。

对于不熟悉 fal.ai 的开发者来说,这里简单介绍一下。它是一家专注于为 生成式媒体(Generative Media) 提供高性能 AI 部署平台 的公司。简单来说,fal.ai 致力于解决 AI 模型推理速度慢、部署复杂的问题。他们提供了一个 Serverless 环境,让开发者能够通过简单的 API 快速、高效地运行 文生图、图生视频 等大规模 AI 模型,而无需管理底层 GPU 基础设施。fal.ai 的使命是提供行业领先的推理速度和效率,以加速 AI 驱动的创意应用的开发。

在此次发布中,fal.ai 的角色是高性能服务提供商,将这些强大的模型带到 DigitalOcean 平台上。

探索新模型

以下 fal.ai 的模型已进入公开预览版本,涵盖多种模态,可以帮助你快速实验、原型化并部署多模态 AI 功能:

图像生成的模型有:

  • Stable Diffusion XL fast (fal-ai/fast-sdxl) -- 高分辨率图像生成
  • FLUX.1 (schnell) (fal-ai/flux/schnell) -- 快速出图,适合快速原型

音频生成的模型有:

  • Stable Audio (fal-ai/stable-audio-25/text-to-audio) -- 将文本转换为自然听感的音频
  • ElevenLabs TTS Multilingual v2 9 (fal-ai/elevenlabs/tts/multilingual-v2) -- 多语种文本转语音

这些模型均通过 Serverless Inference 提供,你可在 DigitalOcean Gradient AI 平台上沿用已有的简单 API 工作流来生成图像与音频。

如何使用?

你可立即通过 Serverless Inference API(https://inference.do-ai.run)开始使用这些模型。以下是调用示例:

示例 1:生成图像

复制代码
export MODEL_ACCESS_KEY="YOUR_KEY"
curl -sS -X POST "https://inference.do-ai.run/v1/async-invoke" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/flux/schnell",
    "input": { "prompt": "A high-quality photo of a futuristic city at sunset" }
  }'

示例 2:带自定义参数生成图像

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/fast-sdxl",
    "input": {
      "prompt": "A high-quality photo of a futuristic city at sunset",
      "output_format": "landscape_4_3",
      "num_inference_steps": 4,
      "guidance_scale": 3.5,
      "num_images": 1,
      "enable_safety_checker": true
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 3:生成声音

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/stable-audio-25/text-to-audio",
    "input": {
      "prompt": "Futuristic epic song",
      "seconds_total": 60
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 4:文本转语音(TTS)

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/elevenlabs/tts/multilingual-v2",
    "input": {
      "text": "Hello, this is a text to speech example using Digital Ocean multilingual voice."
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

上述调用会启动作业并返回 request_id,可用于查询结果。由于 Serverless Inference 采用异步 API,你需要轮询直到任务完成。

/status 端点非常轻量,可频繁查询。当响应显示以下状态时

复制代码
{ "status": "COMPLETE" }

这说明已经可通过 /async-invoke/{request_id} 端点获取完整结果:

复制代码
curl -sS -X GET "https://inference.do-ai.run/v1/async-invoke/{request_id}" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY"

用 fal 在 DigitalOcean 实现创意

对于希望快速开发 AI 应用的开发者来说,时间就是金钱。自己部署虽然给予最大控制权,但耗时耗力,成本高昂。而使用 DigitalOcean 上的 fal.ai 服务,就是用一个简单的 API 调用,换取高效率、低成本的自动运维和专业的模型性能优化

随着这四款多模态模型进入公开预览,你现在无需管理任何基础设施,就能构建更丰富的 AI 体验,生成图像与音频。

本次发布标志着 DigitalOcean 与 fal 的合作进一步扩展,通过 Gradient AI 平台为开发者带来高性能的图像与语音生成模型。如果你需要了解更多详情,包括 DigitalOcean Gradient AI 平台上的各种GPU Droplet服务器,比如H200、H100、MI325X、L40S等,你可以咨询 DigitalOcean 中国区独家战略合作伙伴卓普云aidroplet.com

相关推荐
开开心心就好2 天前
轻量级PDF阅读器,仅几M大小打开秒开
linux·运维·服务器·安全·pdf·1024程序员节·oneflow
学传打活6 天前
【边打字.边学昆仑正义文化】_12_生命价值的体现(1)
微信公众平台·1024程序员节·汉字·昆仑正义文化
开开心心就好7 天前
小巧绿色免费关机工具,支持定时倒计时
linux·运维·服务器·安全·powerpoint·1024程序员节·foxmail
开开心心就好8 天前
跨平台高速下载工具,支持浏览器功能强大
运维·服务器·windows·pdf·旅游·媒体·1024程序员节
开开心心就好25 天前
内存清理软件灵活设置,自动阈值快捷键清
运维·服务器·windows·pdf·harmonyos·risc-v·1024程序员节
学传打活1 个月前
【边打字.边学昆仑正义文化】_5_宇宙物种创造简史(1)
微信公众平台·1024程序员节·汉字·昆伦正义文化
xcLeigh1 个月前
打破机房围墙:VMware+cpolar构建跨网络虚拟实验室
vmware·内网穿透·cpolar·实验室·远程访问·1024程序员节
开开心心就好1 个月前
免费轻量电子书阅读器,多系统记笔记听书
linux·运维·服务器·安全·ddos·可信计算技术·1024程序员节
unable code1 个月前
流量包取证-大流量分析
网络安全·ctf·misc·1024程序员节·流量包取证