DigitalOcean Gradient™ 平台上线 fal 四款多模态 AI 模型:快速生成图像与音频

DigitalOcean 云平台近期宣布,来自 fal.ai 的四个多模态 AI 模型已在 DigitalOcean Gradient™ AI 平台上架,现在可通过 Serverless Inference 以公开预览版的形式使用。借助这些模型,你可以直接通过 API 生成图像和音频,无需操心基础设施、扩缩容或供应商管理。此次发布后,构建包含视觉与音频内容的 AI 驱动应用变得前所未有的简单。

对于不熟悉 fal.ai 的开发者来说,这里简单介绍一下。它是一家专注于为 生成式媒体(Generative Media) 提供高性能 AI 部署平台 的公司。简单来说,fal.ai 致力于解决 AI 模型推理速度慢、部署复杂的问题。他们提供了一个 Serverless 环境,让开发者能够通过简单的 API 快速、高效地运行 文生图、图生视频 等大规模 AI 模型,而无需管理底层 GPU 基础设施。fal.ai 的使命是提供行业领先的推理速度和效率,以加速 AI 驱动的创意应用的开发。

在此次发布中,fal.ai 的角色是高性能服务提供商,将这些强大的模型带到 DigitalOcean 平台上。

探索新模型

以下 fal.ai 的模型已进入公开预览版本,涵盖多种模态,可以帮助你快速实验、原型化并部署多模态 AI 功能:

图像生成的模型有:

  • Stable Diffusion XL fast (fal-ai/fast-sdxl) -- 高分辨率图像生成
  • FLUX.1 (schnell) (fal-ai/flux/schnell) -- 快速出图,适合快速原型

音频生成的模型有:

  • Stable Audio (fal-ai/stable-audio-25/text-to-audio) -- 将文本转换为自然听感的音频
  • ElevenLabs TTS Multilingual v2 9 (fal-ai/elevenlabs/tts/multilingual-v2) -- 多语种文本转语音

这些模型均通过 Serverless Inference 提供,你可在 DigitalOcean Gradient AI 平台上沿用已有的简单 API 工作流来生成图像与音频。

如何使用?

你可立即通过 Serverless Inference API(https://inference.do-ai.run)开始使用这些模型。以下是调用示例:

示例 1:生成图像

复制代码
export MODEL_ACCESS_KEY="YOUR_KEY"
curl -sS -X POST "https://inference.do-ai.run/v1/async-invoke" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/flux/schnell",
    "input": { "prompt": "A high-quality photo of a futuristic city at sunset" }
  }'

示例 2:带自定义参数生成图像

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/fast-sdxl",
    "input": {
      "prompt": "A high-quality photo of a futuristic city at sunset",
      "output_format": "landscape_4_3",
      "num_inference_steps": 4,
      "guidance_scale": 3.5,
      "num_images": 1,
      "enable_safety_checker": true
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 3:生成声音

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/stable-audio-25/text-to-audio",
    "input": {
      "prompt": "Futuristic epic song",
      "seconds_total": 60
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

示例 4:文本转语音(TTS)

复制代码
curl -sS -X POST 'https://inference.do-ai.run/v1/async-invoke' \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "fal-ai/elevenlabs/tts/multilingual-v2",
    "input": {
      "text": "Hello, this is a text to speech example using Digital Ocean multilingual voice."
    },
    "tags": [
      { "key": "type", "value": "test" }
    ]
  }'

上述调用会启动作业并返回 request_id,可用于查询结果。由于 Serverless Inference 采用异步 API,你需要轮询直到任务完成。

/status 端点非常轻量,可频繁查询。当响应显示以下状态时

复制代码
{ "status": "COMPLETE" }

这说明已经可通过 /async-invoke/{request_id} 端点获取完整结果:

复制代码
curl -sS -X GET "https://inference.do-ai.run/v1/async-invoke/{request_id}" \
  -H "Authorization: Bearer $MODEL_ACCESS_KEY"

用 fal 在 DigitalOcean 实现创意

对于希望快速开发 AI 应用的开发者来说,时间就是金钱。自己部署虽然给予最大控制权,但耗时耗力,成本高昂。而使用 DigitalOcean 上的 fal.ai 服务,就是用一个简单的 API 调用,换取高效率、低成本的自动运维和专业的模型性能优化

随着这四款多模态模型进入公开预览,你现在无需管理任何基础设施,就能构建更丰富的 AI 体验,生成图像与音频。

本次发布标志着 DigitalOcean 与 fal 的合作进一步扩展,通过 Gradient AI 平台为开发者带来高性能的图像与语音生成模型。如果你需要了解更多详情,包括 DigitalOcean Gradient AI 平台上的各种GPU Droplet服务器,比如H200、H100、MI325X、L40S等,你可以咨询 DigitalOcean 中国区独家战略合作伙伴卓普云aidroplet.com

相关推荐
计算机毕业论文辅导2 天前
物联网实战:基于MQTT协议的智能家居数据传输系统设计与实现
1024程序员节
开开心心就好3 天前
支持批量处理的视频分割工具推荐
安全·智能手机·rust·pdf·电脑·1024程序员节·lavarel
liuyao_xianhui5 天前
Linux开发工具结尾 _make
linux·运维·服务器·数据结构·哈希算法·宽度优先·1024程序员节
学传打活7 天前
【边打字.边学昆仑正义文化】_21_爱的结晶(1)
微信公众平台·1024程序员节·汉字·昆仑正义文化
数据皮皮侠AI14 天前
顶刊同款!中国地级市风灾风险与损失数据集(2000-2022)|灾害 / 环境 / 经济研究必备
大数据·人工智能·笔记·能源·1024程序员节
Fab1an15 天前
Busqueda——Hack The Box 靶机
linux·服务器·学习·1024程序员节
技术专家15 天前
Stable Diffusion系列的详细讨论 / Detailed Discussion of the Stable Diffusion Series
人工智能·python·算法·推荐算法·1024程序员节
学传打活18 天前
古代汉语是源,现代汉语是流,源与流一脉相承。
微信公众平台·1024程序员节·汉字·中华文化
学传打活23 天前
【边打字.边学昆仑正义文化】_19_星际生命的生存状况(1)
微信公众平台·1024程序员节·汉字·昆仑正义文化
unable code1 个月前
[HNCTF 2022 WEEK2]ez_ssrf
网络安全·web·ctf·1024程序员节