跳转到主要内容
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用音频生成服务,今天天气真不错。",
  "format": "mp3"
}
'
{
  "created": 1775200000,
  "id": "task-unified-1775200000-abcd1234",
  "model": "doubao-seed-audio-1-0",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "audio_generation"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 9.6
  }
}

授权

Authorization
string
header
必填

##所有接口均需要使用Bearer Token进行认证##

获取 API Key:

访问 API Key 管理页面 获取您的 API Key

使用时在请求头中添加:

Authorization: Bearer YOUR_API_KEY

请求体

application/json
model
enum<string>
默认值:doubao-seed-audio-1-0
必填

模型名称

可用选项:
doubao-seed-audio-1-0
示例:

"doubao-seed-audio-1-0"

prompt
string
必填

用于合成音频的提示词或待合成文本

三种生成模式(按是否传入参考资源自动匹配):

  • 纯文本生成:仅传 prompt,按提示词直接生成音频
  • 参考音频生成(音色复刻):配合 audio_references;用 @音频N 引用其中第 N 项(编号从 1 开始,顺序与数组一致)
  • 参考图片生成:配合 image_urlsprompt 仅需传入待合成文本

音频参考(audio_references)与图片参考(image_urls互斥,同一次请求只能选其一。

约束:

  • 最大 1500 字符
Maximum string length: 1500
示例:

"欢迎使用音频生成服务,今天天气真不错。"

audio_references
string[]

参考资源列表。每一项可以是音色 ID,也可以是参考音频 URL,两者可在同一数组内混合使用

  • 音色 ID:填写预置音色的 voice_type,完整列表见 Seed-Audio 1.0 音色列表
  • 音频 URL:上传一段参考音频做声音复刻
  • image_urls 互斥:参考音频与参考图片只能二选一,不能在同一请求中同时传入
  • prompt 中用 @音频N 引用第 N 项(编号从 1 开始,顺序与数组一致)
  • 不传时由模型按 prompt 自由生成音色

数量限制:

  • 整个数组最多 3 个素材(音色 ID 与音频 URL 合计)

音频 URL 约束:

  • 每条参考音频时长 ≤ 30 秒、大小 ≤ 10 MB
  • 格式:wav / mp3 / pcm / ogg_opus
Maximum array length: 3
示例:
["zh_female_vv_uranus_bigtts"]
image_urls
string<uri>[]

参考图片 URL 列表,按画面氛围生成音频

  • 使用图片参考时,prompt 仅需传入待合成文本
  • audio_references 互斥:参考图片与参考音频只能二选一,不能在同一请求中同时传入

约束:

  • 当前仅支持 1 张,大小 ≤ 10 MB
  • 格式:jpeg / png / webp
Maximum array length: 1
示例:
["https://example.com/scene.jpg"]
format
enum<string>
默认值:wav

输出音频格式

可用选项:
wav,
mp3,
pcm,
ogg_opus
示例:

"mp3"

sample_rate
enum<integer>
默认值:24000

输出采样率(Hz)

可用选项:
8000,
16000,
24000,
32000,
44100,
48000
示例:

24000

speech_rate
number
默认值:1

语速倍数(支持两位小数)

  • 1.0:正常语速(默认)
  • 2.0:两倍速;0.5:半速

取值范围 0.5 ~ 2.0

必填范围: 0.5 <= x <= 2必须是以下数值的倍数 0.01
示例:

1.25

loudness_rate
number
默认值:1

音量倍数(支持两位小数)

  • 1.0:正常音量(默认)
  • 2.0:两倍音量;0.5:半音量

取值范围 0.5 ~ 2.0

必填范围: 0.5 <= x <= 2必须是以下数值的倍数 0.01
示例:

0.85

pitch_rate
integer
默认值:0

音调调节,单位为半音

  • 0:默认音调(不调整)
  • 正值升高音调:数值越大声音越高、越尖锐,12 为升高一个八度
  • 负值降低音调:数值越小声音越低、越浑厚,-12 为降低一个八度

取值范围 -12 ~ 12

必填范围: -12 <= x <= 12
示例:

0

callback_url
string<uri>

任务完成后的HTTPS回调地址

回调时机:

  • 任务完成(completed)、失败(failed)或取消(cancelled)时触发
  • 在计费确认完成后发送

安全限制:

  • 仅支持HTTPS协议
  • 禁止回调到内网IP地址(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x等)
  • URL长度不超过2048字符

回调机制:

  • 超时时间:10
  • 失败后最多重试3次(会分别在失败的1秒/2秒/4秒后进行重试)
  • 回调响应体格式与任务查询接口返回的格式一致
  • 回调地址若返回2xx状态码视为成功,其他状态码会触发重试
示例:

"https://your-domain.com/webhooks/audio-completed"

响应

音频生成任务创建成功

created
integer

任务创建时间戳

示例:

1775200000

id
string

任务ID

示例:

"task-unified-1775200000-abcd1234"

model
string

实际使用的模型名称

示例:

"doubao-seed-audio-1-0"

object
enum<string>

任务的具体类型

可用选项:
audio.generation.task
progress
integer

任务进度百分比 (0-100)

必填范围: 0 <= x <= 100
示例:

0

status
enum<string>

任务状态

可用选项:
pending,
processing,
completed,
failed
示例:

"pending"

task_info
object

音频任务详细信息

type
enum<string>

任务的输出类型

可用选项:
audio
示例:

"audio"

usage
object

使用量和计费信息