Seed-Audio 1.0 音频生成
- 多模态音频生成,支持纯文本生成、参考音频生成(音色复刻)、参考图片生成三种模式
- 单次最长支持
120秒音频输出 - 异步处理模式,使用返回的任务ID 进行查询
- 生成的音频链接有效期为 24 小时,请尽快保存
授权
##所有接口均需要使用Bearer Token进行认证##
获取 API Key:
访问 API Key 管理页面 获取您的 API Key
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY请求体
模型名称
doubao-seed-audio-1-0 "doubao-seed-audio-1-0"
用于合成音频的提示词或待合成文本
三种生成模式(按是否传入参考资源自动匹配):
- 纯文本生成:仅传
prompt,按提示词直接生成音频 - 参考音频生成(音色复刻):配合
audio_references;用@音频N引用其中第 N 项(编号从1开始,顺序与数组一致) - 参考图片生成:配合
image_urls,prompt仅需传入待合成文本
音频参考(
audio_references)与图片参考(image_urls)互斥,同一次请求只能选其一。
约束:
- 最大
1500字符
1500"欢迎使用音频生成服务,今天天气真不错。"
参考资源列表。每一项可以是音色 ID,也可以是参考音频 URL,两者可在同一数组内混合使用
- 音色 ID:填写预置音色的
voice_type,完整列表见 Seed-Audio 1.0 音色列表 - 音频 URL:上传一段参考音频做声音复刻
- 与
image_urls互斥:参考音频与参考图片只能二选一,不能在同一请求中同时传入 - 在
prompt中用@音频N引用第 N 项(编号从1开始,顺序与数组一致) - 不传时由模型按
prompt自由生成音色
数量限制:
- 整个数组最多
3个素材(音色 ID 与音频 URL 合计)
音频 URL 约束:
- 每条参考音频时长 ≤
30秒、大小 ≤10 MB - 格式:
wav/mp3/pcm/ogg_opus
3["zh_female_vv_uranus_bigtts"]参考图片 URL 列表,按画面氛围生成音频
- 使用图片参考时,
prompt仅需传入待合成文本 - 与
audio_references互斥:参考图片与参考音频只能二选一,不能在同一请求中同时传入
约束:
- 当前仅支持
1张,大小 ≤10 MB - 格式:
jpeg/png/webp
1["https://example.com/scene.jpg"]输出音频格式
wav, mp3, pcm, ogg_opus "mp3"
输出采样率(Hz)
8000, 16000, 24000, 32000, 44100, 48000 24000
语速倍数(支持两位小数)
1.0:正常语速(默认)2.0:两倍速;0.5:半速
取值范围 0.5 ~ 2.0
0.5 <= x <= 2必须是以下数值的倍数 0.011.25
音量倍数(支持两位小数)
1.0:正常音量(默认)2.0:两倍音量;0.5:半音量
取值范围 0.5 ~ 2.0
0.5 <= x <= 2必须是以下数值的倍数 0.010.85
音调调节,单位为半音
0:默认音调(不调整)- 正值升高音调:数值越大声音越高、越尖锐,
12为升高一个八度 - 负值降低音调:数值越小声音越低、越浑厚,
-12为降低一个八度
取值范围 -12 ~ 12
-12 <= x <= 120
任务完成后的HTTPS回调地址
回调时机:
- 任务完成(completed)、失败(failed)或取消(cancelled)时触发
- 在计费确认完成后发送
安全限制:
- 仅支持HTTPS协议
- 禁止回调到内网IP地址(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x等)
- URL长度不超过
2048字符
回调机制:
- 超时时间:
10秒 - 失败后最多重试
3次(会分别在失败的1秒/2秒/4秒后进行重试) - 回调响应体格式与任务查询接口返回的格式一致
- 回调地址若返回2xx状态码视为成功,其他状态码会触发重试
"https://your-domain.com/webhooks/audio-completed"
响应
音频生成任务创建成功
任务创建时间戳
1775200000
任务ID
"task-unified-1775200000-abcd1234"
实际使用的模型名称
"doubao-seed-audio-1-0"
任务的具体类型
audio.generation.task 任务进度百分比 (0-100)
0 <= x <= 1000
任务状态
pending, processing, completed, failed "pending"
音频任务详细信息
任务的输出类型
audio "audio"
使用量和计费信息