跳转到主要内容
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "qwen-voice-design",
  "voice_prompt": "沉稳的中年男性播音员,音色低沉浑厚,富有磁性,语速平稳,吐字清晰",
  "preview_text": "各位听众朋友,大家好,欢迎收听晚间新闻。",
  "preferred_name": "announcer"
}
'
{
  "created": 1775123456,
  "id": "task-unified-1775123456-abcd1234",
  "model": "qwen-voice-design",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "voice_design"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 2
  }
}

授权

Authorization
string
header
必填

##所有接口均需要使用Bearer Token进行认证##

获取 API Key:

访问 API Key 管理页面 获取您的 API Key

使用时在请求头中添加:

Authorization: Bearer YOUR_API_KEY

请求体

application/json
model
enum<string>
默认值:qwen-voice-design
必填

模型名称

可用选项:
qwen-voice-design
示例:

"qwen-voice-design"

voice_prompt
string
必填

声音特征描述,用于定义音色

约束:

  • 最大 2048 字符
  • 仅支持中文和英文

描述维度建议:

  • 性别:男性、女性、中性
  • 年龄:儿童(5-12)、青少年(13-18)、青年(19-35)、中年(36-55)、老年(55+)
  • 音调:高音、中音、低音
  • 语速:快速、中速、缓慢
  • 情感:开朗、沉稳、温柔、严肃、活泼、冷静
  • 特点:有磁性、清脆、沙哑、圆润、甜美、浑厚
  • 用途:新闻播报、广告配音、有声书、动画角色、语音助手

推荐写法示例:

  • 沉稳的中年男性,语速缓慢,音色低沉有磁性,适合朗读新闻或纪录片解说
  • 可爱的儿童声音,大约8岁女孩,说话略带稚气,适合动画角色配音
  • 温柔知性的女性,30岁左右,语调平和,适合有声书朗读
Maximum string length: 2048
示例:

"沉稳的中年男性播音员,音色低沉浑厚,富有磁性,语速平稳,吐字清晰"

preview_text
string
必填

预览文本,用于生成试听音频

约束:

  • 最大 1024 字符
  • 支持 10 种语言:中文、英文、日语、韩语、德语、法语、意大利语、俄语、葡萄牙语、西班牙语
  • 建议与 language 语种一致
Maximum string length: 1024
示例:

"各位听众朋友,大家好,欢迎收听晚间新闻。"

preferred_name
string
必填

音色名称前缀

约束:

  • 仅数字、英文字母、下划线
  • 不超过 16 字符

生成的完整音色名格式:qwen-tts-vd-{preferred_name}-voice-{timestamp}

如传入 announcer,最终音色名类似:qwen-tts-vd-announcer-voice-20260402-a1b2

Maximum string length: 16
Pattern: ^[a-zA-Z0-9_]+$
示例:

"announcer"

language
enum<string>

音色的语言倾向,建议与 preview_text 语种一致

不传时由上游使用默认值 zh

可用选项:
zh,
en,
ja,
ko,
de,
fr,
it,
ru,
pt,
es
示例:

"zh"

sample_rate
enum<integer>

预览音频采样率(Hz)

不传时由上游使用默认值 24000

可用选项:
8000,
16000,
24000,
48000
示例:

24000

response_format
enum<string>

预览音频格式

不传时由上游使用默认值 wav

可用选项:
pcm,
wav,
mp3,
opus
示例:

"wav"

target_model
enum<string>
默认值:qwen3-tts-vd-2026-01-26

创建的音色将由哪个 TTS 模型驱动

重要: 创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致,否则合成会失败

说明
qwen3-tts-vd-2026-01-26千问3-TTS-VD 非流式(默认)
qwen3-tts-vd-realtime-2026-01-15千问3-TTS-VD-Realtime 双向流式(新版)
qwen3-tts-vd-realtime-2025-12-16千问3-TTS-VD-Realtime 双向流式(旧版)

目前本平台已接入 qwen3-tts-vd-2026-01-26(非流式),realtime 模型暂未接入但可预创建音色

可用选项:
qwen3-tts-vd-2026-01-26,
qwen3-tts-vd-realtime-2026-01-15,
qwen3-tts-vd-realtime-2025-12-16
示例:

"qwen3-tts-vd-2026-01-26"

callback_url
string<uri>

任务完成后的HTTPS回调地址

回调时机:

  • 任务完成(completed)、失败(failed)或取消(cancelled)时触发
  • 在计费确认完成后发送

安全限制:

  • 仅支持HTTPS协议
  • 禁止回调到内网IP地址(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x等)
  • URL长度不超过2048字符

回调机制:

  • 超时时间:10
  • 失败后最多重试3次(会分别在失败的1秒/2秒/4秒后进行重试)
  • 回调响应体格式与任务查询接口返回的格式一致
  • 回调地址若返回2xx状态码视为成功,其他状态码会触发重试
示例:

"https://your-domain.com/webhooks/voice-design-completed"

响应

声音设计任务创建成功

created
integer

任务创建时间戳

示例:

1775123456

id
string

任务ID

示例:

"task-unified-1775123456-abcd1234"

model
string

实际使用的模型名称

示例:

"qwen-voice-design"

object
enum<string>

任务的具体类型

可用选项:
audio.generation.task
progress
integer

任务进度百分比 (0-100)

必填范围: 0 <= x <= 100
示例:

0

status
enum<string>

任务状态

可用选项:
pending,
processing,
completed,
failed
示例:

"pending"

task_info
object

音频任务详细信息

type
enum<string>

任务的输出类型

可用选项:
audio
示例:

"audio"

usage
object

使用量和计费信息