Flujo de uso:
result_data.voice (nombre del timbre)voice para la síntesis de voz##Todas las interfaces requieren autenticación con Bearer Token##
Obtener API Key:
Visita la página de administración de API Key para obtener tu API Key
Agrégalo en el encabezado de solicitud:
Authorization: Bearer YOUR_API_KEYNombre del modelo
qwen-voice-design "qwen-voice-design"
Descripción de las características de voz para definir el timbre
Restricciones:
2048 caracteresDimensiones de descripción recomendadas:
Ejemplos de redacción recomendada:
Hombre de mediana edad sereno, ritmo lento, voz grave con magnetismo, ideal para leer noticias o narrar documentalesVoz infantil adorable, niña de unos 8 años, habla con cierta ingenuidad, ideal para doblaje de personajes de animaciónMujer suave e intelectual, alrededor de 30 años, tono tranquilo, ideal para narrar audiolibros2048"Locutor masculino de mediana edad, serio y sereno, voz grave y resonante, con magnetismo, ritmo estable y pronunciación clara"
Texto de vista previa para generar el audio de muestra
Restricciones:
1024 caractereslanguage1024"Estimados oyentes, buenas noches y bienvenidos al noticiero nocturno."
Prefijo del nombre del timbre
Restricciones:
16 caracteresFormato del nombre completo del timbre generado: qwen-tts-vd-{preferred_name}-voice-{timestamp}
Si se ingresa announcer, el nombre final del timbre será similar a: qwen-tts-vd-announcer-voice-20260402-a1b2
16^[a-zA-Z0-9_]+$"announcer"
Preferencia de idioma del timbre, se recomienda que coincida con el idioma de preview_text
Si no se envía, el valor predeterminado del upstream es zh
zh, en, ja, ko, de, fr, it, ru, pt, es "zh"
Frecuencia de muestreo del audio de vista previa (Hz)
Si no se envía, el valor predeterminado del upstream es 24000
8000, 16000, 24000, 48000 24000
Formato del audio de vista previa
Si no se envía, el valor predeterminado del upstream es wav
pcm, wav, mp3, opus "wav"
Modelo TTS que impulsará el timbre creado
Importante: El target_model especificado al crear el timbre debe coincidir con el modelo utilizado en la síntesis de voz posterior; de lo contrario, la síntesis fallará
| Valor | Descripción |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD no streaming (predeterminado) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime streaming bidireccional (versión nueva) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime streaming bidireccional (versión antigua) |
Actualmente esta plataforma ha integrado
qwen3-tts-vd-2026-01-26(no streaming); los modelos realtime aún no están disponibles pero se pueden pre-crear timbres
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
Dirección de callback HTTPS tras completar la tarea
Momento del callback:
Restricciones de seguridad:
2048 caracteresMecanismo de callback:
10 segundos3 reintentos tras fallo (respectivamente 1/2/4 segundos después del fallo)"https://your-domain.com/webhooks/voice-design-completed"
Tarea de diseño de voz creada con éxito
Marca de tiempo de creación de la tarea
1775123456
ID de tarea
"task-unified-1775123456-abcd1234"
Nombre del modelo realmente utilizado
"qwen-voice-design"
Tipo específico de la tarea
audio.generation.task Porcentaje de progreso de la tarea (0-100)
0 <= x <= 1000
Estado de la tarea
pending, processing, completed, failed "pending"
Información detallada de la tarea de audio
Tipo de salida de la tarea
audio "audio"
Información de uso y facturación