Qwen Voice Design
- Créez des timbres vocaux personnalisés à partir d’une description textuelle et obtenez le nom du timbre ainsi qu’un aperçu audio
- La synthèse vocale Qwen3 TTS VD doit obligatoirement utiliser les timbres créés par cette interface ; les timbres système intégrés ne sont pas pris en charge
- Traitement asynchrone : utilisez l’ID de tâche retourné pour interroger le résultat
- Le lien audio généré est valable 24 heures, veuillez le sauvegarder rapidement
Flux d’utilisation :
- Appelez cette interface pour créer un timbre vocal
- Interrogez le résultat de la tâche pour obtenir
result_data.voice(nom du timbre) - Appelez Qwen3 TTS VD en passant le paramètre
voicepour la synthèse vocale
Autorisations
##Toutes les interfaces nécessitent une authentification par Bearer Token##
Obtenir une clé API :
Visitez la page de gestion des clés API pour obtenir votre clé API
Ajoutez ceci dans l'en-tête de la requête :
Authorization: Bearer YOUR_API_KEYCorps
Nom du modèle
qwen-voice-design "qwen-voice-design"
Description des caractéristiques vocales pour définir le timbre
Contraintes :
- Maximum
2048caractères - Uniquement le chinois et l'anglais sont pris en charge
Dimensions de description suggérées :
- Genre : masculin, féminin, neutre
- Âge : enfant (5-12), adolescent (13-18), jeune adulte (19-35), adulte (36-55), senior (55+)
- Tonalité : aiguë, moyenne, grave
- Débit : rapide, modéré, lent
- Émotion : joyeux, posé, doux, sérieux, vif, calme
- Caractéristiques : magnétique, cristallin, voilé, velouté, suave, profond
- Usage : lecture d'actualités, doublage publicitaire, livre audio, personnage animé, assistant vocal
Exemples de formulations recommandées :
Homme d'âge mûr au ton posé, débit lent, voix grave et magnétique, idéale pour lire des journaux ou commenter des documentairesVoix enfantine adorable, fillette d'environ 8 ans, ton légèrement naïf, idéale pour le doublage de personnages animésFemme douce et cultivée, environ 30 ans, ton serein, idéale pour la lecture de livres audio
2048"Présentateur masculin d'âge mûr au ton posé, voix grave et profonde, magnétique, débit régulier, articulation claire"
Texte d'aperçu pour générer l'audio d'écoute
Contraintes :
- Maximum
1024caractères - Supporte 10 langues : chinois, anglais, japonais, coréen, allemand, français, italien, russe, portugais, espagnol
- Il est conseillé que la langue corresponde au paramètre
language
1024"Bonsoir à tous nos auditeurs, bienvenue au journal du soir."
Préfixe du nom du timbre vocal
Contraintes :
- Uniquement chiffres, lettres anglaises et underscores
- Maximum
16caractères
Format du nom de timbre complet généré : qwen-tts-vd-{preferred_name}-voice-{timestamp}
Si vous saisissez announcer, le nom final ressemblera à : qwen-tts-vd-announcer-voice-20260402-a1b2
16^[a-zA-Z0-9_]+$"announcer"
Préférence linguistique du timbre ; il est conseillé de la faire correspondre à la langue de preview_text
Si non renseigné, la valeur par défaut zh est utilisée en amont
zh, en, ja, ko, de, fr, it, ru, pt, es "fr"
Taux d'échantillonnage de l'audio d'aperçu (Hz)
Si non renseigné, la valeur par défaut 24000 est utilisée en amont
8000, 16000, 24000, 48000 24000
Format de l'audio d'aperçu
Si non renseigné, la valeur par défaut wav est utilisée en amont
pcm, wav, mp3, opus "wav"
Modèle TTS qui pilotera le timbre créé
Important : Le target_model spécifié lors de la création du timbre doit correspondre au modèle utilisé lors de la synthèse vocale ultérieure, sinon la synthèse échouera
| Valeur | Description |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD non-streaming (par défaut) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime streaming bidirectionnel (nouvelle version) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime streaming bidirectionnel (ancienne version) |
Actuellement, cette plateforme a intégré
qwen3-tts-vd-2026-01-26(non-streaming) ; les modèles realtime ne sont pas encore disponibles mais vous pouvez pré-créer des timbres
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
URL de rappel HTTPS après la fin de la tâche
Déclenchement du rappel :
- Déclenché lorsque la tâche est terminée (completed), échouée (failed) ou annulée (cancelled)
- Envoyé après confirmation de la facturation
Restrictions de sécurité :
- Uniquement le protocole HTTPS est pris en charge
- Les rappels vers des adresses IP internes sont interdits (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
- La longueur de l'URL ne doit pas dépasser
2048caractères
Mécanisme de rappel :
- Délai d'expiration :
10secondes - Maximum
3nouvelles tentatives en cas d'échec (à1s /2s /4s après l'échec respectivement) - Le format du corps de rappel est identique à celui retourné par l'interface de requête de tâche
- Un code de statut 2xx de l'URL de rappel est considéré comme un succès ; tout autre code déclenche une nouvelle tentative
"https://your-domain.com/webhooks/voice-design-completed"
Réponse
Tâche de conception vocale créée avec succès
Horodatage de création de la tâche
1775123456
ID de la tâche
"task-unified-1775123456-abcd1234"
Nom du modèle réellement utilisé
"qwen-voice-design"
Type spécifique de la tâche
audio.generation.task Pourcentage de progression de la tâche (0-100)
0 <= x <= 1000
Statut de la tâche
pending, processing, completed, failed "pending"
Informations détaillées sur la tâche audio
Type de sortie de la tâche
audio "audio"
Informations d'utilisation et de facturation