Flux d’utilisation :
result_data.voice (nom du timbre)voice pour la synthèse vocale##Toutes les interfaces nécessitent une authentification par Bearer Token##
Obtenir une clé API :
Visitez la page de gestion des clés API pour obtenir votre clé API
Ajoutez ceci dans l'en-tête de la requête :
Authorization: Bearer YOUR_API_KEYNom du modèle
qwen-voice-design "qwen-voice-design"
Description des caractéristiques vocales pour définir le timbre
Contraintes :
2048 caractèresDimensions de description suggérées :
Exemples de formulations recommandées :
Homme d'âge mûr au ton posé, débit lent, voix grave et magnétique, idéale pour lire des journaux ou commenter des documentairesVoix enfantine adorable, fillette d'environ 8 ans, ton légèrement naïf, idéale pour le doublage de personnages animésFemme douce et cultivée, environ 30 ans, ton serein, idéale pour la lecture de livres audio2048"Présentateur masculin d'âge mûr au ton posé, voix grave et profonde, magnétique, débit régulier, articulation claire"
Texte d'aperçu pour générer l'audio d'écoute
Contraintes :
1024 caractèreslanguage1024"Bonsoir à tous nos auditeurs, bienvenue au journal du soir."
Préfixe du nom du timbre vocal
Contraintes :
16 caractèresFormat du nom de timbre complet généré : qwen-tts-vd-{preferred_name}-voice-{timestamp}
Si vous saisissez announcer, le nom final ressemblera à : qwen-tts-vd-announcer-voice-20260402-a1b2
16^[a-zA-Z0-9_]+$"announcer"
Préférence linguistique du timbre ; il est conseillé de la faire correspondre à la langue de preview_text
Si non renseigné, la valeur par défaut zh est utilisée en amont
zh, en, ja, ko, de, fr, it, ru, pt, es "fr"
Taux d'échantillonnage de l'audio d'aperçu (Hz)
Si non renseigné, la valeur par défaut 24000 est utilisée en amont
8000, 16000, 24000, 48000 24000
Format de l'audio d'aperçu
Si non renseigné, la valeur par défaut wav est utilisée en amont
pcm, wav, mp3, opus "wav"
Modèle TTS qui pilotera le timbre créé
Important : Le target_model spécifié lors de la création du timbre doit correspondre au modèle utilisé lors de la synthèse vocale ultérieure, sinon la synthèse échouera
| Valeur | Description |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD non-streaming (par défaut) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime streaming bidirectionnel (nouvelle version) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime streaming bidirectionnel (ancienne version) |
Actuellement, cette plateforme a intégré
qwen3-tts-vd-2026-01-26(non-streaming) ; les modèles realtime ne sont pas encore disponibles mais vous pouvez pré-créer des timbres
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
URL de rappel HTTPS après la fin de la tâche
Déclenchement du rappel :
Restrictions de sécurité :
2048 caractèresMécanisme de rappel :
10 secondes3 nouvelles tentatives en cas d'échec (à 1 s / 2 s / 4 s après l'échec respectivement)"https://your-domain.com/webhooks/voice-design-completed"
Tâche de conception vocale créée avec succès
Horodatage de création de la tâche
1775123456
ID de la tâche
"task-unified-1775123456-abcd1234"
Nom du modèle réellement utilisé
"qwen-voice-design"
Type spécifique de la tâche
audio.generation.task Pourcentage de progression de la tâche (0-100)
0 <= x <= 1000
Statut de la tâche
pending, processing, completed, failed "pending"
Informations détaillées sur la tâche audio
Type de sortie de la tâche
audio "audio"
Informations d'utilisation et de facturation