Arbeitsablauf:
result_data.voice (Stimmname) abrufenvoice-Parameter für die Sprachsynthese aufrufen##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##
API-Schlüssel abrufen:
Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten
Fügen Sie folgenden Header zu jeder Anfrage hinzu:
Authorization: Bearer YOUR_API_KEYModellname
qwen-voice-design "qwen-voice-design"
Textbeschreibung der Stimmmerkmale zur Definition des Stimmprofils
Einschränkungen:
2048 ZeichenEmpfohlene Beschreibungsdimensionen:
Beispielbeschreibungen:
Ein ruhiger Mann mittleren Alters mit langsamem Sprechtempo und tiefer magnetischer Stimme, geeignet für Nachrichten oder DokumentarerzählungenEine niedliche Kinderstimme, ca. 8-jähriges Mädchen, leicht kindliche Aussprache, geeignet für AnimationssynchronisationEine sanfte und intellektuelle Frau, etwa 30 Jahre alt, ruhige Tonlage, geeignet für Hörbücher2048"Ein ruhiger männlicher Nachrichtensprecher mittleren Alters mit tiefer, resonanter Stimme, reich an Magnetismus, gleichmäßigem Tempo und klarer Artikulation"
Vorschautext zur Erzeugung einer Beispiel-Audiodatei
Einschränkungen:
1024 Zeichenlanguage-Feld übereinzustimmen1024"Guten Abend, liebe Zuhörerinnen und Zuhörer. Willkommen zur Abendnachricht."
Stimmnamen-Präfix
Einschränkungen:
16 ZeichenFormat des generierten vollständigen Stimmnamens: qwen-tts-vd-{preferred_name}-voice-{timestamp}
Beispielsweise ergibt die Eingabe von announcer einen Stimmnamen wie: qwen-tts-vd-announcer-voice-20260402-a1b2
16^[a-zA-Z0-9_]+$"announcer"
Sprachpräferenz für das Stimmprofil; empfohlen, mit preview_text übereinzustimmen
Standardmäßig zh, wenn nicht angegeben
zh, en, ja, ko, de, fr, it, ru, pt, es "de"
Abtastrate der Vorschau-Audiodatei (Hz)
Standardmäßig 24000, wenn nicht angegeben
8000, 16000, 24000, 48000 24000
Format der Vorschau-Audiodatei
Standardmäßig wav, wenn nicht angegeben
pcm, wav, mp3, opus "wav"
Das TTS-Modell, das die erstellte Stimme antreibt
Wichtig: Das beim Erstellen der Stimme angegebene target_model muss mit dem bei der anschließenden Sprachsynthese verwendeten Modell übereinstimmen, sonst schlägt die Synthese fehl
| Wert | Beschreibung |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD nicht-streaming (Standard) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime bidirektionales Streaming (neu) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime bidirektionales Streaming (alt) |
Derzeit unterstützt diese Plattform
qwen3-tts-vd-2026-01-26(nicht-streaming); Realtime-Modelle sind noch nicht integriert, aber Stimmen können vorab erstellt werden
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
HTTPS-Callback-URL, die nach Abschluss der Aufgabe aufgerufen wird
Auslösebedingungen:
Sicherheitsbeschränkungen:
2048 Zeichen nicht überschreitenCallback-Verhalten:
10 Sekunden3 Wiederholungsversuche nach Fehlern (nach 1s / 2s / 4s)"https://your-domain.com/webhooks/voice-design-completed"
Stimmdesign-Aufgabe erfolgreich erstellt
Zeitstempel der Aufgabenerstellung
1775123456
Aufgaben-ID
"task-unified-1775123456-abcd1234"
Tatsächlich verwendeter Modellname
"qwen-voice-design"
Spezifischer Aufgabentyp
audio.generation.task Aufgabenfortschritt in Prozent (0–100)
0 <= x <= 1000
Aufgabenstatus
pending, processing, completed, failed "pending"
Details zur Audioaufgabe
Ausgabetyp der Aufgabe
audio "audio"
Nutzungs- und Abrechnungsinformationen