Qwen Voice Design
- Erstellt ein benutzerdefiniertes Stimmprofil aus einer Textbeschreibung und gibt den Stimmnamen sowie eine Vorschau-Audiodatei zurück
- Qwen3 TTS VD Sprachsynthese muss eine über diese API erstellte Stimme verwenden – systeminterne Stimmen werden nicht unterstützt
- Asynchroner Verarbeitungsmodus; verwenden Sie die zurückgegebene Aufgaben-ID, um das Ergebnis abzufragen
- Generierte Audiolinks sind 24 Stunden gültig – bitte rechtzeitig speichern
Arbeitsablauf:
- Diese API aufrufen, um eine Stimme zu erstellen
- Aufgabenergebnis abfragen und
result_data.voice(Stimmname) abrufen - Qwen3 TTS VD mit dem
voice-Parameter für die Sprachsynthese aufrufen
Autorisierungen
##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##
API-Schlüssel abrufen:
Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten
Fügen Sie folgenden Header zu jeder Anfrage hinzu:
Authorization: Bearer YOUR_API_KEYBody
Modellname
qwen-voice-design "qwen-voice-design"
Textbeschreibung der Stimmmerkmale zur Definition des Stimmprofils
Einschränkungen:
- Maximal
2048Zeichen - Unterstützt nur Chinesisch und Englisch
Empfohlene Beschreibungsdimensionen:
- Geschlecht: männlich, weiblich, neutral
- Alter: Kind (5–12), Teenager (13–18), junger Erwachsener (19–35), mittleres Alter (36–55), Senior (55+)
- Tonlage: hoch, mittel, tief
- Sprechtempo: schnell, moderat, langsam
- Emotion: fröhlich, ruhig, sanft, ernst, lebhaft, gefasst
- Charakter: magnetisch, klar, rau, weich, süß, tief
- Verwendungszweck: Nachrichtensprecher, Werbung, Hörbuch, Animationsfigur, Sprachassistent
Beispielbeschreibungen:
Ein ruhiger Mann mittleren Alters mit langsamem Sprechtempo und tiefer magnetischer Stimme, geeignet für Nachrichten oder DokumentarerzählungenEine niedliche Kinderstimme, ca. 8-jähriges Mädchen, leicht kindliche Aussprache, geeignet für AnimationssynchronisationEine sanfte und intellektuelle Frau, etwa 30 Jahre alt, ruhige Tonlage, geeignet für Hörbücher
2048"Ein ruhiger männlicher Nachrichtensprecher mittleren Alters mit tiefer, resonanter Stimme, reich an Magnetismus, gleichmäßigem Tempo und klarer Artikulation"
Vorschautext zur Erzeugung einer Beispiel-Audiodatei
Einschränkungen:
- Maximal
1024Zeichen - Unterstützt 10 Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Italienisch, Russisch, Portugiesisch, Spanisch
- Empfohlen, mit dem
language-Feld übereinzustimmen
1024"Guten Abend, liebe Zuhörerinnen und Zuhörer. Willkommen zur Abendnachricht."
Stimmnamen-Präfix
Einschränkungen:
- Nur Ziffern, englische Buchstaben und Unterstriche
- Maximal
16Zeichen
Format des generierten vollständigen Stimmnamens: qwen-tts-vd-{preferred_name}-voice-{timestamp}
Beispielsweise ergibt die Eingabe von announcer einen Stimmnamen wie: qwen-tts-vd-announcer-voice-20260402-a1b2
16^[a-zA-Z0-9_]+$"announcer"
Sprachpräferenz für das Stimmprofil; empfohlen, mit preview_text übereinzustimmen
Standardmäßig zh, wenn nicht angegeben
zh, en, ja, ko, de, fr, it, ru, pt, es "de"
Abtastrate der Vorschau-Audiodatei (Hz)
Standardmäßig 24000, wenn nicht angegeben
8000, 16000, 24000, 48000 24000
Format der Vorschau-Audiodatei
Standardmäßig wav, wenn nicht angegeben
pcm, wav, mp3, opus "wav"
Das TTS-Modell, das die erstellte Stimme antreibt
Wichtig: Das beim Erstellen der Stimme angegebene target_model muss mit dem bei der anschließenden Sprachsynthese verwendeten Modell übereinstimmen, sonst schlägt die Synthese fehl
| Wert | Beschreibung |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD nicht-streaming (Standard) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime bidirektionales Streaming (neu) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime bidirektionales Streaming (alt) |
Derzeit unterstützt diese Plattform
qwen3-tts-vd-2026-01-26(nicht-streaming); Realtime-Modelle sind noch nicht integriert, aber Stimmen können vorab erstellt werden
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
HTTPS-Callback-URL, die nach Abschluss der Aufgabe aufgerufen wird
Auslösebedingungen:
- Wird ausgelöst, wenn die Aufgabe abgeschlossen, fehlgeschlagen oder abgebrochen wurde
- Wird nach Abrechnungsbestätigung gesendet
Sicherheitsbeschränkungen:
- Nur HTTPS
- Interne IP-Adressen werden blockiert (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x usw.)
- URL-Länge darf
2048Zeichen nicht überschreiten
Callback-Verhalten:
- Timeout:
10Sekunden - Bis zu
3Wiederholungsversuche nach Fehlern (nach 1s / 2s / 4s) - Antwortformat entspricht der Aufgaben-Abfrage-API
- HTTP-2xx-Statuscode gilt als Erfolg; andere Codes lösen einen Wiederholungsversuch aus
"https://your-domain.com/webhooks/voice-design-completed"
Antwort
Stimmdesign-Aufgabe erfolgreich erstellt
Zeitstempel der Aufgabenerstellung
1775123456
Aufgaben-ID
"task-unified-1775123456-abcd1234"
Tatsächlich verwendeter Modellname
"qwen-voice-design"
Spezifischer Aufgabentyp
audio.generation.task Aufgabenfortschritt in Prozent (0–100)
0 <= x <= 1000
Aufgabenstatus
pending, processing, completed, failed "pending"
Details zur Audioaufgabe
Ausgabetyp der Aufgabe
audio "audio"
Nutzungs- und Abrechnungsinformationen