Qwen Voice Design - EvoLink.AI

Autorisierungen

Authorization

string

header

erforderlich

##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##

API-Schlüssel abrufen:

Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten

Fügen Sie folgenden Header zu jeder Anfrage hinzu:

Authorization: Bearer YOUR_API_KEY

Body

application/json

model

enum<string>

Standard:qwen-voice-design

erforderlich

Modellname

Verfügbare Optionen:

qwen-voice-design

Beispiel:

"qwen-voice-design"

voice_prompt

string

erforderlich

Textbeschreibung der Stimmmerkmale zur Definition des Stimmprofils

Einschränkungen:

Maximal 2048 Zeichen
Unterstützt nur Chinesisch und Englisch

Empfohlene Beschreibungsdimensionen:

Geschlecht: männlich, weiblich, neutral
Alter: Kind (5–12), Teenager (13–18), junger Erwachsener (19–35), mittleres Alter (36–55), Senior (55+)
Tonlage: hoch, mittel, tief
Sprechtempo: schnell, moderat, langsam
Emotion: fröhlich, ruhig, sanft, ernst, lebhaft, gefasst
Charakter: magnetisch, klar, rau, weich, süß, tief
Verwendungszweck: Nachrichtensprecher, Werbung, Hörbuch, Animationsfigur, Sprachassistent

Beispielbeschreibungen:

Ein ruhiger Mann mittleren Alters mit langsamem Sprechtempo und tiefer magnetischer Stimme, geeignet für Nachrichten oder Dokumentarerzählungen
Eine niedliche Kinderstimme, ca. 8-jähriges Mädchen, leicht kindliche Aussprache, geeignet für Animationssynchronisation
Eine sanfte und intellektuelle Frau, etwa 30 Jahre alt, ruhige Tonlage, geeignet für Hörbücher

Maximum string length: 2048

Beispiel:

"Ein ruhiger männlicher Nachrichtensprecher mittleren Alters mit tiefer, resonanter Stimme, reich an Magnetismus, gleichmäßigem Tempo und klarer Artikulation"

preview_text

string

erforderlich

Vorschautext zur Erzeugung einer Beispiel-Audiodatei

Einschränkungen:

Maximal 1024 Zeichen
Unterstützt 10 Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Italienisch, Russisch, Portugiesisch, Spanisch
Empfohlen, mit dem language-Feld übereinzustimmen

Maximum string length: 1024

Beispiel:

"Guten Abend, liebe Zuhörerinnen und Zuhörer. Willkommen zur Abendnachricht."

preferred_name

string

erforderlich

Stimmnamen-Präfix

Einschränkungen:

Nur Ziffern, englische Buchstaben und Unterstriche
Maximal 16 Zeichen

Format des generierten vollständigen Stimmnamens: qwen-tts-vd-{preferred_name}-voice-{timestamp}

Beispielsweise ergibt die Eingabe von announcer einen Stimmnamen wie: qwen-tts-vd-announcer-voice-20260402-a1b2

Maximum string length: 16

Pattern: ^[a-zA-Z0-9_]+$

Beispiel:

"announcer"

language

enum<string>

Sprachpräferenz für das Stimmprofil; empfohlen, mit preview_text übereinzustimmen

Standardmäßig zh, wenn nicht angegeben

Verfügbare Optionen:

zh,

en,

ja,

ko,

de,

fr,

it,

ru,

pt,

es

Beispiel:

"de"

sample_rate

enum<integer>

Abtastrate der Vorschau-Audiodatei (Hz)

Standardmäßig 24000, wenn nicht angegeben

Verfügbare Optionen:

8000,

16000,

24000,

48000

Beispiel:

24000

response_format

enum<string>

Format der Vorschau-Audiodatei

Standardmäßig wav, wenn nicht angegeben

Verfügbare Optionen:

pcm,

wav,

mp3,

opus

Beispiel:

"wav"

target_model

enum<string>

Standard:qwen3-tts-vd-2026-01-26

Das TTS-Modell, das die erstellte Stimme antreibt

Wichtig: Das beim Erstellen der Stimme angegebene target_model muss mit dem bei der anschließenden Sprachsynthese verwendeten Modell übereinstimmen, sonst schlägt die Synthese fehl

Wert	Beschreibung
`qwen3-tts-vd-2026-01-26`	Qwen3-TTS-VD nicht-streaming (Standard)
`qwen3-tts-vd-realtime-2026-01-15`	Qwen3-TTS-VD-Realtime bidirektionales Streaming (neu)
`qwen3-tts-vd-realtime-2025-12-16`	Qwen3-TTS-VD-Realtime bidirektionales Streaming (alt)

Derzeit unterstützt diese Plattform qwen3-tts-vd-2026-01-26 (nicht-streaming); Realtime-Modelle sind noch nicht integriert, aber Stimmen können vorab erstellt werden

Verfügbare Optionen:

qwen3-tts-vd-2026-01-26,

qwen3-tts-vd-realtime-2026-01-15,

qwen3-tts-vd-realtime-2025-12-16

Beispiel:

"qwen3-tts-vd-2026-01-26"

callback_url

string<uri>

HTTPS-Callback-URL, die nach Abschluss der Aufgabe aufgerufen wird

Auslösebedingungen:

Wird ausgelöst, wenn die Aufgabe abgeschlossen, fehlgeschlagen oder abgebrochen wurde
Wird nach Abrechnungsbestätigung gesendet

Sicherheitsbeschränkungen:

Nur HTTPS
Interne IP-Adressen werden blockiert (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x usw.)
URL-Länge darf 2048 Zeichen nicht überschreiten

Callback-Verhalten:

Timeout: 10 Sekunden
Bis zu 3 Wiederholungsversuche nach Fehlern (nach 1s / 2s / 4s)
Antwortformat entspricht der Aufgaben-Abfrage-API
HTTP-2xx-Statuscode gilt als Erfolg; andere Codes lösen einen Wiederholungsversuch aus

Beispiel:

"https://your-domain.com/webhooks/voice-design-completed"

Antwort

Stimmdesign-Aufgabe erfolgreich erstellt

created

integer

Zeitstempel der Aufgabenerstellung

Beispiel:

1775123456

string

Aufgaben-ID

Beispiel:

"task-unified-1775123456-abcd1234"

model

string

Tatsächlich verwendeter Modellname

Beispiel:

"qwen-voice-design"

object

enum<string>

Spezifischer Aufgabentyp

Verfügbare Optionen:

audio.generation.task

progress

integer

Aufgabenfortschritt in Prozent (0–100)

Erforderlicher Bereich: 0 <= x <= 100

Beispiel:

0

status

enum<string>

Aufgabenstatus

Verfügbare Optionen:

pending,

processing,

completed,

failed

Beispiel:

"pending"

task_info

object

Details zur Audioaufgabe

Show child attributes

type

enum<string>

Ausgabetyp der Aufgabe

Verfügbare Optionen:

audio

Beispiel:

"audio"

usage

object

Nutzungs- und Abrechnungsinformationen

Show child attributes