Zum Hauptinhalt springen
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "qwen-voice-design",
  "voice_prompt": "Ein ruhiger männlicher Nachrichtensprecher mittleren Alters mit tiefer, resonanter Stimme, reich an Magnetismus, gleichmäßigem Tempo und klarer Artikulation",
  "preview_text": "Guten Abend, liebe Zuhörerinnen und Zuhörer. Willkommen zur Abendnachricht.",
  "preferred_name": "announcer"
}
'
{
  "created": 1775123456,
  "id": "task-unified-1775123456-abcd1234",
  "model": "qwen-voice-design",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "voice_design"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 2
  }
}

Autorisierungen

Authorization
string
header
erforderlich

##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##

API-Schlüssel abrufen:

Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten

Fügen Sie folgenden Header zu jeder Anfrage hinzu:

Authorization: Bearer YOUR_API_KEY

Body

application/json
model
enum<string>
Standard:qwen-voice-design
erforderlich

Modellname

Verfügbare Optionen:
qwen-voice-design
Beispiel:

"qwen-voice-design"

voice_prompt
string
erforderlich

Textbeschreibung der Stimmmerkmale zur Definition des Stimmprofils

Einschränkungen:

  • Maximal 2048 Zeichen
  • Unterstützt nur Chinesisch und Englisch

Empfohlene Beschreibungsdimensionen:

  • Geschlecht: männlich, weiblich, neutral
  • Alter: Kind (5–12), Teenager (13–18), junger Erwachsener (19–35), mittleres Alter (36–55), Senior (55+)
  • Tonlage: hoch, mittel, tief
  • Sprechtempo: schnell, moderat, langsam
  • Emotion: fröhlich, ruhig, sanft, ernst, lebhaft, gefasst
  • Charakter: magnetisch, klar, rau, weich, süß, tief
  • Verwendungszweck: Nachrichtensprecher, Werbung, Hörbuch, Animationsfigur, Sprachassistent

Beispielbeschreibungen:

  • Ein ruhiger Mann mittleren Alters mit langsamem Sprechtempo und tiefer magnetischer Stimme, geeignet für Nachrichten oder Dokumentarerzählungen
  • Eine niedliche Kinderstimme, ca. 8-jähriges Mädchen, leicht kindliche Aussprache, geeignet für Animationssynchronisation
  • Eine sanfte und intellektuelle Frau, etwa 30 Jahre alt, ruhige Tonlage, geeignet für Hörbücher
Maximum string length: 2048
Beispiel:

"Ein ruhiger männlicher Nachrichtensprecher mittleren Alters mit tiefer, resonanter Stimme, reich an Magnetismus, gleichmäßigem Tempo und klarer Artikulation"

preview_text
string
erforderlich

Vorschautext zur Erzeugung einer Beispiel-Audiodatei

Einschränkungen:

  • Maximal 1024 Zeichen
  • Unterstützt 10 Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Italienisch, Russisch, Portugiesisch, Spanisch
  • Empfohlen, mit dem language-Feld übereinzustimmen
Maximum string length: 1024
Beispiel:

"Guten Abend, liebe Zuhörerinnen und Zuhörer. Willkommen zur Abendnachricht."

preferred_name
string
erforderlich

Stimmnamen-Präfix

Einschränkungen:

  • Nur Ziffern, englische Buchstaben und Unterstriche
  • Maximal 16 Zeichen

Format des generierten vollständigen Stimmnamens: qwen-tts-vd-{preferred_name}-voice-{timestamp}

Beispielsweise ergibt die Eingabe von announcer einen Stimmnamen wie: qwen-tts-vd-announcer-voice-20260402-a1b2

Maximum string length: 16
Pattern: ^[a-zA-Z0-9_]+$
Beispiel:

"announcer"

language
enum<string>

Sprachpräferenz für das Stimmprofil; empfohlen, mit preview_text übereinzustimmen

Standardmäßig zh, wenn nicht angegeben

Verfügbare Optionen:
zh,
en,
ja,
ko,
de,
fr,
it,
ru,
pt,
es
Beispiel:

"de"

sample_rate
enum<integer>

Abtastrate der Vorschau-Audiodatei (Hz)

Standardmäßig 24000, wenn nicht angegeben

Verfügbare Optionen:
8000,
16000,
24000,
48000
Beispiel:

24000

response_format
enum<string>

Format der Vorschau-Audiodatei

Standardmäßig wav, wenn nicht angegeben

Verfügbare Optionen:
pcm,
wav,
mp3,
opus
Beispiel:

"wav"

target_model
enum<string>
Standard:qwen3-tts-vd-2026-01-26

Das TTS-Modell, das die erstellte Stimme antreibt

Wichtig: Das beim Erstellen der Stimme angegebene target_model muss mit dem bei der anschließenden Sprachsynthese verwendeten Modell übereinstimmen, sonst schlägt die Synthese fehl

WertBeschreibung
qwen3-tts-vd-2026-01-26Qwen3-TTS-VD nicht-streaming (Standard)
qwen3-tts-vd-realtime-2026-01-15Qwen3-TTS-VD-Realtime bidirektionales Streaming (neu)
qwen3-tts-vd-realtime-2025-12-16Qwen3-TTS-VD-Realtime bidirektionales Streaming (alt)

Derzeit unterstützt diese Plattform qwen3-tts-vd-2026-01-26 (nicht-streaming); Realtime-Modelle sind noch nicht integriert, aber Stimmen können vorab erstellt werden

Verfügbare Optionen:
qwen3-tts-vd-2026-01-26,
qwen3-tts-vd-realtime-2026-01-15,
qwen3-tts-vd-realtime-2025-12-16
Beispiel:

"qwen3-tts-vd-2026-01-26"

callback_url
string<uri>

HTTPS-Callback-URL, die nach Abschluss der Aufgabe aufgerufen wird

Auslösebedingungen:

  • Wird ausgelöst, wenn die Aufgabe abgeschlossen, fehlgeschlagen oder abgebrochen wurde
  • Wird nach Abrechnungsbestätigung gesendet

Sicherheitsbeschränkungen:

  • Nur HTTPS
  • Interne IP-Adressen werden blockiert (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x usw.)
  • URL-Länge darf 2048 Zeichen nicht überschreiten

Callback-Verhalten:

  • Timeout: 10 Sekunden
  • Bis zu 3 Wiederholungsversuche nach Fehlern (nach 1s / 2s / 4s)
  • Antwortformat entspricht der Aufgaben-Abfrage-API
  • HTTP-2xx-Statuscode gilt als Erfolg; andere Codes lösen einen Wiederholungsversuch aus
Beispiel:

"https://your-domain.com/webhooks/voice-design-completed"

Antwort

Stimmdesign-Aufgabe erfolgreich erstellt

created
integer

Zeitstempel der Aufgabenerstellung

Beispiel:

1775123456

id
string

Aufgaben-ID

Beispiel:

"task-unified-1775123456-abcd1234"

model
string

Tatsächlich verwendeter Modellname

Beispiel:

"qwen-voice-design"

object
enum<string>

Spezifischer Aufgabentyp

Verfügbare Optionen:
audio.generation.task
progress
integer

Aufgabenfortschritt in Prozent (0–100)

Erforderlicher Bereich: 0 <= x <= 100
Beispiel:

0

status
enum<string>

Aufgabenstatus

Verfügbare Optionen:
pending,
processing,
completed,
failed
Beispiel:

"pending"

task_info
object

Details zur Audioaufgabe

type
enum<string>

Ausgabetyp der Aufgabe

Verfügbare Optionen:
audio
Beispiel:

"audio"

usage
object

Nutzungs- und Abrechnungsinformationen