Zum Hauptinhalt springen
POST
/
v1
/
audios
/
generations
curl --request POST \ --url https://api.evolink.ai/v1/audios/generations \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data ' { "model": "doubao-seed-audio-1-0", "prompt": "Willkommen zum Audio-Generierungsdienst. Das Wetter ist heute herrlich.", "format": "mp3" } '
{
  "created": 1775200000,
  "id": "task-unified-1775200000-abcd1234",
  "model": "doubao-seed-audio-1-0",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "audio_generation"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 9.6
  }
}

Autorisierungen

Authorization
string
header
erforderlich

##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##

API-Schlüssel erhalten:

Besuchen Sie die API-Schlüssel-Verwaltungsseite, um Ihren API-Schlüssel zu erhalten

Fügen Sie ihn dem Anfrage-Header hinzu:

Authorization: Bearer YOUR_API_KEY

Body

application/json
model
enum<string>
Standard:doubao-seed-audio-1-0
erforderlich

Modellname

Verfügbare Optionen:
doubao-seed-audio-1-0
Beispiel:

"doubao-seed-audio-1-0"

prompt
string
erforderlich

Der Prompt oder Text, der in Audio synthetisiert werden soll

Drei Generierungsmodi (automatisch erkannt anhand der übergebenen Referenzressourcen):

  • Text-zu-Audio: Übergeben Sie nur prompt, um Audio direkt aus dem Prompt zu generieren
  • Referenzaudio (Stimmklonung): Kombinieren Sie mit audio_references; verwenden Sie die wörtliche Markierung @AudioN, um auf das N-te Element zu verweisen (nummeriert ab 1, in Array-Reihenfolge)
  • Referenzbild: Kombinieren Sie mit image_urls; prompt muss nur den zu synthetisierenden Text enthalten

Audio-Referenzen (audio_references) und Bild-Referenzen (image_urls) schließen sich gegenseitig aus – pro Anfrage darf nur eine davon verwendet werden.

Einschränkungen:

  • Bis zu 1500 Zeichen
Maximum string length: 1500
Beispiel:

"Willkommen zum Audio-Generierungsdienst. Das Wetter ist heute herrlich."

audio_references
string[]

Liste der Referenzressourcen. Jedes Element kann eine Stimm-ID oder eine Referenzaudio-URL sein, und beide dürfen innerhalb desselben Arrays gemischt werden

  • Stimm-ID: der voice_type einer vordefinierten Stimme – die vollständige Liste finden Sie unter Seed-Audio 1.0 Stimmenliste
  • Audio-URL: Laden Sie einen Referenzaudio-Clip für die Stimmklonung hoch
  • Schließt sich mit image_urls gegenseitig aus: Referenzaudio und Referenzbild sind entweder/oder; sie können nicht zusammen in einer Anfrage gesendet werden
  • Verwenden Sie die wörtliche Markierung @AudioN im prompt, um auf das N-te Element zu verweisen (nummeriert ab 1, in Array-Reihenfolge)
  • Wenn nicht angegeben, generiert das Modell frei eine Stimme basierend auf prompt

Mengenbegrenzung:

  • Insgesamt bis zu 3 Elemente im Array (Stimm-IDs und Audio-URLs zusammen)

Einschränkungen für Audio-URLs:

  • Jeder Referenz-Clip ≤ 30 Sekunden und ≤ 10 MB
  • Formate: wav / mp3 / pcm / ogg_opus
Maximum array length: 3
Beispiel:
["zh_female_vv_uranus_bigtts"]
image_urls
string<uri>[]

Liste der Referenzbild-URLs; erzeugt Audio, das zur Stimmung des Bildes passt

  • Bei Verwendung einer Bild-Referenz muss prompt nur den zu synthetisierenden Text enthalten
  • Schließt sich mit audio_references gegenseitig aus: Referenzbild und Referenzaudio sind entweder/oder; sie können nicht zusammen in einer Anfrage gesendet werden

Einschränkungen:

  • Derzeit nur 1 Bild, ≤ 10 MB
  • Formate: jpeg / png / webp
Maximum array length: 1
Beispiel:
["https://example.com/scene.jpg"]
format
enum<string>
Standard:wav

Format der Audio-Ausgabe

Verfügbare Optionen:
wav,
mp3,
pcm,
ogg_opus
Beispiel:

"mp3"

sample_rate
enum<integer>
Standard:24000

Abtastrate der Ausgabe (Hz)

Verfügbare Optionen:
8000,
16000,
24000,
32000,
44100,
48000
Beispiel:

24000

speech_rate
number
Standard:1

Geschwindigkeitsmultiplikator der Sprache (unterstützt zwei Dezimalstellen)

  • 1.0: normale Geschwindigkeit (Standard)
  • 2.0: 2-fache Geschwindigkeit; 0.5: halbe Geschwindigkeit

Bereich 0.5 bis 2.0

Erforderlicher Bereich: 0.5 <= x <= 2Muss ein Vielfaches sein von 0.01
Beispiel:

1.25

loudness_rate
number
Standard:1

Lautstärkemultiplikator (unterstützt zwei Dezimalstellen)

  • 1.0: normale Lautstärke (Standard)
  • 2.0: doppelte Lautstärke; 0.5: halbe Lautstärke

Bereich 0.5 bis 2.0

Erforderlicher Bereich: 0.5 <= x <= 2Muss ein Vielfaches sein von 0.01
Beispiel:

0.85

pitch_rate
integer
Standard:0

Tonhöhenanpassung, in Halbtönen

  • 0: Standard-Tonhöhe (keine Änderung)
  • Positive Werte heben die Tonhöhe an: Je größer der Wert, desto höher und schärfer die Stimme; 12 hebt sie um eine Oktave
  • Negative Werte senken die Tonhöhe: Je kleiner der Wert, desto tiefer und voller die Stimme; -12 senkt sie um eine Oktave

Bereich -12 bis 12

Erforderlicher Bereich: -12 <= x <= 12
Beispiel:

0

callback_url
string<uri>

HTTPS-Callback-URL, die nach Abschluss des Tasks aufgerufen wird

Wann sie ausgelöst wird:

  • Wird ausgelöst, wenn der Task abgeschlossen, fehlgeschlagen oder abgebrochen wird
  • Wird nach Finalisierung der Abrechnung gesendet

Sicherheitsbeschränkungen:

  • Nur HTTPS
  • Callbacks an interne IP-Adressen sind verboten (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x usw.)
  • Die URL-Länge darf 2048 Zeichen nicht überschreiten

Callback-Mechanismus:

  • Timeout: 10 Sekunden
  • Bis zu 3 Wiederholungen bei Fehlschlag (jeweils 1 / 2 / 4 Sekunden nach jedem Fehlschlag)
  • Der Callback-Body hat dasselbe Format wie die Antwort der Task-Abfrage
  • Eine 2xx-Antwort wird als Erfolg gewertet; andere Statuscodes lösen eine Wiederholung aus
Beispiel:

"https://your-domain.com/webhooks/audio-completed"

Antwort

Audio-Generierungstask erfolgreich erstellt

created
integer

Zeitstempel der Task-Erstellung

Beispiel:

1775200000

id
string

Task-ID

Beispiel:

"task-unified-1775200000-abcd1234"

model
string

Das tatsächlich verwendete Modell

Beispiel:

"doubao-seed-audio-1-0"

object
enum<string>

Spezifischer Task-Typ

Verfügbare Optionen:
audio.generation.task
progress
integer

Task-Fortschritt in Prozent (0-100)

Erforderlicher Bereich: 0 <= x <= 100
Beispiel:

0

status
enum<string>

Task-Status

Verfügbare Optionen:
pending,
processing,
completed,
failed
Beispiel:

"pending"

task_info
object

Detaillierte Informationen zum Audio-Task

type
enum<string>

Typ der Task-Ausgabe

Verfügbare Optionen:
audio
Beispiel:

"audio"

usage
object

Nutzungs- und Abrechnungsinformationen