Seed-Audio 1.0 Audio-Generierung

Autorisierungen

Authorization

string

header

erforderlich

##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##

API-Schlüssel erhalten:

Besuchen Sie die API-Schlüssel-Verwaltungsseite, um Ihren API-Schlüssel zu erhalten

Fügen Sie ihn dem Anfrage-Header hinzu:

Authorization: Bearer YOUR_API_KEY

Body

application/json

model

enum<string>

Standard:doubao-seed-audio-1-0

erforderlich

Modellname

Verfügbare Optionen:

doubao-seed-audio-1-0

Beispiel:

"doubao-seed-audio-1-0"

prompt

string

erforderlich

Der Prompt oder Text, der in Audio synthetisiert werden soll

Drei Generierungsmodi (automatisch erkannt anhand der übergebenen Referenzressourcen):

Text-zu-Audio: Übergeben Sie nur prompt, um Audio direkt aus dem Prompt zu generieren
Referenzaudio (Stimmklonung): Kombinieren Sie mit audio_references; verwenden Sie die wörtliche Markierung @AudioN, um auf das N-te Element zu verweisen (nummeriert ab 1, in Array-Reihenfolge)
Referenzbild: Kombinieren Sie mit image_urls; prompt muss nur den zu synthetisierenden Text enthalten

Audio-Referenzen (audio_references) und Bild-Referenzen (image_urls) schließen sich gegenseitig aus – pro Anfrage darf nur eine davon verwendet werden.

Einschränkungen:

Bis zu 1500 Zeichen

Maximum string length: 1500

Beispiel:

"Willkommen zum Audio-Generierungsdienst. Das Wetter ist heute herrlich."

audio_references

string[]

Liste der Referenzressourcen. Jedes Element kann eine Stimm-ID oder eine Referenzaudio-URL sein, und beide dürfen innerhalb desselben Arrays gemischt werden

Stimm-ID: der voice_type einer vordefinierten Stimme – die vollständige Liste finden Sie unter Seed-Audio 1.0 Stimmenliste
Audio-URL: Laden Sie einen Referenzaudio-Clip für die Stimmklonung hoch
Schließt sich mit image_urls gegenseitig aus: Referenzaudio und Referenzbild sind entweder/oder; sie können nicht zusammen in einer Anfrage gesendet werden
Verwenden Sie die wörtliche Markierung @AudioN im prompt, um auf das N-te Element zu verweisen (nummeriert ab 1, in Array-Reihenfolge)
Wenn nicht angegeben, generiert das Modell frei eine Stimme basierend auf prompt

Mengenbegrenzung:

Insgesamt bis zu 3 Elemente im Array (Stimm-IDs und Audio-URLs zusammen)

Einschränkungen für Audio-URLs:

Jeder Referenz-Clip ≤ 30 Sekunden und ≤ 10 MB
Formate: wav / mp3 / pcm / ogg_opus

Maximum array length: 3

Beispiel:

["zh_female_vv_uranus_bigtts"]

image_urls

string<uri>[]

Liste der Referenzbild-URLs; erzeugt Audio, das zur Stimmung des Bildes passt

Bei Verwendung einer Bild-Referenz muss prompt nur den zu synthetisierenden Text enthalten
Schließt sich mit audio_references gegenseitig aus: Referenzbild und Referenzaudio sind entweder/oder; sie können nicht zusammen in einer Anfrage gesendet werden

Einschränkungen:

Derzeit nur 1 Bild, ≤ 10 MB
Formate: jpeg / png / webp

Maximum array length: 1

Beispiel:

["https://example.com/scene.jpg"]

format

enum<string>

Standard:wav

Format der Audio-Ausgabe

Verfügbare Optionen:

wav,

mp3,

pcm,

ogg_opus

Beispiel:

"mp3"

sample_rate

enum<integer>

Standard:24000

Abtastrate der Ausgabe (Hz)

Verfügbare Optionen:

8000,

16000,

24000,

32000,

44100,

48000

Beispiel:

24000

speech_rate

number

Standard:1

Geschwindigkeitsmultiplikator der Sprache (unterstützt zwei Dezimalstellen)

1.0: normale Geschwindigkeit (Standard)
2.0: 2-fache Geschwindigkeit; 0.5: halbe Geschwindigkeit

Bereich 0.5 bis 2.0

Erforderlicher Bereich: 0.5 <= x <= 2Muss ein Vielfaches sein von 0.01

Beispiel:

1.25

loudness_rate

number

Standard:1

Lautstärkemultiplikator (unterstützt zwei Dezimalstellen)

1.0: normale Lautstärke (Standard)
2.0: doppelte Lautstärke; 0.5: halbe Lautstärke

Bereich 0.5 bis 2.0

Erforderlicher Bereich: 0.5 <= x <= 2Muss ein Vielfaches sein von 0.01

Beispiel:

0.85

pitch_rate

integer

Standard:0

Tonhöhenanpassung, in Halbtönen

0: Standard-Tonhöhe (keine Änderung)
Positive Werte heben die Tonhöhe an: Je größer der Wert, desto höher und schärfer die Stimme; 12 hebt sie um eine Oktave
Negative Werte senken die Tonhöhe: Je kleiner der Wert, desto tiefer und voller die Stimme; -12 senkt sie um eine Oktave

Bereich -12 bis 12

Erforderlicher Bereich: -12 <= x <= 12

Beispiel:

0

callback_url

string<uri>

HTTPS-Callback-URL, die nach Abschluss des Tasks aufgerufen wird

Wann sie ausgelöst wird:

Wird ausgelöst, wenn der Task abgeschlossen, fehlgeschlagen oder abgebrochen wird
Wird nach Finalisierung der Abrechnung gesendet

Sicherheitsbeschränkungen:

Nur HTTPS
Callbacks an interne IP-Adressen sind verboten (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x usw.)
Die URL-Länge darf 2048 Zeichen nicht überschreiten

Callback-Mechanismus:

Timeout: 10 Sekunden
Bis zu 3 Wiederholungen bei Fehlschlag (jeweils 1 / 2 / 4 Sekunden nach jedem Fehlschlag)
Der Callback-Body hat dasselbe Format wie die Antwort der Task-Abfrage
Eine 2xx-Antwort wird als Erfolg gewertet; andere Statuscodes lösen eine Wiederholung aus

Beispiel:

"https://your-domain.com/webhooks/audio-completed"

Antwort

Audio-Generierungstask erfolgreich erstellt

created

integer

Zeitstempel der Task-Erstellung

Beispiel:

1775200000

string

Task-ID

Beispiel:

"task-unified-1775200000-abcd1234"

model

string

Das tatsächlich verwendete Modell

Beispiel:

"doubao-seed-audio-1-0"

object

enum<string>

Spezifischer Task-Typ

Verfügbare Optionen:

audio.generation.task

progress

integer

Task-Fortschritt in Prozent (0-100)

Erforderlicher Bereich: 0 <= x <= 100

Beispiel:

0

status

enum<string>

Task-Status

Verfügbare Optionen:

pending,

processing,

completed,

failed

Beispiel:

"pending"

task_info

object

Detaillierte Informationen zum Audio-Task

Show child attributes

type

enum<string>

Typ der Task-Ausgabe

Verfügbare Optionen:

audio

Beispiel:

"audio"

usage

object

Nutzungs- und Abrechnungsinformationen

Show child attributes