Seed-Audio 1.0 Audio-Generierung
- Multimodale Audio-Generierung mit drei Modi: Text-zu-Audio, Referenzaudio (Stimmklonung) und Referenzbild
- Bis zu
120Sekunden Audio pro Anfrage - Asynchroner Modus – verwenden Sie die zurückgegebene Task-ID, um das Ergebnis abzufragen
- Die erzeugten Audio-Links sind 24 Stunden gültig, bitte speichern Sie sie zeitnah
Autorisierungen
##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##
API-Schlüssel erhalten:
Besuchen Sie die API-Schlüssel-Verwaltungsseite, um Ihren API-Schlüssel zu erhalten
Fügen Sie ihn dem Anfrage-Header hinzu:
Authorization: Bearer YOUR_API_KEY
Body
Modellname
doubao-seed-audio-1-0 "doubao-seed-audio-1-0"
Der Prompt oder Text, der in Audio synthetisiert werden soll
Drei Generierungsmodi (automatisch erkannt anhand der übergebenen Referenzressourcen):
- Text-zu-Audio: Übergeben Sie nur
prompt, um Audio direkt aus dem Prompt zu generieren - Referenzaudio (Stimmklonung): Kombinieren Sie mit
audio_references; verwenden Sie die wörtliche Markierung@AudioN, um auf das N-te Element zu verweisen (nummeriert ab1, in Array-Reihenfolge) - Referenzbild: Kombinieren Sie mit
image_urls;promptmuss nur den zu synthetisierenden Text enthalten
Audio-Referenzen (
audio_references) und Bild-Referenzen (image_urls) schließen sich gegenseitig aus – pro Anfrage darf nur eine davon verwendet werden.
Einschränkungen:
- Bis zu
1500Zeichen
1500"Willkommen zum Audio-Generierungsdienst. Das Wetter ist heute herrlich."
Liste der Referenzressourcen. Jedes Element kann eine Stimm-ID oder eine Referenzaudio-URL sein, und beide dürfen innerhalb desselben Arrays gemischt werden
- Stimm-ID: der
voice_typeeiner vordefinierten Stimme – die vollständige Liste finden Sie unter Seed-Audio 1.0 Stimmenliste - Audio-URL: Laden Sie einen Referenzaudio-Clip für die Stimmklonung hoch
- Schließt sich mit
image_urlsgegenseitig aus: Referenzaudio und Referenzbild sind entweder/oder; sie können nicht zusammen in einer Anfrage gesendet werden - Verwenden Sie die wörtliche Markierung
@AudioNimprompt, um auf das N-te Element zu verweisen (nummeriert ab1, in Array-Reihenfolge) - Wenn nicht angegeben, generiert das Modell frei eine Stimme basierend auf
prompt
Mengenbegrenzung:
- Insgesamt bis zu
3Elemente im Array (Stimm-IDs und Audio-URLs zusammen)
Einschränkungen für Audio-URLs:
- Jeder Referenz-Clip ≤
30Sekunden und ≤10 MB - Formate:
wav/mp3/pcm/ogg_opus
3["zh_female_vv_uranus_bigtts"]
Liste der Referenzbild-URLs; erzeugt Audio, das zur Stimmung des Bildes passt
- Bei Verwendung einer Bild-Referenz muss
promptnur den zu synthetisierenden Text enthalten - Schließt sich mit
audio_referencesgegenseitig aus: Referenzbild und Referenzaudio sind entweder/oder; sie können nicht zusammen in einer Anfrage gesendet werden
Einschränkungen:
- Derzeit nur
1Bild, ≤10 MB - Formate:
jpeg/png/webp
1["https://example.com/scene.jpg"]
Format der Audio-Ausgabe
wav, mp3, pcm, ogg_opus "mp3"
Abtastrate der Ausgabe (Hz)
8000, 16000, 24000, 32000, 44100, 48000 24000
Geschwindigkeitsmultiplikator der Sprache (unterstützt zwei Dezimalstellen)
1.0: normale Geschwindigkeit (Standard)2.0: 2-fache Geschwindigkeit;0.5: halbe Geschwindigkeit
Bereich 0.5 bis 2.0
0.5 <= x <= 2Muss ein Vielfaches sein von 0.011.25
Lautstärkemultiplikator (unterstützt zwei Dezimalstellen)
1.0: normale Lautstärke (Standard)2.0: doppelte Lautstärke;0.5: halbe Lautstärke
Bereich 0.5 bis 2.0
0.5 <= x <= 2Muss ein Vielfaches sein von 0.010.85
Tonhöhenanpassung, in Halbtönen
0: Standard-Tonhöhe (keine Änderung)- Positive Werte heben die Tonhöhe an: Je größer der Wert, desto höher und schärfer die Stimme;
12hebt sie um eine Oktave - Negative Werte senken die Tonhöhe: Je kleiner der Wert, desto tiefer und voller die Stimme;
-12senkt sie um eine Oktave
Bereich -12 bis 12
-12 <= x <= 120
HTTPS-Callback-URL, die nach Abschluss des Tasks aufgerufen wird
Wann sie ausgelöst wird:
- Wird ausgelöst, wenn der Task abgeschlossen, fehlgeschlagen oder abgebrochen wird
- Wird nach Finalisierung der Abrechnung gesendet
Sicherheitsbeschränkungen:
- Nur HTTPS
- Callbacks an interne IP-Adressen sind verboten (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x usw.)
- Die URL-Länge darf
2048Zeichen nicht überschreiten
Callback-Mechanismus:
- Timeout:
10Sekunden - Bis zu
3Wiederholungen bei Fehlschlag (jeweils1/2/4Sekunden nach jedem Fehlschlag) - Der Callback-Body hat dasselbe Format wie die Antwort der Task-Abfrage
- Eine 2xx-Antwort wird als Erfolg gewertet; andere Statuscodes lösen eine Wiederholung aus
"https://your-domain.com/webhooks/audio-completed"
Antwort
Audio-Generierungstask erfolgreich erstellt
Zeitstempel der Task-Erstellung
1775200000
Task-ID
"task-unified-1775200000-abcd1234"
Das tatsächlich verwendete Modell
"doubao-seed-audio-1-0"
Spezifischer Task-Typ
audio.generation.task Task-Fortschritt in Prozent (0-100)
0 <= x <= 1000
Task-Status
pending, processing, completed, failed "pending"
Detaillierte Informationen zum Audio-Task
Typ der Task-Ausgabe
audio "audio"
Nutzungs- und Abrechnungsinformationen