Seed-Audio 1.0 Generation Audio

Autorisations

Authorization

string

header

requis

##Tous les endpoints necessitent une authentification par Bearer Token##

Obtenez votre cle API :

Visitez la page de gestion des cles API pour obtenir votre cle API

Ajoutez-la a l'en-tete de la requete :

Authorization: Bearer YOUR_API_KEY

Corps

application/json

model

enum<string>

défaut:doubao-seed-audio-1-0

requis

Nom du modele

Options disponibles:

doubao-seed-audio-1-0

Exemple:

"doubao-seed-audio-1-0"

prompt

string

requis

Le prompt ou le texte a synthetiser en audio

Trois modes de generation (detectes automatiquement selon les ressources de reference fournies) :

Texte-vers-audio : passez uniquement prompt pour generer de l'audio directement a partir du prompt
Audio de reference (clonage de voix) : associez avec audio_references ; utilisez le marqueur litteral @audioN pour referencer le Nieme element (numerote a partir de 1, dans l'ordre du tableau)
Image de reference : associez avec image_urls ; prompt n'a besoin que du texte a synthetiser

Les references audio (audio_references) et les references d'image (image_urls) sont mutuellement exclusifs — une seule peut etre utilisee par requete.

Contraintes :

Jusqu'a 1500 caracteres

Maximum string length: 1500

Exemple:

"Bienvenue dans le service de generation audio. Il fait beau aujourd'hui."

audio_references

string[]

Liste de ressources de reference. Chaque element peut etre un ID de voix ou une URL d'audio de reference, et les deux peuvent etre melanges dans le meme tableau

ID de voix : le voice_type d'une voix predefinie — voir la liste complete dans Liste des voix Seed-Audio 1.0
URL audio : televersez un clip audio de reference pour le clonage de voix
Mutuellement exclusif avec image_urls : audio de reference et image de reference sont alternatifs ; ils ne peuvent pas etre envoyes ensemble dans une seule requete
Utilisez le marqueur litteral @audioN dans prompt pour referencer le Nieme element (numerote a partir de 1, dans l'ordre du tableau)
Si omis, le modele genere une voix librement en fonction de prompt

Limite de quantite :

Jusqu'a 3 elements au total dans le tableau (IDs de voix et URLs audio combines)

Contraintes d'URL audio :

Chaque clip de reference ≤ 30 secondes et ≤ 10 MB
Formats : wav / mp3 / pcm / ogg_opus

Maximum array length: 3

Exemple:

["zh_female_vv_uranus_bigtts"]

image_urls

string<uri>[]

Liste d'URLs d'images de reference ; genere de l'audio correspondant a l'ambiance de l'image

Lors de l'utilisation d'une image de reference, prompt n'a besoin que du texte a synthetiser
Mutuellement exclusif avec audio_references : image de reference et audio de reference sont alternatifs ; ils ne peuvent pas etre envoyes ensemble dans une seule requete

Contraintes :

Actuellement 1 image uniquement, ≤ 10 MB
Formats : jpeg / png / webp

Maximum array length: 1

Exemple:

["https://example.com/scene.jpg"]

format

enum<string>

défaut:wav

Format audio de sortie

Options disponibles:

wav,

mp3,

pcm,

ogg_opus

Exemple:

"mp3"

sample_rate

enum<integer>

défaut:24000

Frequence d'echantillonnage de sortie (Hz)

Options disponibles:

8000,

16000,

24000,

32000,

44100,

48000

Exemple:

24000

speech_rate

number

défaut:1

Multiplicateur de vitesse de parole (prend en charge deux decimales)

1.0 : vitesse normale (par defaut)
2.0 : vitesse 2x ; 0.5 : moitie de la vitesse

Plage 0.5 a 2.0

Plage requise: 0.5 <= x <= 2Doit être un multiple de 0.01

Exemple:

1.25

loudness_rate

number

défaut:1

Multiplicateur de volume (prend en charge deux decimales)

1.0 : volume normal (par defaut)
2.0 : volume 2x ; 0.5 : moitie du volume

Plage 0.5 a 2.0

Plage requise: 0.5 <= x <= 2Doit être un multiple de 0.01

Exemple:

0.85

pitch_rate

integer

défaut:0

Ajustement de la hauteur, en demi-tons

0 : hauteur par defaut (aucun changement)
Les valeurs positives augmentent la hauteur : plus la valeur est grande, plus la voix est haute et aigue ; 12 augmente d'une octave
Les valeurs negatives diminuent la hauteur : plus la valeur est petite, plus la voix est basse et grave ; -12 diminue d'une octave

Plage -12 a 12

Plage requise: -12 <= x <= 12

Exemple:

0

callback_url

string<uri>

URL de rappel HTTPS appelee a la fin de la tache

Quand elle se declenche :

Declenchee lorsque la tache est terminee, echouee ou annulee
Envoyee apres la finalisation de la facturation

Restrictions de securite :

HTTPS uniquement
Les rappels vers des adresses IP internes sont interdits (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
La longueur de l'URL ne doit pas depasser 2048 caracteres

Mecanisme de rappel :

Delai d'attente : 10 secondes
Jusqu'a 3 tentatives en cas d'echec (a 1 / 2 / 4 secondes apres chaque echec)
Le corps du rappel a le meme format que la reponse a la requete de tache
Une reponse 2xx est consideree comme un succes ; les autres codes de statut declenchent une nouvelle tentative

Exemple:

"https://your-domain.com/webhooks/audio-completed"

Réponse

Tache de generation audio creee avec succes

created

integer

Horodatage de creation de la tache

Exemple:

1775200000

string

ID de tache

Exemple:

"task-unified-1775200000-abcd1234"

model

string

Le modele effectivement utilise

Exemple:

"doubao-seed-audio-1-0"

object

enum<string>

Type de tache specifique

Options disponibles:

audio.generation.task

progress

integer

Pourcentage de progression de la tache (0-100)

Plage requise: 0 <= x <= 100

Exemple:

0

status

enum<string>

Statut de la tache

Options disponibles:

pending,

processing,

completed,

failed

Exemple:

"pending"

task_info

object

Informations detaillees sur la tache audio

Show child attributes

type

enum<string>

Type de sortie de la tache

Options disponibles:

audio

Exemple:

"audio"

usage

object

Informations d'utilisation et de facturation

Show child attributes