Seed-Audio 1.0 Generation Audio
- Generation audio multimodale avec trois modes : texte-vers-audio, audio de reference (clonage de voix) et image de reference
- Jusqu’a
120secondes d’audio par requete - Mode asynchrone — utilisez l’ID de tache retourne pour consulter le resultat
- Les liens audio generes sont valides pendant 24 heures, veuillez les sauvegarder rapidement
Autorisations
##Tous les endpoints necessitent une authentification par Bearer Token##
Obtenez votre cle API :
Visitez la page de gestion des cles API pour obtenir votre cle API
Ajoutez-la a l'en-tete de la requete :
Authorization: Bearer YOUR_API_KEY
Corps
Nom du modele
doubao-seed-audio-1-0 "doubao-seed-audio-1-0"
Le prompt ou le texte a synthetiser en audio
Trois modes de generation (detectes automatiquement selon les ressources de reference fournies) :
- Texte-vers-audio : passez uniquement
promptpour generer de l'audio directement a partir du prompt - Audio de reference (clonage de voix) : associez avec
audio_references; utilisez le marqueur litteral@audioNpour referencer le Nieme element (numerote a partir de1, dans l'ordre du tableau) - Image de reference : associez avec
image_urls;promptn'a besoin que du texte a synthetiser
Les references audio (
audio_references) et les references d'image (image_urls) sont mutuellement exclusifs — une seule peut etre utilisee par requete.
Contraintes :
- Jusqu'a
1500caracteres
1500"Bienvenue dans le service de generation audio. Il fait beau aujourd'hui."
Liste de ressources de reference. Chaque element peut etre un ID de voix ou une URL d'audio de reference, et les deux peuvent etre melanges dans le meme tableau
- ID de voix : le
voice_typed'une voix predefinie — voir la liste complete dans Liste des voix Seed-Audio 1.0 - URL audio : televersez un clip audio de reference pour le clonage de voix
- Mutuellement exclusif avec
image_urls: audio de reference et image de reference sont alternatifs ; ils ne peuvent pas etre envoyes ensemble dans une seule requete - Utilisez le marqueur litteral
@audioNdanspromptpour referencer le Nieme element (numerote a partir de1, dans l'ordre du tableau) - Si omis, le modele genere une voix librement en fonction de
prompt
Limite de quantite :
- Jusqu'a
3elements au total dans le tableau (IDs de voix et URLs audio combines)
Contraintes d'URL audio :
- Chaque clip de reference ≤
30secondes et ≤10 MB - Formats :
wav/mp3/pcm/ogg_opus
3["zh_female_vv_uranus_bigtts"]
Liste d'URLs d'images de reference ; genere de l'audio correspondant a l'ambiance de l'image
- Lors de l'utilisation d'une image de reference,
promptn'a besoin que du texte a synthetiser - Mutuellement exclusif avec
audio_references: image de reference et audio de reference sont alternatifs ; ils ne peuvent pas etre envoyes ensemble dans une seule requete
Contraintes :
- Actuellement
1image uniquement, ≤10 MB - Formats :
jpeg/png/webp
1["https://example.com/scene.jpg"]
Format audio de sortie
wav, mp3, pcm, ogg_opus "mp3"
Frequence d'echantillonnage de sortie (Hz)
8000, 16000, 24000, 32000, 44100, 48000 24000
Multiplicateur de vitesse de parole (prend en charge deux decimales)
1.0: vitesse normale (par defaut)2.0: vitesse 2x ;0.5: moitie de la vitesse
Plage 0.5 a 2.0
0.5 <= x <= 2Doit être un multiple de 0.011.25
Multiplicateur de volume (prend en charge deux decimales)
1.0: volume normal (par defaut)2.0: volume 2x ;0.5: moitie du volume
Plage 0.5 a 2.0
0.5 <= x <= 2Doit être un multiple de 0.010.85
Ajustement de la hauteur, en demi-tons
0: hauteur par defaut (aucun changement)- Les valeurs positives augmentent la hauteur : plus la valeur est grande, plus la voix est haute et aigue ;
12augmente d'une octave - Les valeurs negatives diminuent la hauteur : plus la valeur est petite, plus la voix est basse et grave ;
-12diminue d'une octave
Plage -12 a 12
-12 <= x <= 120
URL de rappel HTTPS appelee a la fin de la tache
Quand elle se declenche :
- Declenchee lorsque la tache est terminee, echouee ou annulee
- Envoyee apres la finalisation de la facturation
Restrictions de securite :
- HTTPS uniquement
- Les rappels vers des adresses IP internes sont interdits (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
- La longueur de l'URL ne doit pas depasser
2048caracteres
Mecanisme de rappel :
- Delai d'attente :
10secondes - Jusqu'a
3tentatives en cas d'echec (a1/2/4secondes apres chaque echec) - Le corps du rappel a le meme format que la reponse a la requete de tache
- Une reponse 2xx est consideree comme un succes ; les autres codes de statut declenchent une nouvelle tentative
"https://your-domain.com/webhooks/audio-completed"
Réponse
Tache de generation audio creee avec succes
Horodatage de creation de la tache
1775200000
ID de tache
"task-unified-1775200000-abcd1234"
Le modele effectivement utilise
"doubao-seed-audio-1-0"
Type de tache specifique
audio.generation.task Pourcentage de progression de la tache (0-100)
0 <= x <= 1000
Statut de la tache
pending, processing, completed, failed "pending"
Informations detaillees sur la tache audio
Type de sortie de la tache
audio "audio"
Informations d'utilisation et de facturation