Passer au contenu principal
POST
/
v1
/
audios
/
generations
curl --request POST \ --url https://api.evolink.ai/v1/audios/generations \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data @- <<EOF { "model": "doubao-seed-audio-1-0", "prompt": "Bienvenue dans le service de generation audio. Il fait beau aujourd'hui.", "format": "mp3" } EOF
{
  "created": 1775200000,
  "id": "task-unified-1775200000-abcd1234",
  "model": "doubao-seed-audio-1-0",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "audio_generation"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 9.6
  }
}

Autorisations

Authorization
string
header
requis

##Tous les endpoints necessitent une authentification par Bearer Token##

Obtenez votre cle API :

Visitez la page de gestion des cles API pour obtenir votre cle API

Ajoutez-la a l'en-tete de la requete :

Authorization: Bearer YOUR_API_KEY

Corps

application/json
model
enum<string>
défaut:doubao-seed-audio-1-0
requis

Nom du modele

Options disponibles:
doubao-seed-audio-1-0
Exemple:

"doubao-seed-audio-1-0"

prompt
string
requis

Le prompt ou le texte a synthetiser en audio

Trois modes de generation (detectes automatiquement selon les ressources de reference fournies) :

  • Texte-vers-audio : passez uniquement prompt pour generer de l'audio directement a partir du prompt
  • Audio de reference (clonage de voix) : associez avec audio_references ; utilisez le marqueur litteral @audioN pour referencer le Nieme element (numerote a partir de 1, dans l'ordre du tableau)
  • Image de reference : associez avec image_urls ; prompt n'a besoin que du texte a synthetiser

Les references audio (audio_references) et les references d'image (image_urls) sont mutuellement exclusifs — une seule peut etre utilisee par requete.

Contraintes :

  • Jusqu'a 1500 caracteres
Maximum string length: 1500
Exemple:

"Bienvenue dans le service de generation audio. Il fait beau aujourd'hui."

audio_references
string[]

Liste de ressources de reference. Chaque element peut etre un ID de voix ou une URL d'audio de reference, et les deux peuvent etre melanges dans le meme tableau

  • ID de voix : le voice_type d'une voix predefinie — voir la liste complete dans Liste des voix Seed-Audio 1.0
  • URL audio : televersez un clip audio de reference pour le clonage de voix
  • Mutuellement exclusif avec image_urls : audio de reference et image de reference sont alternatifs ; ils ne peuvent pas etre envoyes ensemble dans une seule requete
  • Utilisez le marqueur litteral @audioN dans prompt pour referencer le Nieme element (numerote a partir de 1, dans l'ordre du tableau)
  • Si omis, le modele genere une voix librement en fonction de prompt

Limite de quantite :

  • Jusqu'a 3 elements au total dans le tableau (IDs de voix et URLs audio combines)

Contraintes d'URL audio :

  • Chaque clip de reference ≤ 30 secondes et ≤ 10 MB
  • Formats : wav / mp3 / pcm / ogg_opus
Maximum array length: 3
Exemple:
["zh_female_vv_uranus_bigtts"]
image_urls
string<uri>[]

Liste d'URLs d'images de reference ; genere de l'audio correspondant a l'ambiance de l'image

  • Lors de l'utilisation d'une image de reference, prompt n'a besoin que du texte a synthetiser
  • Mutuellement exclusif avec audio_references : image de reference et audio de reference sont alternatifs ; ils ne peuvent pas etre envoyes ensemble dans une seule requete

Contraintes :

  • Actuellement 1 image uniquement, ≤ 10 MB
  • Formats : jpeg / png / webp
Maximum array length: 1
Exemple:
["https://example.com/scene.jpg"]
format
enum<string>
défaut:wav

Format audio de sortie

Options disponibles:
wav,
mp3,
pcm,
ogg_opus
Exemple:

"mp3"

sample_rate
enum<integer>
défaut:24000

Frequence d'echantillonnage de sortie (Hz)

Options disponibles:
8000,
16000,
24000,
32000,
44100,
48000
Exemple:

24000

speech_rate
number
défaut:1

Multiplicateur de vitesse de parole (prend en charge deux decimales)

  • 1.0 : vitesse normale (par defaut)
  • 2.0 : vitesse 2x ; 0.5 : moitie de la vitesse

Plage 0.5 a 2.0

Plage requise: 0.5 <= x <= 2Doit être un multiple de 0.01
Exemple:

1.25

loudness_rate
number
défaut:1

Multiplicateur de volume (prend en charge deux decimales)

  • 1.0 : volume normal (par defaut)
  • 2.0 : volume 2x ; 0.5 : moitie du volume

Plage 0.5 a 2.0

Plage requise: 0.5 <= x <= 2Doit être un multiple de 0.01
Exemple:

0.85

pitch_rate
integer
défaut:0

Ajustement de la hauteur, en demi-tons

  • 0 : hauteur par defaut (aucun changement)
  • Les valeurs positives augmentent la hauteur : plus la valeur est grande, plus la voix est haute et aigue ; 12 augmente d'une octave
  • Les valeurs negatives diminuent la hauteur : plus la valeur est petite, plus la voix est basse et grave ; -12 diminue d'une octave

Plage -12 a 12

Plage requise: -12 <= x <= 12
Exemple:

0

callback_url
string<uri>

URL de rappel HTTPS appelee a la fin de la tache

Quand elle se declenche :

  • Declenchee lorsque la tache est terminee, echouee ou annulee
  • Envoyee apres la finalisation de la facturation

Restrictions de securite :

  • HTTPS uniquement
  • Les rappels vers des adresses IP internes sont interdits (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
  • La longueur de l'URL ne doit pas depasser 2048 caracteres

Mecanisme de rappel :

  • Delai d'attente : 10 secondes
  • Jusqu'a 3 tentatives en cas d'echec (a 1 / 2 / 4 secondes apres chaque echec)
  • Le corps du rappel a le meme format que la reponse a la requete de tache
  • Une reponse 2xx est consideree comme un succes ; les autres codes de statut declenchent une nouvelle tentative
Exemple:

"https://your-domain.com/webhooks/audio-completed"

Réponse

Tache de generation audio creee avec succes

created
integer

Horodatage de creation de la tache

Exemple:

1775200000

id
string

ID de tache

Exemple:

"task-unified-1775200000-abcd1234"

model
string

Le modele effectivement utilise

Exemple:

"doubao-seed-audio-1-0"

object
enum<string>

Type de tache specifique

Options disponibles:
audio.generation.task
progress
integer

Pourcentage de progression de la tache (0-100)

Plage requise: 0 <= x <= 100
Exemple:

0

status
enum<string>

Statut de la tache

Options disponibles:
pending,
processing,
completed,
failed
Exemple:

"pending"

task_info
object

Informations detaillees sur la tache audio

type
enum<string>

Type de sortie de la tache

Options disponibles:
audio
Exemple:

"audio"

usage
object

Informations d'utilisation et de facturation