Passer au contenu principal
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data @- <<EOF
{
  "model": "qwen-voice-design",
  "voice_prompt": "Présentateur masculin d'âge mûr au ton posé, voix grave et profonde, magnétique, débit régulier, articulation claire",
  "preview_text": "Bonsoir à tous nos auditeurs, bienvenue au journal du soir.",
  "preferred_name": "announcer"
}
EOF
{
  "created": 1775123456,
  "id": "task-unified-1775123456-abcd1234",
  "model": "qwen-voice-design",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "voice_design"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 2
  }
}

Autorisations

Authorization
string
header
requis

##Toutes les interfaces nécessitent une authentification par Bearer Token##

Obtenir une clé API :

Visitez la page de gestion des clés API pour obtenir votre clé API

Ajoutez ceci dans l'en-tête de la requête :

Authorization: Bearer YOUR_API_KEY

Corps

application/json
model
enum<string>
défaut:qwen-voice-design
requis

Nom du modèle

Options disponibles:
qwen-voice-design
Exemple:

"qwen-voice-design"

voice_prompt
string
requis

Description des caractéristiques vocales pour définir le timbre

Contraintes :

  • Maximum 2048 caractères
  • Uniquement le chinois et l'anglais sont pris en charge

Dimensions de description suggérées :

  • Genre : masculin, féminin, neutre
  • Âge : enfant (5-12), adolescent (13-18), jeune adulte (19-35), adulte (36-55), senior (55+)
  • Tonalité : aiguë, moyenne, grave
  • Débit : rapide, modéré, lent
  • Émotion : joyeux, posé, doux, sérieux, vif, calme
  • Caractéristiques : magnétique, cristallin, voilé, velouté, suave, profond
  • Usage : lecture d'actualités, doublage publicitaire, livre audio, personnage animé, assistant vocal

Exemples de formulations recommandées :

  • Homme d'âge mûr au ton posé, débit lent, voix grave et magnétique, idéale pour lire des journaux ou commenter des documentaires
  • Voix enfantine adorable, fillette d'environ 8 ans, ton légèrement naïf, idéale pour le doublage de personnages animés
  • Femme douce et cultivée, environ 30 ans, ton serein, idéale pour la lecture de livres audio
Maximum string length: 2048
Exemple:

"Présentateur masculin d'âge mûr au ton posé, voix grave et profonde, magnétique, débit régulier, articulation claire"

preview_text
string
requis

Texte d'aperçu pour générer l'audio d'écoute

Contraintes :

  • Maximum 1024 caractères
  • Supporte 10 langues : chinois, anglais, japonais, coréen, allemand, français, italien, russe, portugais, espagnol
  • Il est conseillé que la langue corresponde au paramètre language
Maximum string length: 1024
Exemple:

"Bonsoir à tous nos auditeurs, bienvenue au journal du soir."

preferred_name
string
requis

Préfixe du nom du timbre vocal

Contraintes :

  • Uniquement chiffres, lettres anglaises et underscores
  • Maximum 16 caractères

Format du nom de timbre complet généré : qwen-tts-vd-{preferred_name}-voice-{timestamp}

Si vous saisissez announcer, le nom final ressemblera à : qwen-tts-vd-announcer-voice-20260402-a1b2

Maximum string length: 16
Pattern: ^[a-zA-Z0-9_]+$
Exemple:

"announcer"

language
enum<string>

Préférence linguistique du timbre ; il est conseillé de la faire correspondre à la langue de preview_text

Si non renseigné, la valeur par défaut zh est utilisée en amont

Options disponibles:
zh,
en,
ja,
ko,
de,
fr,
it,
ru,
pt,
es
Exemple:

"fr"

sample_rate
enum<integer>

Taux d'échantillonnage de l'audio d'aperçu (Hz)

Si non renseigné, la valeur par défaut 24000 est utilisée en amont

Options disponibles:
8000,
16000,
24000,
48000
Exemple:

24000

response_format
enum<string>

Format de l'audio d'aperçu

Si non renseigné, la valeur par défaut wav est utilisée en amont

Options disponibles:
pcm,
wav,
mp3,
opus
Exemple:

"wav"

target_model
enum<string>
défaut:qwen3-tts-vd-2026-01-26

Modèle TTS qui pilotera le timbre créé

Important : Le target_model spécifié lors de la création du timbre doit correspondre au modèle utilisé lors de la synthèse vocale ultérieure, sinon la synthèse échouera

ValeurDescription
qwen3-tts-vd-2026-01-26Qwen3-TTS-VD non-streaming (par défaut)
qwen3-tts-vd-realtime-2026-01-15Qwen3-TTS-VD-Realtime streaming bidirectionnel (nouvelle version)
qwen3-tts-vd-realtime-2025-12-16Qwen3-TTS-VD-Realtime streaming bidirectionnel (ancienne version)

Actuellement, cette plateforme a intégré qwen3-tts-vd-2026-01-26 (non-streaming) ; les modèles realtime ne sont pas encore disponibles mais vous pouvez pré-créer des timbres

Options disponibles:
qwen3-tts-vd-2026-01-26,
qwen3-tts-vd-realtime-2026-01-15,
qwen3-tts-vd-realtime-2025-12-16
Exemple:

"qwen3-tts-vd-2026-01-26"

callback_url
string<uri>

URL de rappel HTTPS après la fin de la tâche

Déclenchement du rappel :

  • Déclenché lorsque la tâche est terminée (completed), échouée (failed) ou annulée (cancelled)
  • Envoyé après confirmation de la facturation

Restrictions de sécurité :

  • Uniquement le protocole HTTPS est pris en charge
  • Les rappels vers des adresses IP internes sont interdits (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
  • La longueur de l'URL ne doit pas dépasser 2048 caractères

Mécanisme de rappel :

  • Délai d'expiration : 10 secondes
  • Maximum 3 nouvelles tentatives en cas d'échec (à 1 s / 2 s / 4 s après l'échec respectivement)
  • Le format du corps de rappel est identique à celui retourné par l'interface de requête de tâche
  • Un code de statut 2xx de l'URL de rappel est considéré comme un succès ; tout autre code déclenche une nouvelle tentative
Exemple:

"https://your-domain.com/webhooks/voice-design-completed"

Réponse

Tâche de conception vocale créée avec succès

created
integer

Horodatage de création de la tâche

Exemple:

1775123456

id
string

ID de la tâche

Exemple:

"task-unified-1775123456-abcd1234"

model
string

Nom du modèle réellement utilisé

Exemple:

"qwen-voice-design"

object
enum<string>

Type spécifique de la tâche

Options disponibles:
audio.generation.task
progress
integer

Pourcentage de progression de la tâche (0-100)

Plage requise: 0 <= x <= 100
Exemple:

0

status
enum<string>

Statut de la tâche

Options disponibles:
pending,
processing,
completed,
failed
Exemple:

"pending"

task_info
object

Informations détaillées sur la tâche audio

type
enum<string>

Type de sortie de la tâche

Options disponibles:
audio
Exemple:

"audio"

usage
object

Informations d'utilisation et de facturation