Saltar al contenido principal
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "doubao-seed-audio-1-0",
  "prompt": "Bienvenido al servicio de generacion de audio. El clima esta encantador hoy.",
  "format": "mp3"
}
'
{
  "created": 1775200000,
  "id": "task-unified-1775200000-abcd1234",
  "model": "doubao-seed-audio-1-0",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "audio_generation"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 9.6
  }
}

Autorizaciones

Authorization
string
header
requerido

##Todos los endpoints requieren autenticacion con Bearer Token##

Obtenga su API Key:

Visite la pagina de gestion de API Keys para obtener su API Key

Agreguela al encabezado de la solicitud:

Authorization: Bearer YOUR_API_KEY

Cuerpo

application/json
model
enum<string>
predeterminado:doubao-seed-audio-1-0
requerido

Nombre del modelo

Opciones disponibles:
doubao-seed-audio-1-0
Ejemplo:

"doubao-seed-audio-1-0"

prompt
string
requerido

El prompt o texto a sintetizar en audio

Tres modos de generacion (detectados automaticamente segun los recursos de referencia que envia):

  • Texto a audio: envie solo prompt para generar audio directamente desde el texto
  • Audio de referencia (clonacion de voz): combine con audio_references; use el marcador literal @audioN para hacer referencia al N-esimo elemento (numerado desde 1, en el orden del arreglo)
  • Imagen de referencia: combine con image_urls; prompt solo necesita el texto a sintetizar

Las referencias de audio (audio_references) y las referencias de imagen (image_urls) son mutuamente excluyentes — solo puede usarse una por solicitud.

Restricciones:

  • Hasta 1500 caracteres
Maximum string length: 1500
Ejemplo:

"Bienvenido al servicio de generacion de audio. El clima esta encantador hoy."

audio_references
string[]

Lista de recursos de referencia. Cada elemento puede ser un ID de voz o una URL de audio de referencia, y ambos pueden mezclarse dentro del mismo arreglo

  • ID de voz: el voice_type de una voz predefinida — vea la lista completa en Lista de voces de Seed-Audio 1.0
  • URL de audio: cargue un clip de audio de referencia para clonacion de voz
  • Mutuamente excluyente con image_urls: el audio de referencia y la imagen de referencia se excluyen mutuamente; no pueden enviarse juntos en una sola solicitud
  • Use el marcador literal @audioN en prompt para hacer referencia al N-esimo elemento (numerado desde 1, en el orden del arreglo)
  • Si se omite, el modelo genera una voz libremente segun prompt

Limite de cantidad:

  • Hasta 3 elementos en total en el arreglo (combinando IDs de voz y URLs de audio)

Restricciones de URL de audio:

  • Cada clip de referencia ≤ 30 segundos y ≤ 10 MB
  • Formatos: wav / mp3 / pcm / ogg_opus
Maximum array length: 3
Ejemplo:
["zh_female_vv_uranus_bigtts"]
image_urls
string<uri>[]

Lista de URLs de imagenes de referencia; genera audio que coincide con el ambiente de la imagen

  • Al usar una referencia de imagen, prompt solo necesita el texto a sintetizar
  • Mutuamente excluyente con audio_references: la imagen de referencia y el audio de referencia se excluyen mutuamente; no pueden enviarse juntos en una sola solicitud

Restricciones:

  • Actualmente solo 1 imagen, ≤ 10 MB
  • Formatos: jpeg / png / webp
Maximum array length: 1
Ejemplo:
["https://example.com/scene.jpg"]
format
enum<string>
predeterminado:wav

Formato del audio de salida

Opciones disponibles:
wav,
mp3,
pcm,
ogg_opus
Ejemplo:

"mp3"

sample_rate
enum<integer>
predeterminado:24000

Frecuencia de muestreo de salida (Hz)

Opciones disponibles:
8000,
16000,
24000,
32000,
44100,
48000
Ejemplo:

24000

speech_rate
number
predeterminado:1

Multiplicador de velocidad del habla (admite dos decimales)

  • 1.0: velocidad normal (predeterminado)
  • 2.0: velocidad 2x; 0.5: media velocidad

Rango 0.5 a 2.0

Rango requerido: 0.5 <= x <= 2Debe ser un múltiplo de 0.01
Ejemplo:

1.25

loudness_rate
number
predeterminado:1

Multiplicador de volumen (admite dos decimales)

  • 1.0: volumen normal (predeterminado)
  • 2.0: volumen 2x; 0.5: medio volumen

Rango 0.5 a 2.0

Rango requerido: 0.5 <= x <= 2Debe ser un múltiplo de 0.01
Ejemplo:

0.85

pitch_rate
integer
predeterminado:0

Ajuste de tono, en semitonos

  • 0: tono predeterminado (sin cambio)
  • Valores positivos suben el tono: cuanto mayor sea el valor, mas aguda y nitida sera la voz; 12 la sube una octava
  • Valores negativos bajan el tono: cuanto menor sea el valor, mas grave y profunda sera la voz; -12 la baja una octava

Rango -12 a 12

Rango requerido: -12 <= x <= 12
Ejemplo:

0

callback_url
string<uri>

URL de callback HTTPS invocada cuando finaliza la tarea

Cuando se dispara:

  • Se activa cuando la tarea se completa, falla o se cancela
  • Se envia despues de finalizar la facturacion

Restricciones de seguridad:

  • Solo HTTPS
  • Los callbacks a direcciones IP internas estan prohibidos (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
  • La longitud de la URL no debe superar los 2048 caracteres

Mecanismo de callback:

  • Tiempo de espera: 10 segundos
  • Hasta 3 reintentos en caso de fallo (a los 1 / 2 / 4 segundos despues de cada fallo)
  • El cuerpo del callback tiene el mismo formato que la respuesta de consulta de tarea
  • Una respuesta 2xx se considera exito; otros codigos de estado activan un reintento
Ejemplo:

"https://your-domain.com/webhooks/audio-completed"

Respuesta

Tarea de generacion de audio creada con exito

created
integer

Marca de tiempo de creacion de la tarea

Ejemplo:

1775200000

id
string

ID de tarea

Ejemplo:

"task-unified-1775200000-abcd1234"

model
string

El modelo realmente utilizado

Ejemplo:

"doubao-seed-audio-1-0"

object
enum<string>

Tipo especifico de tarea

Opciones disponibles:
audio.generation.task
progress
integer

Porcentaje de progreso de la tarea (0-100)

Rango requerido: 0 <= x <= 100
Ejemplo:

0

status
enum<string>

Estado de la tarea

Opciones disponibles:
pending,
processing,
completed,
failed
Ejemplo:

"pending"

task_info
object

Informacion detallada de la tarea de audio

type
enum<string>

Tipo de salida de la tarea

Opciones disponibles:
audio
Ejemplo:

"audio"

usage
object

Informacion de uso y facturacion