Seed-Audio 1.0 Generacion de Audio

Autorizaciones

Authorization

string

header

requerido

##Todos los endpoints requieren autenticacion con Bearer Token##

Obtenga su API Key:

Visite la pagina de gestion de API Keys para obtener su API Key

Agreguela al encabezado de la solicitud:

Authorization: Bearer YOUR_API_KEY

Cuerpo

application/json

model

enum<string>

predeterminado:doubao-seed-audio-1-0

requerido

Nombre del modelo

Opciones disponibles:

doubao-seed-audio-1-0

Ejemplo:

"doubao-seed-audio-1-0"

prompt

string

requerido

El prompt o texto a sintetizar en audio

Tres modos de generacion (detectados automaticamente segun los recursos de referencia que envia):

Texto a audio: envie solo prompt para generar audio directamente desde el texto
Audio de referencia (clonacion de voz): combine con audio_references; use el marcador literal @audioN para hacer referencia al N-esimo elemento (numerado desde 1, en el orden del arreglo)
Imagen de referencia: combine con image_urls; prompt solo necesita el texto a sintetizar

Las referencias de audio (audio_references) y las referencias de imagen (image_urls) son mutuamente excluyentes — solo puede usarse una por solicitud.

Restricciones:

Hasta 1500 caracteres

Maximum string length: 1500

Ejemplo:

"Bienvenido al servicio de generacion de audio. El clima esta encantador hoy."

audio_references

string[]

Lista de recursos de referencia. Cada elemento puede ser un ID de voz o una URL de audio de referencia, y ambos pueden mezclarse dentro del mismo arreglo

ID de voz: el voice_type de una voz predefinida — vea la lista completa en Lista de voces de Seed-Audio 1.0
URL de audio: cargue un clip de audio de referencia para clonacion de voz
Mutuamente excluyente con image_urls: el audio de referencia y la imagen de referencia se excluyen mutuamente; no pueden enviarse juntos en una sola solicitud
Use el marcador literal @audioN en prompt para hacer referencia al N-esimo elemento (numerado desde 1, en el orden del arreglo)
Si se omite, el modelo genera una voz libremente segun prompt

Limite de cantidad:

Hasta 3 elementos en total en el arreglo (combinando IDs de voz y URLs de audio)

Restricciones de URL de audio:

Cada clip de referencia ≤ 30 segundos y ≤ 10 MB
Formatos: wav / mp3 / pcm / ogg_opus

Maximum array length: 3

Ejemplo:

["zh_female_vv_uranus_bigtts"]

image_urls

string<uri>[]

Lista de URLs de imagenes de referencia; genera audio que coincide con el ambiente de la imagen

Al usar una referencia de imagen, prompt solo necesita el texto a sintetizar
Mutuamente excluyente con audio_references: la imagen de referencia y el audio de referencia se excluyen mutuamente; no pueden enviarse juntos en una sola solicitud

Restricciones:

Actualmente solo 1 imagen, ≤ 10 MB
Formatos: jpeg / png / webp

Maximum array length: 1

Ejemplo:

["https://example.com/scene.jpg"]

format

enum<string>

predeterminado:wav

Formato del audio de salida

Opciones disponibles:

wav,

mp3,

pcm,

ogg_opus

Ejemplo:

"mp3"

sample_rate

enum<integer>

predeterminado:24000

Frecuencia de muestreo de salida (Hz)

Opciones disponibles:

8000,

16000,

24000,

32000,

44100,

48000

Ejemplo:

24000

speech_rate

number

predeterminado:1

Multiplicador de velocidad del habla (admite dos decimales)

1.0: velocidad normal (predeterminado)
2.0: velocidad 2x; 0.5: media velocidad

Rango 0.5 a 2.0

Rango requerido: 0.5 <= x <= 2Debe ser un múltiplo de 0.01

Ejemplo:

1.25

loudness_rate

number

predeterminado:1

Multiplicador de volumen (admite dos decimales)

1.0: volumen normal (predeterminado)
2.0: volumen 2x; 0.5: medio volumen

Rango 0.5 a 2.0

Rango requerido: 0.5 <= x <= 2Debe ser un múltiplo de 0.01

Ejemplo:

0.85

pitch_rate

integer

predeterminado:0

Ajuste de tono, en semitonos

0: tono predeterminado (sin cambio)
Valores positivos suben el tono: cuanto mayor sea el valor, mas aguda y nitida sera la voz; 12 la sube una octava
Valores negativos bajan el tono: cuanto menor sea el valor, mas grave y profunda sera la voz; -12 la baja una octava

Rango -12 a 12

Rango requerido: -12 <= x <= 12

Ejemplo:

0

callback_url

string<uri>

URL de callback HTTPS invocada cuando finaliza la tarea

Cuando se dispara:

Se activa cuando la tarea se completa, falla o se cancela
Se envia despues de finalizar la facturacion

Restricciones de seguridad:

Solo HTTPS
Los callbacks a direcciones IP internas estan prohibidos (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
La longitud de la URL no debe superar los 2048 caracteres

Mecanismo de callback:

Tiempo de espera: 10 segundos
Hasta 3 reintentos en caso de fallo (a los 1 / 2 / 4 segundos despues de cada fallo)
El cuerpo del callback tiene el mismo formato que la respuesta de consulta de tarea
Una respuesta 2xx se considera exito; otros codigos de estado activan un reintento

Ejemplo:

"https://your-domain.com/webhooks/audio-completed"

Respuesta

Tarea de generacion de audio creada con exito

created

integer

Marca de tiempo de creacion de la tarea

Ejemplo:

1775200000

string

ID de tarea

Ejemplo:

"task-unified-1775200000-abcd1234"

model

string

El modelo realmente utilizado

Ejemplo:

"doubao-seed-audio-1-0"

object

enum<string>

Tipo especifico de tarea

Opciones disponibles:

audio.generation.task

progress

integer

Porcentaje de progreso de la tarea (0-100)

Rango requerido: 0 <= x <= 100

Ejemplo:

0

status

enum<string>

Estado de la tarea

Opciones disponibles:

pending,

processing,

completed,

failed

Ejemplo:

"pending"

task_info

object

Informacion detallada de la tarea de audio

Show child attributes

type

enum<string>

Tipo de salida de la tarea

Opciones disponibles:

audio

Ejemplo:

"audio"

usage

object

Informacion de uso y facturacion

Show child attributes