Seed-Audio 1.0 Generacion de Audio
- Generacion de audio multimodal con tres modos: texto a audio, audio de referencia (clonacion de voz) e imagen de referencia
- Hasta
120segundos de audio por solicitud - Modo asincronico — use el ID de tarea devuelto para consultar el resultado
- Los enlaces de audio generados son validos durante 24 horas, guardelos a tiempo
Autorizaciones
##Todos los endpoints requieren autenticacion con Bearer Token##
Obtenga su API Key:
Visite la pagina de gestion de API Keys para obtener su API Key
Agreguela al encabezado de la solicitud:
Authorization: Bearer YOUR_API_KEYCuerpo
Nombre del modelo
doubao-seed-audio-1-0 "doubao-seed-audio-1-0"
El prompt o texto a sintetizar en audio
Tres modos de generacion (detectados automaticamente segun los recursos de referencia que envia):
- Texto a audio: envie solo
promptpara generar audio directamente desde el texto - Audio de referencia (clonacion de voz): combine con
audio_references; use el marcador literal@audioNpara hacer referencia al N-esimo elemento (numerado desde1, en el orden del arreglo) - Imagen de referencia: combine con
image_urls;promptsolo necesita el texto a sintetizar
Las referencias de audio (
audio_references) y las referencias de imagen (image_urls) son mutuamente excluyentes — solo puede usarse una por solicitud.
Restricciones:
- Hasta
1500caracteres
1500"Bienvenido al servicio de generacion de audio. El clima esta encantador hoy."
Lista de recursos de referencia. Cada elemento puede ser un ID de voz o una URL de audio de referencia, y ambos pueden mezclarse dentro del mismo arreglo
- ID de voz: el
voice_typede una voz predefinida — vea la lista completa en Lista de voces de Seed-Audio 1.0 - URL de audio: cargue un clip de audio de referencia para clonacion de voz
- Mutuamente excluyente con
image_urls: el audio de referencia y la imagen de referencia se excluyen mutuamente; no pueden enviarse juntos en una sola solicitud - Use el marcador literal
@audioNenpromptpara hacer referencia al N-esimo elemento (numerado desde1, en el orden del arreglo) - Si se omite, el modelo genera una voz libremente segun
prompt
Limite de cantidad:
- Hasta
3elementos en total en el arreglo (combinando IDs de voz y URLs de audio)
Restricciones de URL de audio:
- Cada clip de referencia ≤
30segundos y ≤10 MB - Formatos:
wav/mp3/pcm/ogg_opus
3["zh_female_vv_uranus_bigtts"]Lista de URLs de imagenes de referencia; genera audio que coincide con el ambiente de la imagen
- Al usar una referencia de imagen,
promptsolo necesita el texto a sintetizar - Mutuamente excluyente con
audio_references: la imagen de referencia y el audio de referencia se excluyen mutuamente; no pueden enviarse juntos en una sola solicitud
Restricciones:
- Actualmente solo
1imagen, ≤10 MB - Formatos:
jpeg/png/webp
1["https://example.com/scene.jpg"]Formato del audio de salida
wav, mp3, pcm, ogg_opus "mp3"
Frecuencia de muestreo de salida (Hz)
8000, 16000, 24000, 32000, 44100, 48000 24000
Multiplicador de velocidad del habla (admite dos decimales)
1.0: velocidad normal (predeterminado)2.0: velocidad 2x;0.5: media velocidad
Rango 0.5 a 2.0
0.5 <= x <= 2Debe ser un múltiplo de 0.011.25
Multiplicador de volumen (admite dos decimales)
1.0: volumen normal (predeterminado)2.0: volumen 2x;0.5: medio volumen
Rango 0.5 a 2.0
0.5 <= x <= 2Debe ser un múltiplo de 0.010.85
Ajuste de tono, en semitonos
0: tono predeterminado (sin cambio)- Valores positivos suben el tono: cuanto mayor sea el valor, mas aguda y nitida sera la voz;
12la sube una octava - Valores negativos bajan el tono: cuanto menor sea el valor, mas grave y profunda sera la voz;
-12la baja una octava
Rango -12 a 12
-12 <= x <= 120
URL de callback HTTPS invocada cuando finaliza la tarea
Cuando se dispara:
- Se activa cuando la tarea se completa, falla o se cancela
- Se envia despues de finalizar la facturacion
Restricciones de seguridad:
- Solo HTTPS
- Los callbacks a direcciones IP internas estan prohibidos (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
- La longitud de la URL no debe superar los
2048caracteres
Mecanismo de callback:
- Tiempo de espera:
10segundos - Hasta
3reintentos en caso de fallo (a los1/2/4segundos despues de cada fallo) - El cuerpo del callback tiene el mismo formato que la respuesta de consulta de tarea
- Una respuesta 2xx se considera exito; otros codigos de estado activan un reintento
"https://your-domain.com/webhooks/audio-completed"
Respuesta
Tarea de generacion de audio creada con exito
Marca de tiempo de creacion de la tarea
1775200000
ID de tarea
"task-unified-1775200000-abcd1234"
El modelo realmente utilizado
"doubao-seed-audio-1-0"
Tipo especifico de tarea
audio.generation.task Porcentaje de progreso de la tarea (0-100)
0 <= x <= 1000
Estado de la tarea
pending, processing, completed, failed "pending"
Informacion detallada de la tarea de audio
Tipo de salida de la tarea
audio "audio"
Informacion de uso y facturacion