OmniHuman-1.5 数字人视频生成
- OmniHuman-1.5 (omnihuman-1.5) 模型可生成音频驱动的数字人视频
- 异步处理模式,使用返回的任务ID 进行查询
- 生成的视频链接有效期为24小时,请尽快保存
注意:
- 音频时长限制:最长35秒
- 支持的音频格式:MP3、WAV
- 按音频时长计费(向上取整到秒)
授权
##所有接口均需要使用Bearer Token进行认证##
获取 API Key:
访问 API Key 管理页面 获取您的 API Key
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY请求体
数字人视频生成模型名称
omnihuman-1.5 "omnihuman-1.5"
驱动唇形同步和身体动作的音频URL
注意:
- 音频时长上限:
35秒 - 支持格式:
.mp3、.wav - 音频URL需要服务器能直接访问
- 按音频时长计费(向上取整到秒)
"https://example.com/audio.mp3"
参考图像URL列表,包含需要驱动人物的参考图像
注意:
- 单次请求支持输入图像数量:
1张 - 图像应包含清晰的人物形象
- 图像大小:不超过
10MB - 支持的文件格式:
.jpg、.jpeg、.png、.webp - 图像URL需要服务器能直接查看
1["https://example.com/person.jpg"]可选的文本提示,用于引导生成风格,仅限中文、英语、日语、韩语、墨西哥语、印尼语
"A person speaking naturally with subtle expressions"
启用快速处理模式
注意:
true:更快生成,但质量可能略低false:标准质量处理(默认)
false
用于指定动画区域的遮罩URL数组
注意:
- 可选参数,用于高级控制
- 遮罩图像应与参考图像尺寸匹配
["https://example.com/mask.png"]随机种子,作为确定扩散初始状态的基础,默认随机。若随机种子为相同正整数且其他参数均一致,则生成内容有概率效果一致
启用主体检测以验证图像中是否存在人物
注意:
true:启用主体检测,请求发起时间会增长false:跳过主体检测(默认)
false
启用自动遮罩生成
注意:
true:自动检测并遮罩人物形象,请求发起时间会增长,mask_url参数有值时此参数不生效false:使用提供的mask_url或不使用遮罩(默认)
false
任务完成后的HTTPS回调地址
回调时机:
- 任务完成(completed)、失败(failed)或取消(cancelled)时触发
- 在计费确认完成后发送
安全限制:
- 仅支持HTTPS协议
- 禁止回调到内网IP地址(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x等)
- URL长度不超过
2048字符
回调机制:
- 超时时间:
10秒 - 失败后最多重试
3次(会分别在失败的1秒/2秒/4秒后进行重试) - 回调响应体格式与任务查询接口返回的格式一致
- 回调地址若返回2xx状态码视为成功,其他状态码会触发重试
"https://your-domain.com/webhooks/video-task-completed"
响应
数字人视频生成任务创建成功
任务创建时间戳
1757169743
任务ID
"task-unified-1757169743-7cvnl5zw"
实际使用的模型名称
"omnihuman-1.5"
任务的具体类型
video.generation.task 任务进度百分比 (0-100)
0 <= x <= 1000
任务状态
pending, processing, completed, failed "pending"
视频任务详细信息
任务的输出类型
text, image, audio, video "video"
使用量和计费信息