Wan2.7 参考视频
- WAN2.7 (wan2.7-reference-video) 模型支持参考生视频模式,可将人或物体作为主角,生成单角色表演或多角色互动视频
- 支持多模态输入:首帧图(
image_start)、多张参考图片(image_urls)、多个参考视频(video_urls)以及多角色音色绑定 - 必须至少提供一个参考图片(
image_urls)或参考视频(video_urls),仅传image_start不满足此要求;image_urls+video_urls合计 ≤ 5 - prompt 中角色指代规则: 中文用「图1、图2 / 视频1、视频2」指代(与
image_urls/video_urls数组顺序一一对应,1-based);英文用 “Image 1”、“Video 1”。图片与视频分别计数,可同时存在「图1」「视频1」 - 多角色音色绑定: 推荐使用
model_params.voice_bindings(精确绑定),兼容旧协议audio_urls(按顺序对齐) - 异步处理模式,使用返回的任务ID 进行查询
- 生成的视频链接,有效期为24小时,请尽快保存
- 计费说明:采用「输入视频时长 + 输出视频时长」联合计费,仅成功生成视频后计费,失败不收费
授权
##所有接口均需要使用Bearer Token进行认证##
获取 API Key :
访问 API Key 管理页面 获取您的 API Key
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY请求体
模型名称,固定为 wan2.7-reference-video
wan2.7-reference-video "wan2.7-reference-video"
视频生成的文本提示词。支持中英文,每个汉字/字母/标点占 1 个字符,超过部分会自动截断,最大长度 5000 字符
角色指代规则:
- 中文:用「图1、图2 / 视频1、视频2」指代参考素材,与
image_urls/video_urls数组顺序一一对应(1-based) - 英文:用 "Image 1"、"Video 1"(首字母大写,字母数字之间空格)
- 图片与视频分别计数,即可同时存在「图1」与「视频1」
- 若仅有一张参考图或一个参考视频,可简化为「参考图片」或「参考视频」
多宫格图像(故事板): 当传入一张多宫格图像时,提示词建议按多分镜形式描述关键画面,模型会自动识别宫格逻辑并补全镜头
5000"视频1抱着图3,在图4的椅子上弹奏一支舒缓的乡村民谣"
负面提示词,描述不希望在视频画面中出现的内容。支持中英文,最大长度 500 字符,超过部分会自动截断
500"模糊, 低质量"
首帧图片 URL,作为视频的起始画面。不计入 image_urls + video_urls 合计 ≤ 5 的参考媒体上限。不接受音色绑定(首帧图本身不参与多角色音色分配)
搭配场景:
- 首帧中已出现待参考主体:可与参考素材联合控制,强化主体一致性
- 首帧中未出现待参考主体:可用参考素材定义视频动态过程中新出现的主体
图像限制:
- 格式:JPEG、JPG、PNG(不支持透明通道)、BMP、WEBP
- 分辨率:宽和高的范围为
[240, 8000]像素 - 宽高比:1:8 ~ 8:1
- 文件大小:不超过
20MB
"https://example.com/first_frame.jpg"
参考图片 URL 数组。可提供主体角色(人物/动物/物体)或场景背景;当包含主体时,建议每张图仅含单一角色
数量限制:
image_urls+video_urls合计 ≤ 5- 必须与
video_urls至少二选一传入(仅传image_start不满足要求)
图像限制:
- 格式:JPEG、JPG、PNG(不支持透明通道)、BMP、WEBP
- 分辨率:宽和高的范围为
[240, 8000]像素 - 宽高比:1:8 ~ 8:1
- 文件大小:不超过
20MB
[
"https://example.com/ref1.jpg",
"https://example.com/ref2.jpg"
]参考视频 URL 数组。视频内容建议包含主体(人物/动物/物体),不建议使用空镜或纯背景视频;当包含主体时,建议每个视频仅含单一角色。若视频自带声音,可作为音色参考
数量限制:
image_urls+video_urls合计 ≤ 5- 必须与
image_urls至少二选一传入
视频限制:
- 格式:mp4、mov
- 时长:
1 ~ 30秒 - 分辨率:宽和高的范围为
[240, 4096]像素 - 宽高比:1:8 ~ 8:1
- 文件大小:不超过
100MB
注意: 当请求中传入了 video_urls 时,duration 上限收紧到 10 秒
["https://example.com/reference.mp4"]【兼容字段,推荐改用 model_params.voice_bindings】
参考音色音频 URL 数组,按顺序与参考素材绑定——先匹配 video_urls 数组、再匹配 image_urls 数组(按出现顺序一一对齐)。最多 5 个元素
优先级:
- 同时传入
model_params.voice_bindings与audio_urls时,仅使用voice_bindings,本字段被忽略 - 若
video_urls中的视频自带音频且未指定音色绑定,则使用视频原声;指定音色绑定后覆盖原声
音频限制:
- 支持格式:
wav、mp3 - 时长范围:
1 ~ 10秒 - 文件大小:不超过
15MB
5[
"https://example.com/voice1.mp3",
"https://example.com/voice2.mp3"
]高级参数容器(推荐使用)
视频清晰度,默认为720p
说明:
720p: 标准清晰度,标准价格,此为默认值1080p: 高清晰度,价格会提升
720p, 1080p "720p"
视频宽高比,默认为 16:9
生效逻辑:
- 未传入
image_start:按指定的aspect_ratio生成视频 - 已传入
image_start:本字段被忽略,自动以首帧图像的宽高比生成近似比例的视频
不同档位输出分辨率:
| 分辨率档位 | 16:9 | 9:16 | 1:1 | 4:3 | 3:4 |
|---|---|---|---|---|---|
| 720p | 1280×720 | 720×1280 | 960×960 | 1104×832 | 832×1104 |
| 1080p | 1920×1080 | 1080×1920 | 1440×1440 | 1648×1248 | 1248×1648 |
16:9, 9:16, 1:1, 4:3, 3:4 "16:9"
视频时长(秒),整数
取值范围:
- 未传
video_urls:2 ~ 15,默认5 - 已传
video_urls:2 ~ 10(上限收紧到 10 秒)
计费说明: 实际扣费以生成视频秒数为准
2 <= x <= 155
随机种子,默认随机
说明:
- 取值范围:
1~2147483647 - 固定 seed 可在调试 prompt 时降低参数变化的干扰,提升结果可复现性
1 <= x <= 214748364742
是否开启prompt智能改写,开启后将使用大模型优化正向提示词,对描述性不足、较为简单的prompt提升效果较明显。
注意: 默认值为 false,不传或传 false 时不会触发改写,如需开启请显式传 true
false
任务完成后的HTTPS回调地址
回调时机:
- 任务完成(completed)、失败(failed)或取消(cancelled)时触发
- 在计费确认完成后发送
安全限制:
- 仅支持HTTPS协议
- 禁止回调到内网IP地址(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x等)
- URL长度不超过
2048字符
回调机制:
- 超时时间:
10秒 - 失败后最多重试
3次(会分别在失败的1秒/2秒/4秒后进行重试) - 回调响应体格式与任务查询接口返回的格式一致
- 回调地址若返回2xx状态码视为成功,其他状态码会触发重试
"https://your-domain.com/webhooks/video-task-completed"
响应
视频任务创建成功
任务创建时间戳
1757169743
任务ID
"task-unified-1757169743-7cvnl5zw"
实际使用的模型名称
"wan2.7-reference-video"
任务的具体类型
video.generation.task 任务进度百分比 (0-100)
0 <= x <= 1000
任务状态
pending, processing, completed, failed "pending"
视频任务详细信息
任务的输出类型
text, image, audio, video "video"
使用量和计费信息