Wan2.7 Vidéo de Référence
- Le modèle WAN2.7 (wan2.7-reference-video) prend en charge la génération de référence-vers-vidéo, en utilisant des personnes ou des objets comme protagonistes pour produire des performances de personnage unique ou des interactions multi-personnages
- Entrées multimodales : image de premier plan (
image_start), plusieurs images de référence (image_urls), plusieurs vidéos de référence (video_urls) et liaisons vocales par personnage - Au moins une image de référence (
image_urls) ou une vidéo de référence (video_urls) doit être fournie ; envoyer uniquementimage_startne suffit pas. Le totalimage_urls+video_urlsdoit être ≤ 5 - Indexation des personnages dans le prompt : en chinois, utilisez « 图1, 图2 / 视频1, 视频2 » ; en anglais, utilisez « Image 1 », « Video 1 » — ils correspondent 1-based à l’ordre de
image_urls/video_urls. Les images et les vidéos sont comptées séparément, donc « Image 1 » et « Video 1 » peuvent coexister - Liaison vocale multi-personnages : privilégiez
model_params.voice_bindings(liaison précise) ; le champ historiqueaudio_urls(alignement positionnel) est également pris en charge - Mode de traitement asynchrone, utilisez l’ID de tâche renvoyé pour interroger le statut
- Les liens vidéo générés sont valides 24 heures, veuillez les sauvegarder rapidement
- Facturation : facturée selon « durée de la vidéo d’entrée + durée de la vidéo de sortie » ; seules les générations réussies sont facturées, les tâches en échec sont gratuites
Autorisations
Toutes les API nécessitent une authentification Bearer Token
Obtenir votre clé API :
Rendez-vous sur la page de gestion des clés API pour obtenir votre clé API
Ajoutez à l'en-tête de la requête :
Authorization: Bearer YOUR_API_KEYCorps
Nom du modèle, doit être wan2.7-reference-video
wan2.7-reference-video "wan2.7-reference-video"
Invite textuelle pour la génération vidéo. Prend en charge le chinois et l'anglais ; chaque caractère / lettre / signe de ponctuation compte pour 1, le surplus est tronqué automatiquement. Longueur maximale 5000 caractères
Règles d'indexation des personnages :
- Chinois : utilisez « 图1, 图2 / 视频1, 视频2 » — correspond 1-based à l'ordre de
image_urls/video_urls - Anglais : utilisez « Image 1 », « Video 1 » (majuscule initiale, espace entre le mot et le chiffre)
- Les images et les vidéos sont comptées séparément, donc « Image 1 » et « Video 1 » peuvent coexister
- Si une seule image ou une seule vidéo de référence est fournie, vous pouvez écrire « l'image de référence » ou « la vidéo de référence »
Image multi-cases (storyboard) : lorsqu'une image multi-cases est fournie, décrivez les plans clés au format storyboard ; le modèle reconnaît la grille et complète les transitions
5000"Video 1 tient Image 3 et joue un doux folk country sur la chaise d'Image 4"
Prompt négatif décrivant ce qui ne doit pas apparaître dans la vidéo. Prend en charge le chinois et l'anglais. Longueur maximale 500 caractères ; surplus tronqué automatiquement
500"Flou, basse qualité"
URL de l'image de premier plan, utilisée comme première image de la vidéo générée. Ne compte pas dans la limite image_urls + video_urls ≤ 5. N'accepte pas la liaison vocale (le premier plan ne participe pas à l'attribution des voix multi-personnages)
Cas d'usage :
- Le sujet apparaît déjà dans le premier plan : combinez avec des éléments de référence pour renforcer la cohérence d'identité
- Le sujet n'est pas dans le premier plan : les éléments de référence définissent les nouveaux sujets qui apparaissent au cours de la vidéo
Limites d'image :
- Formats : JPEG, JPG, PNG (transparence non prise en charge), BMP, WEBP
- Résolution : largeur et hauteur dans
[240, 8000]pixels - Rapport d'aspect : 1:8 ~ 8:1
- Taille du fichier : jusqu'à
20 Mo
"https://example.com/first_frame.jpg"
Liste d'URL d'images de référence. Peut fournir des sujets (personnes / animaux / objets) ou des arrière-plans de scène ; lorsqu'un sujet est inclus, chaque image devrait contenir un seul personnage
Limites de quantité :
image_urls+video_urlstotal ≤ 5- Au moins l'un de
image_urls/video_urlsdoit être fourni (envoyer uniquementimage_startne suffit pas)
Limites d'image :
- Formats : JPEG, JPG, PNG (transparence non prise en charge), BMP, WEBP
- Résolution : largeur et hauteur dans
[240, 8000]pixels - Rapport d'aspect : 1:8 ~ 8:1
- Taille du fichier : jusqu'à
20 Mo
[
"https://example.com/ref1.jpg",
"https://example.com/ref2.jpg"
]Liste d'URL de vidéos de référence. La vidéo devrait contenir un sujet (personne / animal / objet) ; les plans vides ou purement de fond sont déconseillés. Lorsqu'un sujet est inclus, chaque vidéo devrait contenir un seul personnage. L'audio de la vidéo peut servir de référence vocale
Limites de quantité :
image_urls+video_urlstotal ≤ 5- Au moins l'un de
image_urls/video_urlsdoit être fourni
Limites vidéo :
- Formats : mp4, mov
- Durée :
1 ~ 30secondes - Résolution : largeur et hauteur dans
[240, 4096]pixels - Rapport d'aspect : 1:8 ~ 8:1
- Taille du fichier : jusqu'à
100 Mo
Note : lorsque video_urls est fourni, duration est plafonné à 10 secondes
["https://example.com/reference.mp4"][Champ de compatibilité — préférez model_params.voice_bindings]
Liste d'URL de voix de référence. Liées positionnellement aux éléments de référence dans cet ordre : d'abord avec video_urls, puis avec image_urls (dans l'ordre de leurs listes, un à un). Jusqu'à 5 éléments
Priorité :
- Lorsque
model_params.voice_bindingsetaudio_urlssont tous deux fournis, seulvoice_bindingsest utilisé et ce champ est ignoré - Si une vidéo dans
video_urlscontient de l'audio et qu'aucune liaison vocale n'est définie, l'audio original est utilisé ; une liaison vocale explicite remplace l'audio original
Limites audio :
- Formats pris en charge :
wav,mp3 - Durée :
1 ~ 10secondes - Taille du fichier : jusqu'à
15 Mo
5[
"https://example.com/voice1.mp3",
"https://example.com/voice2.mp3"
]Conteneur de paramètres avancés (recommandé)
Qualité vidéo, par défaut 720p
Options :
720p: définition standard, prix standard (par défaut)1080p: haute définition, prix plus élevé
720p, 1080p "720p"
Rapport d'aspect vidéo, par défaut 16:9
Comportement :
image_startnon fourni : la vidéo est générée avec leaspect_ratiospécifiéimage_startfourni : ce champ est ignoré ; la vidéo utilise un rapport d'aspect proche de l'image de premier plan
Résolution de sortie par niveau de qualité :
| Qualité | 16:9 | 9:16 | 1:1 | 4:3 | 3:4 |
|---|---|---|---|---|---|
| 720p | 1280×720 | 720×1280 | 960×960 | 1104×832 | 832×1104 |
| 1080p | 1920×1080 | 1080×1920 | 1440×1440 | 1648×1248 | 1248×1648 |
16:9, 9:16, 1:1, 4:3, 3:4 "16:9"
Durée vidéo en secondes (entier)
Plage :
- Sans
video_urls:2 ~ 15, par défaut5 - Avec
video_urls:2 ~ 10(plafonné à 10 secondes)
Facturation : basée sur la durée réelle de la vidéo générée
2 <= x <= 155
Graine aléatoire, aléatoire par défaut
Notes :
- Plage :
1~2147483647 - Fixer la graine réduit la variation lors de l'itération sur les prompts et améliore la reproductibilité
1 <= x <= 214748364742
Activer ou non la réécriture intelligente du prompt. Lorsqu'elle est activée, un grand modèle optimise le prompt, ce qui améliore nettement les résultats pour des prompts simples ou peu descriptifs.
Note : la valeur par défaut est false. Omettre le champ ou envoyer false ne déclenchera pas la réécriture ; envoyez explicitement true pour l'activer.
false
URL de callback HTTPS pour la fin de tâche
Moment du callback :
- Déclenché à la fin, l'échec ou l'annulation de la tâche
- Envoyé après confirmation de facturation
Restrictions de sécurité :
- Seul HTTPS est pris en charge
- Les callbacks vers des adresses IP internes sont interdits (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x, etc.)
- La longueur de l'URL ne doit pas dépasser
2048caractères
Mécanisme de callback :
- Délai d'attente :
10secondes - Jusqu'à
3tentatives après échec (à1/2/4secondes) - Le format de réponse du callback est identique à celui de l'API de requête de tâche
- Les codes 2xx sont considérés comme réussis ; les autres codes déclenchent des nouvelles tentatives
"https://your-domain.com/webhooks/video-task-completed"
Réponse
Tâche vidéo créée avec succès
Horodatage de création de la tâche
1757169743
ID de la tâche
"task-unified-1757169743-7cvnl5zw"
Nom du modèle réellement utilisé
"wan2.7-reference-video"
Type spécifique de tâche
video.generation.task Pourcentage d'avancement de la tâche (0-100)
0 <= x <= 1000
Statut de la tâche
pending, processing, completed, failed "pending"
Informations détaillées sur la tâche vidéo
Type de sortie de la tâche
text, image, audio, video "video"
Informations d'utilisation et de facturation