Zum Hauptinhalt springen
POST
/
v1
/
videos
/
generations
curl --request POST \ --url https://api.evolink.ai/v1/videos/generations \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data ' { "model": "videoretalk", "video_url": "https://example.com/speaker.mp4", "audio_url": "https://example.com/target-speech.wav" } '
{
  "created": 1775200000,
  "id": "task-unified-1775200000-xyz12345",
  "model": "videoretalk",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 90,
    "video_duration": 0
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 480,
    "user_group": "default"
  }
}

Autorisierungen

Authorization
string
header
erforderlich

##Alle Endpunkte erfordern eine Bearer-Token-Authentifizierung##

API-Schlüssel abrufen:

Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten

Fügen Sie folgenden Header zu jeder Anfrage hinzu:

Authorization: Bearer YOUR_API_KEY

Body

application/json
model
enum<string>
Standard:videoretalk
erforderlich

Modellname

Verfügbare Optionen:
videoretalk
Beispiel:

"videoretalk"

video_url
string<uri>
erforderlich

Eingabevideo-URL mit der Person, deren Lippenbewegungen ersetzt werden sollen

Anforderungen:

  • Öffentlich zugängliche Video-URL
  • Formate: MP4, MOV und andere gängige Formate
  • Das Video muss ein klar sichtbares menschliches Gesicht enthalten
  • Empfohlene Länge: 2 ~ 300 Sekunden
Beispiel:

"https://example.com/speaker.mp4"

audio_url
string<uri>
erforderlich

Zielaudio-URL – die Person im Video wird ihre Lippen zu diesem Audio synchronisieren

Anforderungen:

  • Öffentlich zugängliche Audio-URL
  • Formate: WAV, MP3, M4A und andere gängige Formate
  • Empfohlen: menschliche Sprachinhalte
Beispiel:

"https://example.com/target-speech.wav"

ref_image_url
string<uri>

Referenzgesichtsbild-URL

Wenn das Video mehrere Gesichter enthält, verwenden Sie dieses Bild, um das Zielgesicht anzugeben, dessen Lippenbewegungen ersetzt werden sollen

Anforderungen:

  • Das Bild sollte eine klare Frontansicht des Gesichts der Zielperson zeigen
  • Nur erforderlich, wenn das Video mehrere Gesichter enthält
Beispiel:

"https://example.com/target-person-face.jpg"

video_extension
boolean
Standard:false

Gibt an, ob das Video automatisch auf die Audiolänge erweitert werden soll, wenn das Audio länger als das Video ist

  • true: Ausgabelänge = Audiolänge (Video wird automatisch erweitert)
  • false: Ausgabelänge = min(Videolänge, Audiolänge)
Beispiel:

false

query_face_threshold
integer
Standard:170

Konfidenzschwellenwert für die Gesichtserkennung

  • Bereich: 120 ~ 200
  • Niedrigere Werte erleichtern die Erkennung (können zu Fehlerkennung führen)
  • Höhere Werte sind strenger (können zu fehlgeschlagener Erkennung führen)
  • Wenn Kein passendes Gesicht gefunden gemeldet wird, Wert verringern (z. B. 140)
  • Wenn das falsche Gesicht erkannt wird, Wert erhöhen (z. B. 190)
Erforderlicher Bereich: 120 <= x <= 200
Beispiel:

170

callback_url
string<uri>

HTTPS-Callback-URL, die nach Abschluss der Aufgabe aufgerufen wird

Auslösebedingungen:

  • Wird ausgelöst, wenn die Aufgabe abgeschlossen, fehlgeschlagen oder abgebrochen wurde
  • Wird nach Abrechnungsbestätigung gesendet

Sicherheitsbeschränkungen:

  • Nur HTTPS
  • Interne IP-Adressen werden blockiert (127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x usw.)
  • URL-Länge darf 2048 Zeichen nicht überschreiten

Callback-Verhalten:

  • Timeout: 10 Sekunden
  • Bis zu 3 Wiederholungsversuche nach Fehlern (nach 1s / 2s / 4s)
  • Antwortformat entspricht der Aufgaben-Abfrage-API
  • HTTP-2xx-Statuscode gilt als Erfolg; andere Codes lösen einen Wiederholungsversuch aus
Beispiel:

"https://your-domain.com/webhooks/video-task-completed"

Antwort

Lippensynchron-Videogenerierungsaufgabe erfolgreich erstellt

created
integer

Zeitstempel der Aufgabenerstellung

Beispiel:

1775200000

id
string

Aufgaben-ID

Beispiel:

"task-unified-1775200000-xyz12345"

model
string

Tatsächlich verwendeter Modellname

Beispiel:

"videoretalk"

object
enum<string>

Spezifischer Aufgabentyp

Verfügbare Optionen:
video.generation.task
progress
integer

Aufgabenfortschritt in Prozent (0–100)

Erforderlicher Bereich: 0 <= x <= 100
Beispiel:

0

status
enum<string>

Aufgabenstatus

StatusFortschrittBeschreibung
pending0~10Wartet auf Verarbeitung
processing10~80In Bearbeitung
completed100Abgeschlossen
failed0Fehlgeschlagen
Verfügbare Optionen:
pending,
processing,
completed,
failed
Beispiel:

"pending"

task_info
object

Details zur Videoaufgabe

type
enum<string>

Ausgabetyp der Aufgabe

Verfügbare Optionen:
video
Beispiel:

"video"

usage
object

Nutzungs- und Abrechnungsinformationen