DeepSeek V4 - OpenAI-kompatible API
- Verwenden Sie das OpenAI Chat Completions Protokoll, um die DeepSeek V4 Modelle aufzurufen
- Unterstützt
deepseek-v4-flash(schnell und universell) unddeepseek-v4-pro(tiefes Reasoning) - Textkonversation: Einzel- oder Mehrrunden-Kontext-Dialog mit Unterstützung für 1M Ultra-Langkontext
- System-Prompts: KI-Rolle und -Verhalten anpassen
- Thinking-Modus: Tiefes Reasoning über
thinking.typesteuern; beideepseek-v4-prowird der Denkinhalt überreasoning_contentzurückgegeben - Streaming-Ausgabe: SSE-Streaming wird unterstützt
- Tool-Aufrufe: Unterstützt Function Calling (bis zu 128 Tools)
- JSON-Modus: Über
response_formataktivierbar - Kontext-Cache: Anfragen mit identischem Präfix treffen automatisch den Cache und reduzieren die Input-Kosten erheblich
https://direct.evolink.ai und bietet bessere Unterstützung für Textmodelle sowie persistente Verbindungen. https://api.evolink.ai ist der primäre Endpunkt für multimodale Dienste und dient bei Textmodellen als Ausweichadresse.Autorisierungen
##Alle APIs erfordern Bearer-Token-Authentifizierung##
API-Schlüssel erhalten:
Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten
Zum Anfrage-Header hinzufügen:
Authorization: Bearer YOUR_API_KEYBody
Name des Chat-Modells
deepseek-v4-flash: Schnelles Universalmodell, 1M Kontextdeepseek-v4-pro: Modell für tiefes Reasoning, stark in Mathematik, Programmierung und komplexer Logik
Hinweis: Beide Modelle haben thinking standardmäßig aktiviert, die Antwort enthält reasoning_content. Über thinking.type="disabled" kann es deaktiviert werden, um die Output-Token-Kosten zu senken. Die Parameter beider Modelle sind identisch.
deepseek-v4-flash, deepseek-v4-pro "deepseek-v4-flash"
Liste der Konversationsnachrichten, unterstützt Mehrrunden-Dialog
Nachrichten verschiedener Rollen haben unterschiedliche Feldstrukturen. Bitte wählen Sie die entsprechende Rolle zur Ansicht.
1- System Message
- User Message
- Assistant Message
- Tool Message
Thinking-Modus Steuerung (neu in V4)
Hinweis:
- Steuert die Chain-of-Thought-Funktion
- Bei beiden Modellen standardmäßig aktiviert (
type=enabled) - Bei Aktivierung wird der Reasoning-Prozess über
choices[].message.reasoning_contentzurückgegeben und als Output-Token abgerechnet
⚠️ Hinweis für Mehrrunden-Dialog / Tool-Aufrufe: Wenn die aktuelle Antwort reasoning_content enthält, muss in der nächsten Anfrage die entsprechende assistant-Nachricht in der messages-Historie dieses Feld unverändert zurückgeben, sonst antwortet die API mit 400 The reasoning_content in the thinking mode must be passed back to the API. Wenn Sie dies nicht handhaben möchten, können Sie für die gesamte Sitzung thinking.type="disabled" explizit setzen.
Sampling-Temperatur, steuert die Zufälligkeit der Ausgabe
Hinweis:
- Niedrigere Werte (z.B. 0,2): Deterministischere und fokussiertere Ausgabe
- Höhere Werte (z.B. 1,5): Zufälligere und kreativere Ausgabe
- Standardwert: 1
0 <= x <= 21
Nucleus-Sampling-Parameter
Hinweis:
- Steuert das Sampling von Token mit kumulativer Wahrscheinlichkeit
- Zum Beispiel bedeutet 0,9, dass aus Token mit den oberen 90% kumulativer Wahrscheinlichkeit gesampelt wird
- Standardwert: 1.0 (berücksichtigt alle Token)
Empfehlung: Passen Sie nicht gleichzeitig temperature und top_p an
0 <= x <= 11
Begrenzt die maximale Anzahl der zu generierenden Tokens
Hinweis:
- V4-Serie kann maximal 384.000 Tokens erreichen
- Bei aktiviertem Thinking werden reasoning_tokens ebenfalls auf max_tokens angerechnet
- Ohne Angabe entscheidet das Modell selbst über die Generierungslänge
1 <= x <= 3840004096
Häufigkeitsstrafe, zur Reduzierung wiederholter Inhalte
Hinweis:
- Positive Werte bestrafen Tokens basierend auf ihrer Häufigkeit im bereits generierten Text
- Je größer der Wert, desto weniger wahrscheinlich werden bereits vorhandene Inhalte wiederholt
- Standardwert: 0 (keine Strafe)
-2 <= x <= 20
Anwesenheitsstrafe, zur Förderung neuer Themen
Hinweis:
- Positive Werte bestrafen Tokens basierend darauf, ob sie bereits im Text vorgekommen sind
- Je größer der Wert, desto eher werden neue Themen besprochen
- Standardwert: 0 (keine Strafe)
-2 <= x <= 20
Gibt das Antwortformat an
Hinweis:
- Setzen Sie auf
{"type": "json_object"}, um den JSON-Modus zu aktivieren - Im JSON-Modus gibt das Modell gültige JSON-Inhalte aus
- Es wird empfohlen, die JSON-Ausgabe in der system- oder user-Nachricht explizit zu verlangen, um optimale Ergebnisse zu erzielen
Stoppsequenzen, das Modell stoppt die Generierung, wenn es diese Zeichenketten trifft
Hinweis:
- Kann eine einzelne Zeichenkette oder ein Array von Zeichenketten sein
- Maximal 16 Stoppsequenzen werden unterstützt
Ob die Antwort als Stream zurückgegeben werden soll
true: Stream-Antwort, Inhalt wird über SSE (Server-Sent Events) blockweise in Echtzeit zurückgegebenfalse: Auf vollständige Antwort warten und alles auf einmal zurückgeben (Standard)
false
Optionen für Stream-Antworten
Nur wirksam, wenn stream=true
Liste der Tool-Definitionen für Function Calling
Hinweis:
- Maximal 128 Tool-Definitionen werden unterstützt
- Jedes Tool muss Name, Beschreibung und Parameter-Schema definieren
128Steuert das Verhalten der Tool-Aufrufe
Mögliche Werte:
none: Kein Tool aufrufenauto: Modell entscheidet automatisch, ob ein Tool aufgerufen wird (Standard, wenn tools bereitgestellt werden)required: Modell muss ein oder mehrere Tools aufrufen- Objektform
{"type":"function","function":{"name":"xxx"}}: Ein bestimmtes Tool aufrufen
Standardwert: none, wenn keine tools bereitgestellt werden; auto, wenn tools bereitgestellt werden
none, auto, required Ob die Log-Wahrscheinlichkeiten der Tokens zurückgegeben werden sollen
Hinweis:
- Bei
trueenthält die Antwort Log-Wahrscheinlichkeitsinformationen für jedes Token
Gibt die Log-Wahrscheinlichkeiten der Top-N Tokens zurück
Hinweis:
- Erfordert
logprobsauftruegesetzt - Wertebereich:
[0, 20]
0 <= x <= 20Token-Bias-Mapping
Hinweis:
- Schlüssel ist die Token-ID im Tokenizer, Wert ist ein Bias zwischen -100 und 100
- -100 bedeutet, dass das Token vollständig verboten ist, 100 bedeutet erzwungene Generierung
- Typische Werte zwischen -1 und 1 haben bereits eine beobachtbare Wirkung
Anzahl der zu generierenden Chat-Vervollständigungen pro Eingabenachricht
Hinweis:
- Standard 1; bei N werden N Kandidaten zurückgegeben (berechnet nach N × output_tokens)
1 <= x <= 81
Zufalls-Seed (Beta)
Hinweis:
- Bei Angabe versucht das Modell deterministisches Sampling
- Gleicher Seed + gleiche andere Parameter → gleiche Ausgabe (nicht 100% garantiert)
Eindeutiger Bezeichner des Endbenutzers
Hinweis:
- Hilft der Plattform bei der Überwachung und Erkennung von Missbrauch
- Empfohlen ist die Verwendung einer gehashten Benutzer-ID
Antwort
Chat-Generierung erfolgreich
Eindeutiger Bezeichner der Chat-Vervollständigung
"53c548dc-ec02-4a2f-bbb6-eca4184630b8"
Name des tatsächlich verwendeten Modells
"deepseek-v4-flash"
Antworttyp
chat.completion "chat.completion"
Erstellungszeitstempel (Unix-Sekunden)
1777021417
Liste der Auswahlmöglichkeiten der Chat-Generierung
Token-Nutzungsstatistiken (einschließlich Cache- und Reasoning-Aufschlüsselung)
System-Fingerprint-Kennung
"fp_evolink_v4_20260402"