DeepSeek V4 - OpenAI-kompatible API

Autorisierungen

Authorization

string

header

erforderlich

##Alle APIs erfordern Bearer-Token-Authentifizierung##

API-Schlüssel erhalten:

Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten

Zum Anfrage-Header hinzufügen:

Authorization: Bearer YOUR_API_KEY

Body

application/json

model

enum<string>

Standard:deepseek-v4-flash

erforderlich

Name des Chat-Modells

deepseek-v4-flash: Schnelles Universalmodell, 1M Kontext
deepseek-v4-pro: Modell für tiefes Reasoning, stark in Mathematik, Programmierung und komplexer Logik

Hinweis: Beide Modelle haben thinking standardmäßig aktiviert, die Antwort enthält reasoning_content. Über thinking.type="disabled" kann es deaktiviert werden, um die Output-Token-Kosten zu senken. Die Parameter beider Modelle sind identisch.

Verfügbare Optionen:

deepseek-v4-flash,

deepseek-v4-pro

Beispiel:

"deepseek-v4-flash"

messages

(System Message · object | User Message · object | Assistant Message · object | Tool Message · object)[]

erforderlich

Liste der Konversationsnachrichten, unterstützt Mehrrunden-Dialog

Nachrichten verschiedener Rollen haben unterschiedliche Feldstrukturen. Bitte wählen Sie die entsprechende Rolle zur Ansicht.

Minimum array length: 1

System Message
User Message
Assistant Message
Tool Message

Show child attributes

thinking

object

Thinking-Modus Steuerung (neu in V4)

Hinweis:

Steuert die Chain-of-Thought-Funktion
Bei beiden Modellen standardmäßig aktiviert (type=enabled)
Bei Aktivierung wird der Reasoning-Prozess über choices[].message.reasoning_content zurückgegeben und als Output-Token abgerechnet

⚠️ Hinweis für Mehrrunden-Dialog / Tool-Aufrufe: Wenn die aktuelle Antwort reasoning_content enthält, muss in der nächsten Anfrage die entsprechende assistant-Nachricht in der messages-Historie dieses Feld unverändert zurückgeben, sonst antwortet die API mit 400 The reasoning_content in the thinking mode must be passed back to the API. Wenn Sie dies nicht handhaben möchten, können Sie für die gesamte Sitzung thinking.type="disabled" explizit setzen.

Show child attributes

temperature

number

Standard:1

Sampling-Temperatur, steuert die Zufälligkeit der Ausgabe

Hinweis:

Niedrigere Werte (z.B. 0,2): Deterministischere und fokussiertere Ausgabe
Höhere Werte (z.B. 1,5): Zufälligere und kreativere Ausgabe
Standardwert: 1

Erforderlicher Bereich: 0 <= x <= 2

Beispiel:

1

top_p

number

Standard:1

Nucleus-Sampling-Parameter

Hinweis:

Steuert das Sampling von Token mit kumulativer Wahrscheinlichkeit
Zum Beispiel bedeutet 0,9, dass aus Token mit den oberen 90% kumulativer Wahrscheinlichkeit gesampelt wird
Standardwert: 1.0 (berücksichtigt alle Token)

Empfehlung: Passen Sie nicht gleichzeitig temperature und top_p an

Erforderlicher Bereich: 0 <= x <= 1

Beispiel:

1

max_tokens

integer

Begrenzt die maximale Anzahl der zu generierenden Tokens

Hinweis:

V4-Serie kann maximal 384.000 Tokens erreichen
Bei aktiviertem Thinking werden reasoning_tokens ebenfalls auf max_tokens angerechnet
Ohne Angabe entscheidet das Modell selbst über die Generierungslänge

Erforderlicher Bereich: 1 <= x <= 384000

Beispiel:

4096

frequency_penalty

number

Standard:0

Häufigkeitsstrafe, zur Reduzierung wiederholter Inhalte

Hinweis:

Positive Werte bestrafen Tokens basierend auf ihrer Häufigkeit im bereits generierten Text
Je größer der Wert, desto weniger wahrscheinlich werden bereits vorhandene Inhalte wiederholt
Standardwert: 0 (keine Strafe)

Erforderlicher Bereich: -2 <= x <= 2

Beispiel:

0

presence_penalty

number

Standard:0

Anwesenheitsstrafe, zur Förderung neuer Themen

Hinweis:

Positive Werte bestrafen Tokens basierend darauf, ob sie bereits im Text vorgekommen sind
Je größer der Wert, desto eher werden neue Themen besprochen
Standardwert: 0 (keine Strafe)

Erforderlicher Bereich: -2 <= x <= 2

Beispiel:

0

response_format

object

Gibt das Antwortformat an

Hinweis:

Setzen Sie auf {"type": "json_object"}, um den JSON-Modus zu aktivieren
Im JSON-Modus gibt das Modell gültige JSON-Inhalte aus
Es wird empfohlen, die JSON-Ausgabe in der system- oder user-Nachricht explizit zu verlangen, um optimale Ergebnisse zu erzielen

Show child attributes

stop

Stoppsequenzen, das Modell stoppt die Generierung, wenn es diese Zeichenketten trifft

Hinweis:

Kann eine einzelne Zeichenkette oder ein Array von Zeichenketten sein
Maximal 16 Stoppsequenzen werden unterstützt

stream

boolean

Standard:false

Ob die Antwort als Stream zurückgegeben werden soll

true: Stream-Antwort, Inhalt wird über SSE (Server-Sent Events) blockweise in Echtzeit zurückgegeben
false: Auf vollständige Antwort warten und alles auf einmal zurückgeben (Standard)

Beispiel:

false

stream_options

object

Optionen für Stream-Antworten

Nur wirksam, wenn stream=true

Show child attributes

tools

object[]

Liste der Tool-Definitionen für Function Calling

Hinweis:

Maximal 128 Tool-Definitionen werden unterstützt
Jedes Tool muss Name, Beschreibung und Parameter-Schema definieren

Maximum array length: 128

Show child attributes

tool_choice

Steuert das Verhalten der Tool-Aufrufe

Mögliche Werte:

none: Kein Tool aufrufen
auto: Modell entscheidet automatisch, ob ein Tool aufgerufen wird (Standard, wenn tools bereitgestellt werden)
required: Modell muss ein oder mehrere Tools aufrufen
Objektform {"type":"function","function":{"name":"xxx"}}: Ein bestimmtes Tool aufrufen

Standardwert: none, wenn keine tools bereitgestellt werden; auto, wenn tools bereitgestellt werden

Verfügbare Optionen:

none,

auto,

required

logprobs

boolean

Standard:false

Ob die Log-Wahrscheinlichkeiten der Tokens zurückgegeben werden sollen

Hinweis:

Bei true enthält die Antwort Log-Wahrscheinlichkeitsinformationen für jedes Token

top_logprobs

integer

Gibt die Log-Wahrscheinlichkeiten der Top-N Tokens zurück

Hinweis:

Erfordert logprobs auf true gesetzt
Wertebereich: [0, 20]

Erforderlicher Bereich: 0 <= x <= 20

logit_bias

object

Token-Bias-Mapping

Hinweis:

Schlüssel ist die Token-ID im Tokenizer, Wert ist ein Bias zwischen -100 und 100
-100 bedeutet, dass das Token vollständig verboten ist, 100 bedeutet erzwungene Generierung
Typische Werte zwischen -1 und 1 haben bereits eine beobachtbare Wirkung

Show child attributes

integer

Standard:1

Anzahl der zu generierenden Chat-Vervollständigungen pro Eingabenachricht

Hinweis:

Standard 1; bei N werden N Kandidaten zurückgegeben (berechnet nach N × output_tokens)

Erforderlicher Bereich: 1 <= x <= 8

Beispiel:

1

seed

integer

Zufalls-Seed (Beta)

Hinweis:

Bei Angabe versucht das Modell deterministisches Sampling
Gleicher Seed + gleiche andere Parameter → gleiche Ausgabe (nicht 100% garantiert)

user

string

Eindeutiger Bezeichner des Endbenutzers

Hinweis:

Hilft der Plattform bei der Überwachung und Erkennung von Missbrauch
Empfohlen ist die Verwendung einer gehashten Benutzer-ID

Antwort

Chat-Generierung erfolgreich

string

Eindeutiger Bezeichner der Chat-Vervollständigung

Beispiel:

"53c548dc-ec02-4a2f-bbb6-eca4184630b8"

model

string

Name des tatsächlich verwendeten Modells

Beispiel:

"deepseek-v4-flash"

object

enum<string>

Antworttyp

Verfügbare Optionen:

chat.completion

Beispiel:

"chat.completion"

created

integer

Erstellungszeitstempel (Unix-Sekunden)

Beispiel:

1777021417

choices

object[]

Liste der Auswahlmöglichkeiten der Chat-Generierung

Show child attributes

usage

object

Token-Nutzungsstatistiken (einschließlich Cache- und Reasoning-Aufschlüsselung)

Show child attributes

system_fingerprint

string

System-Fingerprint-Kennung

Beispiel:

"fp_evolink_v4_20260402"

Bildserie

Videoserie

Audioserie

Textserie

Kontoverwaltung

Aufgabenverwaltung

Dateiverwaltung

DeepSeek V4 - OpenAI-kompatible API

Autorisierungen

Body

Antwort