Zum Hauptinhalt springen
POST
/
v1
/
chat
/
completions
curl --request POST \
  --url https://api.evolink.ai/v1/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "kimi-k2-thinking",
  "messages": [
    {
      "role": "user",
      "content": "Please introduce yourself"
    }
  ],
  "temperature": 1
}
'
{
  "id": "cmpl-04ea926191a14749b7f2c7a48a68abc6",
  "model": "kimi-k2-thinking",
  "object": "chat.completion",
  "created": 1698999496,
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hi there! How can I help you?",
        "reasoning_content": "The user just said \"hi\". This is a very simple greeting. I should be friendly, helpful, and professional in my response..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 8,
    "completion_tokens": 292,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 8
    }
  }
}

Autorisierungen

Authorization
string
header
erforderlich

##Alle APIs erfordern Bearer-Token-Authentifizierung##

API-Schlüssel erhalten:

Besuchen Sie die API-Schlüsselverwaltungsseite, um Ihren API-Schlüssel zu erhalten

Zum Anfrage-Header hinzufügen:

Authorization: Bearer YOUR_API_KEY

Body

application/json
model
enum<string>
erforderlich

Modellname für Chat-Vervollständigung

Verfügbare Optionen:
kimi-k2-thinking,
kimi-k2-thinking-turbo
Beispiel:

"kimi-k2-thinking"

messages
object[]
erforderlich

Liste der Nachrichten für das Gespräch, unterstützt Mehrrunden-Dialog und multimodale Eingabe

Minimum array length: 1
stream
boolean
Standard:false

Ob die Antwort gestreamt werden soll

  • true: Stream-Antwort, gibt Inhalte blockweise in Echtzeit zurück
  • false: Auf vollständige Antwort warten und alles auf einmal zurückgeben
Beispiel:

false

max_tokens
integer

Maximale Anzahl der in der Antwort zu generierenden Token

Hinweis:

  • Ein zu kleiner Wert kann zu einer abgeschnittenen Antwort führen
  • Wenn die maximale Token-Anzahl erreicht wird, ist finish_reason "length", andernfalls "stop"
Erforderlicher Bereich: x >= 1
Beispiel:

2000

temperature
number
Standard:1

Sampling-Temperatur, steuert die Zufälligkeit der Ausgabe

Hinweis:

  • Niedrigere Werte (z.B. 0,2): Deterministischere und fokussiertere Ausgabe
  • Höhere Werte (z.B. 1,5): Zufälligere und kreativere Ausgabe
  • Empfohlener Wert für die kimi-k2-thinking Serie: 1.0
Erforderlicher Bereich: 0 <= x <= 2
Beispiel:

1

top_p
number
Standard:1

Nucleus-Sampling-Parameter

Hinweis:

  • Steuert das Sampling von Token mit kumulativer Wahrscheinlichkeit
  • Zum Beispiel bedeutet 0,9, dass aus Token mit den oberen 90% kumulativer Wahrscheinlichkeit gesampelt wird
  • Standard: 1.0 (berücksichtigt alle Token)

Empfehlung: Passen Sie nicht gleichzeitig temperature und top_p an

Erforderlicher Bereich: 0 <= x <= 1
Beispiel:

0.9

top_k
integer

Top-K-Sampling-Parameter

Hinweis:

  • Zum Beispiel begrenzt 10 das Sampling auf die 10 Token mit der höchsten Wahrscheinlichkeit
  • Kleinere Werte machen die Ausgabe fokussierter
  • Standard: keine Begrenzung
Erforderlicher Bereich: x >= 1
Beispiel:

40

n
integer
Standard:1

Anzahl der zu generierenden Vervollständigungen pro Eingabenachricht

Hinweis:

  • Standard: 1, Maximum: 5
  • Wenn die Temperatur sehr nahe bei 0 liegt, kann nur 1 Ergebnis zurückgegeben werden
Erforderlicher Bereich: 1 <= x <= 5
Beispiel:

1

presence_penalty
number
Standard:0

Anwesenheitsstrafe, Zahl zwischen -2.0 und 2.0

Hinweis:

  • Positive Werte bestrafen neue Token basierend darauf, ob sie im Text vorkommen, und erhöhen die Wahrscheinlichkeit, neue Themen zu besprechen
Erforderlicher Bereich: -2 <= x <= 2
Beispiel:

0

frequency_penalty
number
Standard:0

Häufigkeitsstrafe, Zahl zwischen -2.0 und 2.0

Hinweis:

  • Positive Werte bestrafen neue Token basierend auf ihrer Häufigkeit im Text und verringern die Wahrscheinlichkeit, dieselben Phrasen wörtlich zu wiederholen
Erforderlicher Bereich: -2 <= x <= 2
Beispiel:

0

response_format
object

Antwortformat-Einstellungen

Hinweis:

  • Setzen Sie auf {"type": "json_object"}, um den JSON-Modus zu aktivieren und sicherzustellen, dass das Modell gültiges JSON generiert
  • Wenn Sie response_format mit {"type": "json_object"} verwenden, leiten Sie das Modell in Ihrem Prompt explizit an, JSON-Format auszugeben
  • Standard: {"type": "text"}
  • Warnung: Mischen Sie nicht den Partial Mode mit response_format=json_object
stop

Stoppsequenzen, die Generierung stoppt, wenn diese Sequenzen erkannt werden

Hinweis:

  • Die Stoppsequenzen selbst werden nicht in der Ausgabe enthalten sein
  • Maximal 5 Zeichenketten, jede nicht länger als 32 Bytes
tools
object[]

Liste der Tools für Tool Use oder Function Calling

Hinweis:

  • Jedes Tool muss einen Typ enthalten
  • Die Funktionsstruktur muss Name, Beschreibung und Parameter enthalten
  • Maximal 128 Funktionen im tools-Array
Maximum array length: 128

Antwort

Chat-Vervollständigung erfolgreich

id
string

Eindeutiger Bezeichner für die Chat-Vervollständigung

Beispiel:

"cmpl-04ea926191a14749b7f2c7a48a68abc6"

model
string

Das für die Vervollständigung verwendete Modell

Beispiel:

"kimi-k2-thinking"

object
enum<string>

Antworttyp

Verfügbare Optionen:
chat.completion
Beispiel:

"chat.completion"

created
integer

Unix-Zeitstempel der Erstellung der Vervollständigung

Beispiel:

1698999496

choices
object[]

Liste der Vervollständigungsoptionen

usage
object

Token-Nutzungsstatistiken