Zum Hauptinhalt springen
POST
/
v1
/
messages
curl --request POST \
  --url https://direct.evolink.ai/v1/messages \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "glm-5.2",
  "max_tokens": 1024,
  "messages": [
    {
      "role": "user",
      "content": "Hallo, Welt"
    }
  ]
}
'
{
  "id": "msg_0842a705-9d0b-4eaa-b12d-09a4106326c5",
  "type": "message",
  "role": "assistant",
  "model": "glm-5.2",
  "content": [
    {
      "type": "thinking",
      "thinking": "Der Benutzer bittet darum, mit einem Wort zu grüßen; eine Antwort mit \"Hi\" genügt.",
      "signature": ""
    },
    {
      "type": "text",
      "text": "Hi."
    }
  ],
  "stop_reason": "end_turn",
  "usage": {
    "input_tokens": 18,
    "output_tokens": 101,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "prompt_tokens_details": {
      "cached_tokens": 0
    }
  }
}
BaseURL: Die Standard-BaseURL ist https://direct.evolink.ai, die Textmodelle und langlebige Verbindungen besser unterstützt. https://api.evolink.ai ist der primäre Endpunkt für multimodale Dienste und dient als Ausweichadresse für Textmodelle.

Autorisierungen

Authorization
string
header
erforderlich

##Alle APIs erfordern eine Bearer-Token-Authentifizierung##

API-Key erhalten:

Besuchen Sie die API-Key-Verwaltungsseite, um Ihren API-Key zu erhalten

Zum Anfrage-Header hinzufügen:

Authorization: Bearer YOUR_API_KEY

Anmerkung: EvoLink verwendet für /v1/messages einheitlich die Bearer-Token-Authentifizierung.

Body

application/json
model
enum<string>
erforderlich

Das aufzurufende Modell

Verfügbare Optionen:
glm-5.2
Beispiel:

"glm-5.2"

messages
object[]
erforderlich

Liste der Konversationsnachrichten, im Wechsel von user / assistant pro Runde

Hinweise:

  • Enthält mindestens 1 Nachricht
  • Die letzte Nachricht hat üblicherweise role=user
  • Unterstützt mehrrundigen Kontext, das Modell bezieht sich auf den Verlauf
Minimum array length: 1
max_tokens
integer

Gibt die Obergrenze der Länge des generierten Inhalts an (Anzahl Tokens)

Hinweise:

  • Die durch thinking erzeugten Tokens zählen ebenfalls zu dieser Obergrenze
  • Beim Erreichen der Obergrenze wird der Inhalt abgeschnitten, die Antwort liefert stop_reason=max_tokens
Erforderlicher Bereich: x >= 1
Beispiel:

1024

system

System-Prompt, dient zum Festlegen von Rolle und Verhalten der KI

Hinweise:

  • Unterstützt eine Zeichenkette oder ein Array von Inhaltsblöcken
  • Wird über das Top-Level-Feld system übergeben (nicht in messages legen)
  • Das Modell folgt den system-Vorgaben
  • ⚠️ Ein zu langer system kann abgeschnitten werden: Für langen Kontext legen Sie diesen in messages, häufen Sie nicht alles im system an
Beispiel:

"You are a helpful assistant."

temperature
number

Sampling-Temperatur

Hinweise:

  • Je höher der Wert, desto vielfältiger die Ausgabe; je niedriger, desto deterministischer
  • Empfohlener Bereich [0, 1]
Erforderlicher Bereich: 0 <= x <= 1
Beispiel:

1

top_p
number

Nucleus-Sampling-Schwelle

Hinweise:

  • Bereich [0, 1]
  • Es wird empfohlen, temperature und top_p nicht gleichzeitig anzupassen
Erforderlicher Bereich: 0 <= x <= 1
Beispiel:

0.9

top_k
integer

Sampling nur aus den K Tokens mit der höchsten Wahrscheinlichkeit (Anthropic-spezifischer Parameter)

Hinweise:

  • Je kleiner der Wert, desto deterministischer die Ausgabe; je größer, desto vielfältiger die Kandidaten
Erforderlicher Bereich: x >= 0
Beispiel:

10

stop_sequences
string[]

Benutzerdefinierte Stoppsequenzen: Die Generierung stoppt, sobald eine der Zeichenketten getroffen wird

Hinweise:

  • Bei einem Treffer wird abgeschnitten, der Inhalt vor der Trefferstelle wird normal zurückgegeben
  • ⚠️ Achtung: Beim Treffen einer Stoppsequenz liefert GLM-5.2 für stop_reason den Wert end_turn (statt des Anthropic-Standardwerts stop_sequence), und die Antwort enthält auch kein stop_sequence-Feld. Wenn ein Client zur Trefferbestimmung auf stop_reason=="stop_sequence" angewiesen ist, ist eine Sonderbehandlung nötig
Beispiel:
["\n\n"]
stream
boolean
Standard:false

Ob als SSE-Stream zurückgegeben wird

  • true: Streaming-Rückgabe über Server-Sent Events (Standard-Anthropic-Ereignissequenz: message_start / content_block_start / content_block_delta / message_delta / message_stop)
  • false: Gibt nach vollständiger Antwort alles auf einmal zurück (Standard)
Beispiel:

false

thinking
object

Steuert das tiefe Nachdenken

Hinweise:

  • GLM-5.2 ist ein Schlussfolgerungsmodell, wird dieses Feld nicht übergeben, ist das Nachdenken standardmäßig aktiviert
  • Bei Aktivierung erscheint im content-Array der Antwort ein Block des Denkprozesses mit type="thinking" (wird nach Output-Tokens abgerechnet, signature kann eine leere Zeichenkette sein)
  • Die Übergabe von {"type":"disabled"} schaltet das Nachdenken ab und reduziert die Output-Tokens erheblich
  • ⚠️ Nur der binäre type-Schalter ist wirksam: Parameter für Denkbudget/-stufe wie budget_tokens, effort greifen nicht (werden ignoriert), eine feine Steuerung der Denkmenge ist nicht möglich
tools
object[]

Liste der Werkzeugdefinitionen

Hinweise:

  • Folgt der Anthropic-Werkzeugdefinitionsspezifikation
  • input_schema verwendet ein JSON-Schema-Objekt
  • Das Modell gibt einen Standard-tool_use-Block zurück, stop_reason=tool_use
tool_choice
object

Strategie der Werkzeugauswahl

metadata
object

Anfrage-Metadaten

Antwort

Nachrichtenobjekt

Nachrichtenantwort im Anthropic-Stil

id
string

Eindeutige Nachrichten-ID (Format: msg_<uuid>)

type
enum<string>

Typ des Antwortobjekts

Verfügbare Optionen:
message
role
enum<string>
Verfügbare Optionen:
assistant
model
string

Tatsächlich verwendetes Modell

Beispiel:

"glm-5.2"

content
object[]

Liste der Antwortinhaltsblöcke

Mögliche block type:

  • thinking: Denkprozess (wenn das Nachdenken aktiviert ist, standardmäßig aktiviert)
  • text: finaler Antworttext
  • tool_use: vom Modell ausgelöster Werkzeugaufruf
stop_reason
enum<string>

Stoppgrund

  • end_turn: natürliches Ende (⚠️ wird auch beim Treffen von stop_sequences zurückgegeben)
  • max_tokens: max_tokens-Obergrenze erreicht
  • tool_use: Das Modell löst einen Werkzeugaufruf aus
Verfügbare Optionen:
end_turn,
max_tokens,
tool_use
usage
object

Token-Nutzungsstatistik (Anthropic-Spezifikation)