GLM-5.2 - OpenAI-kompatible API
- Verwenden Sie das OpenAI Chat Completions-Protokoll, um das GLM-5.2 Modell aufzurufen
- Synchroner Verarbeitungsmodus, gibt Konversationsinhalte in Echtzeit zurück
- Reine Textkonversation: Einzelrunden- oder Mehrrundenkontext-Dialog
- System-Prompts: Passen Sie Rolle und Verhalten der KI über
role=system-Nachrichten an - Tiefes Nachdenken: Schaltet die Gedankenkette über
thinking.typeein/aus,reasoning_effortreguliert die Intensität des Schlussfolgerns; der Denkprozess wird überreasoning_contentzurückgegeben - Streaming-Ausgabe: Unterstützt SSE-Streaming-Antworten (
stream=true) - Werkzeugaufrufe: Unterstützt Function Calling, Wissensdatenbank-Abruf (retrieval), Websuche (web_search) und MCP (bis zu 128 Werkzeuge)
- Strukturierte Ausgabe: Aktivieren Sie den JSON-Modus über
response_format
Hinweise zur Streaming-Antwort: Wenn stream=true, erfolgt die Rückgabe über Server-Sent Events, wobei jede Nachricht das Format data: {JSON} hat und am Ende data: [DONE] zurückgegeben wird. Jeder Datenblock (ChatCompletionChunk) enthält id, created, model, choices, optional usage und content_filter; dabei gibt choices[].delta inkrementell role / content / reasoning_content / tool_calls zurück, und choices[].finish_reason nennt im letzten Block den Abschlussgrund.
https://direct.evolink.ai, die Textmodelle und langlebige Verbindungen besser unterstützt. https://api.evolink.ai ist der primäre Endpunkt für multimodale Dienste und dient als Ausweichadresse für Textmodelle.Autorisierungen
##Alle APIs erfordern eine Bearer-Token-Authentifizierung##
API-Key erhalten:
Besuchen Sie die API-Key-Verwaltungsseite, um Ihren API-Key zu erhalten
Zum Anfrage-Header hinzufügen:
Authorization: Bearer YOUR_API_KEYBody
Code des aufgerufenen Modells
glm-5.2: Neuestes Flaggschiff-Modell, bietet komplexes Schlussfolgern, extrem langen Kontext und höchste Inferenzgeschwindigkeit
glm-5.2 "glm-5.2"
Liste der Konversationsnachrichten, enthält die vollständigen Kontextinformationen des aktuellen Gesprächs
Unterstützt vier Rollen: system, user, assistant, tool. Nachrichten mit unterschiedlichen Rollen haben unterschiedliche Feldstrukturen; wählen Sie die entsprechende Rolle zur Ansicht aus. Mindestens 1 Nachricht erforderlich, und es dürfen nicht ausschließlich System- oder Assistentennachrichten enthalten sein.
1- System Message
- User Message
- Assistant Message
- Tool Message
Ob der Streaming-Ausgabemodus aktiviert wird
false: Das Modell gibt die vollständige Antwort nach der Generierung auf einmal zurück (Standard), geeignet für kurze Texte und Stapelverarbeitungtrue: Gibt über Server-Sent Events (SSE) in Echtzeit blockweise zurück, geeignet für Chat und lange Texte; am Ende des Streams wirddata: [DONE]zurückgegeben
false
Steuert, ob die Gedankenkette (Chain of Thought) aktiviert wird
Steuert den Grad des Schlussfolgerns des Modells (exklusive Fähigkeit von GLM-5.2)
Hinweise:
- Nur wirksam, wenn
thinkingaktiviert ist, Standardmax - Werte von stark nach schwach:
max>xhigh>high>medium>low>minimal>none
GLM-5.2 Zuordnungsregeln (zur Kompatibilität mit anderen Protokollen):
xhigh→ entsprichtmaxlow/medium→ entsprichthighnone/minimal→ verzichtet auf Nachdenken (kein tiefes Schlussfolgern)
max, xhigh, high, medium, low, minimal, none "max"
Ob eine Sampling-Strategie aktiviert wird
true(Standard): Verwendettemperature/top_pfür zufälliges Sampling, vielfältigere Ausgabefalse: Wählt stets das Wort mit der höchsten Wahrscheinlichkeit (Greedy Decoding), deterministischere Ausgabe; in diesem Fall werdentemperatureundtop_pignoriert
Für Aufgaben, die Konsistenz und Reproduzierbarkeit erfordern (z. B. Codegenerierung, Übersetzung), wird false empfohlen
true
Sampling-Temperatur, steuert Zufälligkeit und Kreativität der Ausgabe
Hinweise:
- Wertebereich:
[0.0, 1.0], auf zwei Dezimalstellen begrenzt - Höhere Werte (z. B. 0,8): Zufälliger und kreativer, geeignet für kreatives Schreiben
- Niedrigere Werte (z. B. 0,2): Stabiler und deterministischer, geeignet für faktenbasierte Fragen und Codegenerierung
- GLM-5.2 Standardwert:
1.0
Empfehlung: Passen Sie temperature und top_p nicht gleichzeitig an
0 <= x <= 11
Nucleus-Sampling-Parameter, eine Alternative zum temperature-Sampling
Hinweise:
- Wertebereich:
[0.01, 1.0], auf zwei Dezimalstellen begrenzt - Das Modell berücksichtigt nur Kandidatenwörter, deren kumulative Wahrscheinlichkeit
top_perreicht; z. B. bedeutet 0,1, dass nur die wahrscheinlichsten 10 % der Wörter berücksichtigt werden - Kleinere Werte erzeugen fokussiertere, konsistentere Ausgabe; größere Werte erhöhen die Vielfalt
- GLM-5.2 Standardwert:
0.95
Empfehlung: Passen Sie temperature und top_p nicht gleichzeitig an
0.01 <= x <= 10.95
Obergrenze für die Anzahl der vom Modell ausgegebenen Tokens
Hinweise:
- GLM-5.2 unterstützt maximal 131.072 Tokens (128K) Ausgabelänge, empfohlen wird ein Wert von mindestens
1024 - Bei aktiviertem
thinkingzählen auch die Tokens der Gedankenkette zu dieser Obergrenze - Wenn die Generierung aus dem Grund
lengthabgeschnitten wird, versuchen Sie, diesen Wert zu erhöhen
1 <= x <= 1310721024
Liste der Werkzeuge, die das Modell aufrufen kann
Hinweise:
- Unterstützt Function Calling (
function), Wissensdatenbank-Abruf (retrieval), Websuche (web_search) und MCP (mcp) - Unterstützt bis zu 128 Funktionen
128- Function-Werkzeug
- Retrieval-Werkzeug (Wissensdatenbank-Abruf)
- Web-Search-Werkzeug (Websuche)
- MCP-Werkzeug
Steuert, wie das Modell auswählt, welche Funktion aufgerufen wird
Hinweise: Nur wirksam, wenn der Werkzeugtyp function ist; standardmäßig und ausschließlich wird auto unterstützt (das Modell entscheidet automatisch, ob ein Werkzeug aufgerufen wird)
auto "auto"
Liste der Stoppwörter
Hinweise:
- Wenn der generierte Text auf eine angegebene Zeichenkette trifft, wird die Generierung sofort gestoppt (das Stoppwort selbst ist im zurückgegebenen Text nicht enthalten)
- Derzeit wird nur ein einzelnes Stoppwort unterstützt, im Format
["stop_word1"], z. B.["Human:"]
4["Human:"]Gibt das Ausgabeformat der Modellantwort an, Standard ist text
Hinweise:
{ "type": "json_object" }aktiviert den JSON-Modus, das Modell gibt gültige Daten im JSON-Format zurück, geeignet für Szenarien wie strukturierte Datenextraktion- Bei Verwendung des JSON-Modus wird empfohlen, in der
system- oderuser-Nachricht ausdrücklich JSON-Ausgabe zu verlangen
Eindeutige Kennung der Anfrage
Hinweise:
- Wird von der Clientseite übergeben, Länge 6-64 Zeichen, zur Sicherstellung der Eindeutigkeit wird das UUID-Format empfohlen
- Wird sie nicht angegeben, generiert die Plattform sie automatisch
6 - 64"req-7f3a2c1e8b9d4f0a"
Eindeutige Kennung des Endbenutzers
Hinweise: Länge 6-128 Zeichen, empfohlen wird eine eindeutige Kennung ohne sensible Informationen; sie hilft der Plattform, Missbrauch zu überwachen und zu erkennen
6 - 128"user-abc123456"
Antwort
Chat-Vervollständigung erfolgreich
Aufgaben-ID
"chatcmpl-a6613b56-c61c-94ba-9a9f-43d4cdc7d77a"
Antworttyp
chat.completion "chat.completion"
Anfrage-ID (wird zurückgegeben, wenn in der Anfrage request_id angegeben wurde)
"req-7f3a2c1e8b9d4f0a"
Erstellungszeit der Anfrage, Unix-Zeitstempel (Sekunden)
1777021417
Modellname
"glm-5.2"
Liste der Modellantworten
Token-Nutzungsstatistik, die bei Abschluss des Aufrufs zurückgegeben wird
Informationen zur Websuche, werden zurückgegeben, wenn das web_search-Werkzeug verwendet wird und eine Suche getroffen wird
Informationen zur Inhaltssicherheit