GLM-5.2 - API compatible OpenAI
- Utilisez le protocole OpenAI Chat Completions pour appeler le modèle GLM-5.2
- Mode de traitement synchrone, renvoie le contenu de la conversation en temps réel
- Conversation en texte brut : dialogue contextuel sur un ou plusieurs tours
- Invites système : personnalisez le rôle et le comportement de l’IA via des messages
role=system - Réflexion approfondie : active/désactive la chaîne de pensée via
thinking.type,reasoning_effortajuste l’intensité du raisonnement ; le processus de raisonnement est renvoyé viareasoning_content - Sortie en streaming : prend en charge les réponses en streaming SSE (
stream=true) - Appel d’outils : prend en charge le Function Calling, la recherche dans une base de connaissances (retrieval), la recherche web (web_search) et le MCP (jusqu’à 128 outils)
- Sortie structurée : activez le mode JSON via
response_format
À propos des réponses en streaming : lorsque stream=true, la réponse est renvoyée via Server-Sent Events, chaque message ayant le format data: {JSON}, et data: [DONE] est renvoyé à la fin. Chaque bloc de données (ChatCompletionChunk) contient id, created, model, choices, et éventuellement usage et content_filter ; au sein de celui-ci, choices[].delta renvoie de manière incrémentale role / content / reasoning_content / tool_calls, et choices[].finish_reason indique la raison de fin dans le dernier bloc.
https://direct.evolink.ai, qui offre une meilleure prise en charge des modèles textuels et des connexions de longue durée. https://api.evolink.ai est le point de terminaison principal pour les services multimodaux et sert d’adresse de repli pour les modèles textuels.Autorisations
##Toutes les API nécessitent une authentification par Bearer Token##
Obtenir une clé API :
Visitez la page de gestion des clés API pour obtenir votre clé API
Ajouter à l'en-tête de requête :
Authorization: Bearer YOUR_API_KEY
Corps
Code du modèle à appeler
glm-5.2: tout dernier modèle phare, offrant un raisonnement complexe, un contexte ultra-long et une vitesse d'inférence extrême
glm-5.2 "glm-5.2"
Liste des messages de la conversation, contenant l'intégralité du contexte de la conversation en cours
Prend en charge quatre rôles : system, user, assistant, tool. Les messages de rôles différents ont des structures de champs différentes ; sélectionnez le rôle correspondant pour le consulter. Doit contenir au moins 1 message, et ne peut pas contenir uniquement des messages système ou des messages de l'assistant.
1- System Message
- User Message
- Assistant Message
- Tool Message
Indique s'il faut activer le mode de sortie en streaming
false: le modèle génère la réponse complète puis la renvoie en une seule fois (par défaut), adapté aux textes courts et au traitement par lotstrue: renvoie le contenu en temps réel bloc par bloc via Server-Sent Events (SSE), adapté au chat et aux textes longs ;data: [DONE]est renvoyé à la fin du flux
false
Contrôle l'activation de la chaîne de pensée (Chain of Thought)
Contrôle le degré de raisonnement du modèle (capacité exclusive à GLM-5.2)
Remarques :
- N'a d'effet que lorsque
thinkingest activé, par défautmax - Valeurs du plus fort au plus faible :
max>xhigh>high>medium>low>minimal>none
Règles de correspondance GLM-5.2 (pour la compatibilité avec d'autres protocoles) :
xhigh→ équivalent àmaxlow/medium→ équivalent àhighnone/minimal→ abandon de la réflexion (pas de raisonnement approfondi)
max, xhigh, high, medium, low, minimal, none "max"
Indique s'il faut activer la stratégie d'échantillonnage
true(par défaut) : utilisetemperature/top_ppour un échantillonnage aléatoire, sortie plus variéefalse: sélectionne toujours le mot le plus probable (décodage glouton), sortie plus déterministe ; dans ce cas,temperatureettop_psont ignorés
Pour les tâches nécessitant cohérence et reproductibilité (comme la génération de code, la traduction), il est recommandé de définir cette valeur sur false
true
Température d'échantillonnage, contrôle le caractère aléatoire et la créativité de la sortie
Remarques :
- Plage :
[0.0, 1.0], limitée à deux décimales - Valeurs plus élevées (par ex. 0.8) : plus aléatoire et plus créatif, adapté à l'écriture créative
- Valeurs plus basses (par ex. 0.2) : plus stable et plus déterministe, adapté aux questions factuelles et à la génération de code
- Valeur par défaut de GLM-5.2 :
1.0
Recommandation : n'ajustez pas simultanément temperature et top_p
0 <= x <= 11
Paramètre d'échantillonnage par noyau (Nucleus Sampling), une méthode alternative à l'échantillonnage par temperature
Remarques :
- Plage :
[0.01, 1.0], limitée à deux décimales - Le modèle ne considère que les mots candidats dont la probabilité cumulée atteint
top_p; par exemple, 0.1 signifie ne considérer que les 10 % de mots les plus probables - Des valeurs plus petites produisent une sortie plus ciblée et plus cohérente ; des valeurs plus grandes augmentent la diversité
- Valeur par défaut de GLM-5.2 :
0.95
Recommandation : n'ajustez pas simultanément temperature et top_p
0.01 <= x <= 10.95
Limite du nombre maximal de tokens en sortie du modèle
Remarques :
- GLM-5.2 prend en charge une longueur de sortie maximale de 131 072 tokens (128K), il est recommandé de définir une valeur d'au moins
1024 - Lorsque
thinkingest activé, les tokens de la chaîne de pensée sont également comptabilisés dans cette limite - Si la génération est interrompue pour cause de
length, essayez d'augmenter cette valeur
1 <= x <= 1310721024
Liste des outils que le modèle peut appeler
Remarques :
- Prend en charge l'appel de fonction (
function), la recherche dans une base de connaissances (retrieval), la recherche web (web_search) et le MCP (mcp) - Prend en charge jusqu'à 128 fonctions
128- Outil Function
- Outil Retrieval (recherche dans une base de connaissances)
- Outil Web Search (recherche web)
- Outil MCP
Contrôle la manière dont le modèle choisit quelle fonction appeler
Remarques : n'a d'effet que lorsque le type d'outil est function, par défaut et uniquement auto est pris en charge (le modèle décide automatiquement s'il faut appeler un outil)
auto "auto"
Liste des mots d'arrêt
Remarques :
- Lorsque le texte généré par le modèle rencontre la chaîne spécifiée, la génération s'arrête immédiatement (le mot d'arrêt lui-même n'est pas inclus dans le texte renvoyé)
- Actuellement, un seul mot d'arrêt est pris en charge, au format
["stop_word1"], par exemple["Human:"]
4["Human:"]
Spécifie le format de sortie de la réponse du modèle, par défaut text
Remarques :
{ "type": "json_object" }active le mode JSON, le modèle renvoie des données au format JSON valide, adapté aux scénarios d'extraction de données structurées, etc.- Lors de l'utilisation du mode JSON, il est recommandé de demander explicitement une sortie JSON dans le message
systemouuser
Identifiant unique de la requête
Remarques :
- Transmis par le client, longueur de 6 à 64 caractères, il est recommandé d'utiliser le format UUID pour garantir l'unicité
- S'il n'est pas fourni, la plateforme le génère automatiquement
6 - 64"req-7f3a2c1e8b9d4f0a"
Identifiant unique de l'utilisateur final
Remarques : longueur de 6 à 128 caractères, il est recommandé d'utiliser un identifiant unique ne contenant pas d'informations sensibles ; cela peut aider la plateforme à surveiller et détecter les comportements abusifs
6 - 128"user-abc123456"
Réponse
Génération de conversation réussie
ID de la tâche
"chatcmpl-a6613b56-c61c-94ba-9a9f-43d4cdc7d77a"
Type de réponse
chat.completion "chat.completion"
ID de la requête (retransmis lorsque request_id est fourni dans la requête)
"req-7f3a2c1e8b9d4f0a"
Heure de création de la requête, horodatage Unix (secondes)
1777021417
Nom du modèle
"glm-5.2"
Liste des réponses du modèle
Statistiques d'utilisation des tokens renvoyées à la fin de l'appel
Informations relatives à la recherche web, renvoyées lors de l'utilisation de l'outil web_search et qu'une recherche est effectuée
Informations relatives à la sécurité du contenu