GLM-5.2 - API compatible Anthropic
- Appelez le modèle GLM-5.2 via le protocole Anthropic Messages
- La structure des requêtes / réponses est alignée sur l’API Anthropic
- Invite système : transmise via le champ
systemde premier niveau - Mode réflexion : GLM-5.2 active la réflexion par défaut, le contenu de réflexion est renvoyé via un bloc
content[type=thinking]; transmettezthinking.type=disabledpour la désactiver - Sortie en streaming : flux d’événements SSE
- Appel d’outils : compatible avec le flux Anthropic
tool_use/tool_result - ⚠️ Pas de prise en charge multimodale : GLM-5.2 est un modèle en texte brut, les blocs de contenu image / vidéo sont ignorés
https://direct.evolink.ai, qui offre une meilleure prise en charge des modèles textuels et des connexions de longue durée. https://api.evolink.ai est le point de terminaison principal pour les services multimodaux et sert d’adresse de repli pour les modèles textuels.Autorisations
##Toutes les API nécessitent une authentification par Bearer Token##
Obtenir une clé API :
Visitez la page de gestion des clés API pour obtenir votre clé API
Ajouter à l'en-tête de requête :
Authorization: Bearer YOUR_API_KEYRemarque : EvoLink applique une authentification unifiée par Bearer Token pour /v1/messages.
Corps
Le modèle à appeler
glm-5.2 "glm-5.2"
Liste des messages de la conversation, en alternance user / assistant par tour
Remarques :
- Contient au moins 1 message
- Le dernier message est généralement
role=user - Prend en charge le contexte multi-tours, le modèle se réfère aux messages historiques
1Spécifie la limite supérieure de longueur du contenu généré (nombre de tokens)
Remarques :
- Les tokens produits par la réflexion sont également comptabilisés dans cette limite
- Lorsque la limite est atteinte, le contenu est tronqué et la réponse indique
stop_reason=max_tokens
x >= 11024
Invite système, utilisée pour définir le rôle et le comportement de l'IA
Remarques :
- Prend en charge une chaîne ou un tableau de blocs de contenu
- Transmise via le champ
systemde premier niveau (ne pas la placer dans messages) - Le modèle respecte les contraintes du system
- ⚠️ Un system trop long peut être tronqué : pour un long contexte, placez-le dans
messages, n'entassez pas tout danssystem
"You are a helpful assistant."
Température d'échantillonnage
Remarques :
- Plus la valeur est élevée, plus la sortie est variée ; plus elle est basse, plus elle est déterministe
- Plage recommandée
[0, 1]
0 <= x <= 11
Seuil d'échantillonnage par noyau
Remarques :
- Plage
[0, 1] - Il est recommandé de ne pas ajuster simultanément temperature et top_p
0 <= x <= 10.9
N'échantillonne que parmi les K tokens les plus probables (paramètre propre à Anthropic)
Remarques :
- Plus la valeur est petite, plus la sortie est déterministe ; plus elle est grande, plus les candidats sont diversifiés
x >= 010
Séquences d'arrêt personnalisées : la génération s'arrête lorsque l'une de ces chaînes est rencontrée
Remarques :
- L'arrêt intervient dès la rencontre, le contenu situé avant est renvoyé normalement
- ⚠️ Attention : lorsqu'une séquence d'arrêt est rencontrée, le
stop_reasonde GLM-5.2 renvoieend_turn(et non la valeur standard Anthropicstop_sequence), et la réponse ne contient pas non plus de champstop_sequence. Si le client se fie àstop_reason=="stop_sequence"pour détecter la rencontre, un traitement particulier est nécessaire
["\n\n"]Indique s'il faut renvoyer en streaming SSE
true: renvoi en streaming via Server-Sent Events (séquence d'événements Anthropic standard : message_start / content_block_start / content_block_delta / message_delta / message_stop)false: renvoi en une seule fois après la réponse complète (par défaut)
false
Contrôle la réflexion approfondie
Remarques :
- GLM-5.2 est un modèle de raisonnement, la réflexion est activée par défaut lorsque ce champ n'est pas transmis
- Lorsqu'elle est activée, le tableau
contentde la réponse contient un bloc de processus de raisonnement detype="thinking"(facturé au prorata des output tokens, lesignaturepeut être une chaîne vide) - Transmettez
{"type":"disabled"}pour désactiver la réflexion, ce qui réduit nettement les output tokens - ⚠️ Seul l'interrupteur binaire
typeest effectif : les paramètres de budget/niveau de réflexion tels quebudget_tokens,effortn'ont pas d'effet (ils sont ignorés), il n'est pas possible de contrôler finement la quantité de réflexion
Liste des définitions d'outils
Remarques :
- Respecte les spécifications de définition d'outil Anthropic
input_schemautilise un objet JSON Schema- Le modèle renvoie un bloc
tool_usestandard, avecstop_reason=tool_use
Stratégie de sélection d'outil
Métadonnées de la requête
Réponse
Objet message
Réponse de message au style Anthropic
ID unique du message (format : msg_<uuid>)
Type d'objet de réponse
message assistant Modèle effectivement utilisé
"glm-5.2"
Liste des blocs de contenu de la réponse
Types de blocs possibles :
thinking: processus de raisonnement (lorsque la réflexion est activée, par défaut)text: texte de la réponse finaletool_use: appel d'outil initié par le modèle
Raison de l'arrêt
end_turn: fin naturelle (⚠️ renvoyé également lorsqu'une séquence stop_sequences est rencontrée)max_tokens: limite max_tokens atteintetool_use: le modèle a déclenché un appel d'outil
end_turn, max_tokens, tool_use Statistiques d'utilisation des tokens (spécification Anthropic)