GLM-5.2 - OpenAI 互換 API
- OpenAI Chat Completions プロトコルを使用して GLM-5.2 モデルを呼び出します
- 同期処理モードで、対話内容をリアルタイムに返却します
- プレーンテキスト対話:シングルターンまたはマルチターンの文脈対話
- システムプロンプト:
role=systemメッセージで AI の役割と振る舞いをカスタマイズ - 深い思考:
thinking.typeで思考連鎖を切り替え、reasoning_effortで推論強度を調整します。推論過程はreasoning_contentで返却されます - ストリーミング出力:SSE ストリーミングレスポンスに対応(
stream=true) - ツール呼び出し:Function Calling、ナレッジベース検索(retrieval)、ウェブ検索(web_search)、MCP に対応(最大 128 個のツール)
- 構造化出力:
response_formatで JSON モードを有効化
ストリーミングレスポンスの説明:stream=true の場合、Server-Sent Events で返却され、各メッセージの形式は data: {JSON} となり、終了時に data: [DONE] を返します。各データチャンク(ChatCompletionChunk)には id、created、model、choices、およびオプションの usage と content_filter が含まれます。そのうち choices[].delta は role / content / reasoning_content / tool_calls を増分で返し、choices[].finish_reason は最後のチャンクで終了理由を示します。
https://direct.evolink.ai で、テキストモデルへの対応が優れており、長時間接続をサポートします。https://api.evolink.ai はマルチモーダルサービスの主力エンドポイントで、テキストモデルに対しては代替アドレスとして使用されます。承認
##すべての API は Bearer Token 認証が必要です##
API キーの取得:
API キー管理ページにアクセスして API キーを取得してください
リクエストヘッダーに追加:
Authorization: Bearer YOUR_API_KEYボディ
呼び出すモデルコード
glm-5.2:最新のフラッグシップモデルで、複雑な推論、超長文コンテキスト、極めて高速な推論速度を提供します
glm-5.2 "glm-5.2"
対話メッセージのリスト。現在の対話の完全な文脈情報を含みます
system、user、assistant、tool の 4 種類の役割に対応します。役割が異なるメッセージは異なるフィールド構造を持つため、対応する役割を選択して確認してください。少なくとも 1 件のメッセージを含む必要があり、システムメッセージまたはアシスタントメッセージのみで構成することはできません。
1- System Message
- User Message
- Assistant Message
- Tool Message
ストリーミング出力モードを有効にするかどうか
false:モデルが完全なレスポンスを生成してから一括で返します(デフォルト)。短いテキストやバッチ処理に適していますtrue:Server-Sent Events(SSE)でチャンクごとにリアルタイムに返します。チャットや長文に適しています。ストリーミング終了時にdata: [DONE]を返します
false
思考連鎖(Chain of Thought)を有効にするかどうかを制御します
モデルの推論の度合いを制御します(GLM-5.2 専用能力)
説明:
thinkingが有効な場合のみ有効で、デフォルトはmax- 値は強い順から弱い順へ:
max>xhigh>high>medium>low>minimal>none
GLM-5.2 のマッピングルール(他のプロトコルとの互換性のため):
xhigh→maxと等価low/medium→highと等価none/minimal→ 思考を放棄(深い推論を行わない)
max, xhigh, high, medium, low, minimal, none "max"
サンプリング戦略を有効にするかどうか
true(デフォルト):temperature/top_pを用いてランダムサンプリングを行い、出力がより多様になりますfalse:常に確率が最も高い語彙を選択し(貪欲デコード)、出力がより定まります。この場合temperatureとtop_pは無視されます
一貫性や再現性が必要なタスク(コード生成、翻訳など)には false の設定を推奨します
true
サンプリング温度。出力のランダム性と創造性を制御します
説明:
- 範囲:
[0.0, 1.0]、小数第 2 位まで - 高い値(例:0.8):よりランダムで独創性が高くなり、クリエイティブな執筆に適しています
- 低い値(例:0.2):より安定して定まりやすくなり、事実に基づく質問応答やコード生成に適しています
- GLM-5.2 のデフォルト値:
1.0
推奨:temperature と top_p を同時に調整しないでください
0 <= x <= 11
核サンプリング(Nucleus Sampling)パラメータ。temperature サンプリングの代替手段です
説明:
- 範囲:
[0.01, 1.0]、小数第 2 位まで - モデルは累積確率が
top_pに達する候補語彙のみを考慮します。例えば 0.1 は上位 10% の確率の語彙のみを考慮することを意味します - 小さい値ほど絞り込まれた一貫性のある出力になり、大きい値ほど多様性が増します
- GLM-5.2 のデフォルト値:
0.95
推奨:temperature と top_p を同時に調整しないでください
0.01 <= x <= 10.95
モデル出力の最大 token 数の制限
説明:
- GLM-5.2 は最大 131,072 tokens(128K)の出力長に対応します。
1024以上の設定を推奨します thinkingが有効な場合、思考連鎖の token もこの上限に含まれます- 生成が
lengthの理由で中断された場合は、この値を引き上げてみてください
1 <= x <= 1310721024
モデルが呼び出せるツールのリスト
説明:
- 関数呼び出し(
function)、ナレッジベース検索(retrieval)、ウェブ検索(web_search)、MCP(mcp)に対応します - 最大 128 個の関数に対応します
128- Function ツール
- Retrieval ツール(ナレッジベース検索)
- Web Search ツール(ウェブ検索)
- MCP ツール
モデルがどの関数を呼び出すかを選択する方法を制御します
説明:ツールの種類が function の場合のみ有効で、デフォルトかつ auto のみに対応します(ツールを呼び出すかどうかをモデルが自動で判断します)
auto "auto"
停止ワードのリスト
説明:
- モデルが生成テキスト中に指定した文字列に遭遇すると、ただちに生成を停止します(停止ワード自体は返却テキストに含まれません)
- 現在は単一の停止ワードのみに対応し、形式は
["stop_word1"]、例えば["Human:"]です
4["Human:"]モデルのレスポンス出力形式を指定します。デフォルトは text
説明:
{ "type": "json_object" }で JSON モードを有効化すると、モデルは有効な JSON 形式のデータを返します。構造化データの抽出などのシナリオに適しています- JSON モードを使用する場合は、
systemまたはuserメッセージで JSON 出力をはっきりと要求することを推奨します
リクエストの一意の識別子
説明:
- ユーザー側から渡し、長さは 6〜64 文字です。一意性を確保するため UUID 形式を推奨します
- 指定しない場合は、プラットフォームが自動で生成します
6 - 64"req-7f3a2c1e8b9d4f0a"
エンドユーザーの一意の識別子
説明:長さは 6〜128 文字です。機密情報を含まない一意の識別子の使用を推奨します。プラットフォームによる不正利用の監視と検出に役立ちます
6 - 128"user-abc123456"
レスポンス
対話生成に成功
タスク ID
"chatcmpl-a6613b56-c61c-94ba-9a9f-43d4cdc7d77a"
レスポンスの種類
chat.completion "chat.completion"
リクエスト ID(リクエストで request_id を指定した場合に返送されます)
"req-7f3a2c1e8b9d4f0a"
リクエストの作成時刻。Unix タイムスタンプ(秒)
1777021417
モデル名
"glm-5.2"
モデルレスポンスのリスト
呼び出し終了時に返却される Token 使用統計
ウェブ検索関連情報。web_search ツールを使用し検索がヒットした場合に返却されます
コンテンツ安全関連情報