GLM-5.2 - OpenAI 兼容接口
- 使用 OpenAI Chat Completions 协议调用 GLM-5.2 模型
- 同步处理模式,实时返回对话内容
- 纯文本对话:单轮或多轮上下文对话
- 系统提示词:通过
role=system消息自定义 AI 的角色和行为 - 深度思考:通过
thinking.type开关思维链,reasoning_effort调节推理强度;推理过程通过reasoning_content返回 - 流式输出:支持 SSE 流式返回(
stream=true) - 工具调用:支持 Function Calling、知识库检索(retrieval)、网络搜索(web_search)、MCP(最多 128 个工具)
- 结构化输出:通过
response_format启用 JSON 模式
流式响应说明:当 stream=true 时,通过 Server-Sent Events 返回,每条消息格式为 data: {JSON},结束时返回 data: [DONE]。每个数据块(ChatCompletionChunk)包含 id、created、model、choices、可选 usage 与 content_filter;其中 choices[].delta 增量返回 role / content / reasoning_content / tool_calls,choices[].finish_reason 在最后一块给出终止原因。
https://direct.evolink.ai,对文本模型支持更好,支持长连接;https://api.evolink.ai 是多模态主力地址,对文本模型作为备用地址使用。授权
##所有接口均需要使用 Bearer Token 进行认证##
获取 API Key:
访问 API Key 管理页面 获取您的 API Key
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY请求体
调用的模型代码
glm-5.2:最新旗舰模型,提供复杂推理、超长上下文与极致推理速度
glm-5.2 "glm-5.2"
对话消息列表,包含当前对话的完整上下文信息
支持四种角色:system、user、assistant、tool。不同角色的消息具有不同的字段结构,请选择对应角色查看。至少包含 1 条消息,且不能只包含系统消息或助手消息。
1- System Message
- User Message
- Assistant Message
- Tool Message
是否启用流式输出模式
false:模型生成完整响应后一次性返回(默认),适合短文本与批处理true:通过 Server-Sent Events(SSE)实时逐块返回,适合聊天与长文本;流式结束时返回data: [DONE]
false
控制是否开启思维链(Chain of Thought)
控制模型的推理程度(GLM-5.2 专属能力)
说明:
- 仅在
thinking开启时生效,默认max - 取值由强到弱:
max>xhigh>high>medium>low>minimal>none
GLM-5.2 映射规则(为与其他协议兼容):
xhigh→ 等价maxlow/medium→ 等价highnone/minimal→ 放弃思考(不进行深度推理)
max, xhigh, high, medium, low, minimal, none "max"
是否启用采样策略
true(默认):使用temperature/top_p进行随机采样,输出更多样false:总是选择概率最高的词汇(贪心解码),输出更确定,此时temperature与top_p被忽略
对需要一致性、可重复性的任务(如代码生成、翻译),建议设置为 false
true
采样温度,控制输出的随机性和创造性
说明:
- 取值范围:
[0.0, 1.0],限两位小数 - 较高值(如 0.8):更随机、更有创意,适合创意写作
- 较低值(如 0.2):更稳定、更确定,适合事实问答与代码生成
- GLM-5.2 默认值:
1.0
建议:不要同时调整 temperature 和 top_p
0 <= x <= 11
核采样(Nucleus Sampling)参数,是 temperature 采样的替代方法
说明:
- 取值范围:
[0.01, 1.0],限两位小数 - 模型只考虑累积概率达到
top_p的候选词汇,例如 0.1 表示只考虑前 10% 概率的词汇 - 较小值产生更集中、更一致的输出;较大值增加多样性
- GLM-5.2 默认值:
0.95
建议:不要同时调整 temperature 和 top_p
0.01 <= x <= 10.95
模型输出的最大 token 数量限制
说明:
- GLM-5.2 最大支持 131,072 tokens(128K)输出长度,建议设置不小于
1024 - 开启
thinking时,思维链 token 也计入该上限 - 若生成因
length原因被截断,请尝试调高此值
1 <= x <= 1310721024
模型可以调用的工具列表
说明:
- 支持函数调用(
function)、知识库检索(retrieval)、网络搜索(web_search)、MCP(mcp) - 最多支持 128 个函数
128- Function 工具
- Retrieval 工具(知识库检索)
- Web Search 工具(网络搜索)
- MCP 工具
控制模型选择调用哪个函数的方式
说明:仅在工具类型为 function 时生效,默认且仅支持 auto(由模型自动决定是否调用工具)
auto "auto"
停止词列表
说明:
- 当模型生成文本遇到指定字符串时立即停止生成(停止词本身不包含在返回文本中)
- 目前仅支持单个停止词,格式为
["stop_word1"],例如["Human:"]
4["Human:"]指定模型响应输出格式,默认为 text
说明:
{ "type": "json_object" }启用 JSON 模式,模型返回有效的 JSON 格式数据,适用于结构化数据提取等场景- 使用 JSON 模式时,建议在
system或user消息中明确要求输出 JSON
请求唯一标识符
说明:
- 由用户端传递,长度 6-64 字符,建议使用 UUID 格式确保唯一性
- 若未提供,平台将自动生成
6 - 64"req-7f3a2c1e8b9d4f0a"
终端用户的唯一标识符
说明:长度 6-128 字符,建议使用不包含敏感信息的唯一标识,可帮助平台监控和检测滥用行为
6 - 128"user-abc123456"
响应
对话生成成功
任务 ID
"chatcmpl-a6613b56-c61c-94ba-9a9f-43d4cdc7d77a"
响应类型
chat.completion "chat.completion"
请求 ID(在请求中提供 request_id 时回传)
"req-7f3a2c1e8b9d4f0a"
请求创建时间,Unix 时间戳(秒)
1777021417
模型名称
"glm-5.2"
模型响应列表
调用结束时返回的 Token 使用统计
网页搜索相关信息,使用 web_search 工具且命中搜索时返回
内容安全相关信息