DeepSeek V4 - OpenAI 兼容接口
- 使用 OpenAI Chat Completions 协议调用 DeepSeek V4 模型
- 支持
deepseek-v4-flash(快速通用)和deepseek-v4-pro(深度推理)两个模型 - 纯文本对话:单轮或多轮上下文对话,支持 1M 超长上下文
- 系统提示词:自定义 AI 的角色和行为
- 思考模式:通过
thinking.type控制深度推理;deepseek-v4-pro思考内容通过reasoning_content返回 - 流式输出:支持 SSE 流式返回
- 工具调用:支持 Function Calling(最多 128 个工具)
- JSON 模式:通过
response_format启用 - 上下文缓存:相同前缀请求自动命中缓存,大幅降低输入成本
https://direct.evolink.ai,对文本模型支持更好,支持长连接;https://api.evolink.ai 是多模态主力地址,对文本模型作为备用地址使用。授权
##所有接口均需要使用 Bearer Token 进行认证##
获取 API Key:
访问 API Key 管理页面 获取您的 API Key
使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY请求体
对话模型名称
deepseek-v4-flash:快速通用模型,1M 上下文deepseek-v4-pro:深度推理模型,擅长数学、编程和复杂逻辑
提示:两个模型 均默认启用 thinking,响应会包含 reasoning_content,可通过 thinking.type="disabled" 关闭以降低输出 token 成本。两者参数完全一致。
deepseek-v4-flash, deepseek-v4-pro "deepseek-v4-flash"
对话消息列表,支持多轮对话
不同角色的消息具有不同的字段结构,请选择对应角色查看
1- System Message
- User Message
- Assistant Message
- Tool Message
思考模式控制(V4 新增)
说明:
- 用于控制深度思考(Chain of Thought)功能
- 两个模型均默认启用(
type=enabled) - 启用后,推理过程会通过
choices[].message.reasoning_content返回,并按输出 token 计费
⚠️ 多轮对话/工具调用注意:若本轮响应带有 reasoning_content,下一轮请求的 messages 历史中对应的 assistant 消息必须原样回传该字段,否则接口会返回 400 The reasoning_content in the thinking mode must be passed back to the API。若不想处理,可整会话显式 thinking.type="disabled"。
采样温度,控制输出的随机性
说明:
- 较低值(如 0.2):更确定、更聚焦的输出
- 较高值(如 1.5):更随机、更有创意的输出
- 默认值:1
0 <= x <= 21
核采样(Nucleus Sampling)参数
说明:
- 控制从累积概率前多少的 token 中采样
- 例如 0.9 表示从累积概率达到 90% 的 token 中选择
- 默认值:1.0(考虑所有 token)
建议:不要同时调整 temperature 和 top_p
0 <= x <= 11
限制生成内容的最大 token 数量
说明:
- V4 系列最大可达 384,000 tokens
- 开启 thinking 时,reasoning_tokens 也计入 max_tokens 上限
- 不设置则由模型自行决定生成长度
1 <= x <= 3840004096
频率惩罚参数,用于减少重复内容
说明:
- 正值会根据 token 在已生成文本中出现的频率进行惩罚
- 值越大,越不容易重复已出现的内容
- 默认值:0(不惩罚)
-2 <= x <= 20
存在惩罚参数,用于鼓励生成新话题
说明:
- 正值会根据 token 是否已在文本中出现过进行惩罚
- 值越大,越倾向于讨论新话题
- 默认值:0(不惩罚)
-2 <= x <= 20
指定响应格式
说明:
- 设置为
{"type": "json_object"}可启用 JSON 模式 - JSON 模式下模型会输出合法的 JSON 格式内容
- 建议在 system 或 user 消息中明确要求输出 JSON,以获得最佳效果
停止序列,模型遇到这些字符串时会停止生成
说明:
- 可以是单个字符串或字符串数组
- 最多支持 16 个停止序列
是否以流式方式返回响应
true:流式返回,通过 SSE(Server-Sent Events)逐块实时返回内容false:等待完整响应后一次性返回(默认)
false
流式响应选项
仅在 stream=true 时有效
工具定义列表,用于 Function Calling
说明:
- 最多支持 128 个工具定义
- 每个工具需要定义名称、描述和参数 schema
128控制工具调用行为
可选值:
none:不调用任何工具auto:模型自动决定是否调用工具(默认,当提供 tools 时)required:强制模型调用一个或多个工具- 对象形式
{"type":"function","function":{"name":"xxx"}}:指定调用某个工具
默认值:未提供 tools 时为 none,提供 tools 时为 auto
none, auto, required 是否返回 token 的对数概率
说明:
- 设置为
true时,响应中会包含每个 token 的对数概率信息
返回概率最高的前 N 个 token 的对数概率
说明:
- 需要
logprobs设置为true - 取值范围:
[0, 20]
0 <= x <= 20Token 偏置映射
说明:
- 键为 tokenizer 中的 token ID,值为 -100 到 100 之间的偏置值
- -100 表示完全禁止该 token,100 表示强制生成
- 典型值范围 -1 到 1 已经会产生可观察到的影响
为每个输入消息生成的聊天完成选项数量
说明:
- 默认 1;设置为 N 时会返回 N 个候选(按 N × output_tokens 计费)
1 <= x <= 81
随机种子(Beta)
说明:
- 指定后模型会尝试做确定性采样
- 相同的 seed + 相同的其他参数 → 相同的输出(非 100% 保证)
代表终端用户的唯一标识符
说明:
- 可帮助平台监控和检测滥用行为
- 建议使用散列后的用户 ID
响应
对话生成成功
对话完成的唯一标识符
"53c548dc-ec02-4a2f-bbb6-eca4184630b8"
实际使用的模型名称
"deepseek-v4-flash"
响应类型
chat.completion "chat.completion"
创建时间戳(Unix 秒)
1777021417
对话生成的选择列表
Token 使用统计信息(含缓存与推理分项)
系统指纹标识
"fp_evolink_v4_20260402"