GLM-5.2 - OpenAI 호환 API
- OpenAI Chat Completions 프로토콜을 사용하여 GLM-5.2 모델을 호출합니다
- 동기 처리 모드로 대화 내용을 실시간으로 반환합니다
- 순수 텍스트 대화: 단일 턴 또는 멀티턴 컨텍스트 대화
- 시스템 프롬프트:
role=system메시지로 AI의 역할과 동작을 사용자 정의 - 심층 사고:
thinking.type으로 사고 체인을 켜고 끄며,reasoning_effort로 추론 강도를 조절; 추론 과정은reasoning_content를 통해 반환 - 스트리밍 출력: SSE 스트리밍 응답 지원(
stream=true) - 도구 호출: Function Calling, 지식베이스 검색(retrieval), 웹 검색(web_search), MCP 지원(최대 128개 도구)
- 구조화 출력:
response_format으로 JSON 모드 활성화
스트리밍 응답 설명: stream=true일 때 Server-Sent Events를 통해 반환하며, 각 메시지의 형식은 data: {JSON}이고 종료 시 data: [DONE]을 반환합니다. 각 데이터 청크(ChatCompletionChunk)는 id, created, model, choices와 선택적인 usage, content_filter를 포함하며, 그중 choices[].delta는 role / content / reasoning_content / tool_calls를 증분으로 반환하고 choices[].finish_reason은 마지막 청크에서 종료 사유를 제공합니다.
https://direct.evolink.ai이며, 텍스트 모델과 장시간 연결을 더 잘 지원합니다. https://api.evolink.ai는 멀티모달 서비스의 기본 엔드포인트이자 텍스트 모델의 대체 주소 역할을 합니다.인증
##모든 인터페이스는 Bearer Token 인증이 필요합니다##
API Key 발급:
API Key 관리 페이지에 방문하여 API Key를 발급받으세요
요청 헤더에 추가:
Authorization: Bearer YOUR_API_KEY본문
호출할 모델 코드
glm-5.2: 최신 플래그십 모델로, 복잡한 추론, 초장문 컨텍스트와 극대화된 추론 속도를 제공
glm-5.2 "glm-5.2"
대화 메시지 목록으로, 현재 대화의 완전한 컨텍스트 정보를 포함합니다
system, user, assistant, tool 네 가지 역할을 지원합니다. 역할마다 메시지의 필드 구조가 다르므로 해당 역할을 선택하여 확인하세요. 최소 1개의 메시지를 포함해야 하며, 시스템 메시지나 어시스턴트 메시지만 포함할 수는 없습니다.
1- System Message
- User Message
- Assistant Message
- Tool Message
스트리밍 출력 모드를 활성화할지 여부
false: 모델이 완전한 응답을 생성한 후 한 번에 반환(기본값), 짧은 텍스트와 일괄 처리에 적합true: Server-Sent Events(SSE)를 통해 청크 단위로 실시간 반환, 채팅과 장문에 적합; 스트리밍 종료 시data: [DONE]을 반환
false
사고 체인(Chain of Thought)을 켤지 여부를 제어합니다
모델의 추론 정도를 제어합니다(GLM-5.2 전용 능력)
설명:
thinking이 켜진 경우에만 유효하며, 기본값은max- 값은 강한 것부터 약한 것 순서로:
max>xhigh>high>medium>low>minimal>none
GLM-5.2 매핑 규칙(다른 프로토콜과의 호환을 위해):
xhigh→max와 동등low/medium→high와 동등none/minimal→ 사고 포기(심층 추론을 수행하지 않음)
max, xhigh, high, medium, low, minimal, none "max"
샘플링 전략을 활성화할지 여부
true(기본값):temperature/top_p로 무작위 샘플링을 수행하여 출력이 더 다양해짐false: 항상 확률이 가장 높은 단어를 선택(그리디 디코딩)하여 출력이 더 확정적이며, 이때temperature와top_p는 무시됩니다
일관성과 재현성이 필요한 작업(예: 코드 생성, 번역)에는 false로 설정하는 것을 권장합니다
true
샘플링 온도로, 출력의 무작위성과 창의성을 제어합니다
설명:
- 범위:
[0.0, 1.0], 소수점 둘째 자리까지 - 높은 값(예: 0.8): 더 무작위하고 창의적이며 창작 글쓰기에 적합
- 낮은 값(예: 0.2): 더 안정적이고 확정적이며 사실 기반 질의응답과 코드 생성에 적합
- GLM-5.2 기본값:
1.0
권장 사항: temperature와 top_p를 동시에 조정하지 마세요
0 <= x <= 11
핵 샘플링(Nucleus Sampling) 파라미터로, temperature 샘플링의 대체 방법입니다
설명:
- 범위:
[0.01, 1.0], 소수점 둘째 자리까지 - 모델은 누적 확률이
top_p에 도달하는 후보 단어만 고려하며, 예를 들어 0.1은 상위 10% 확률의 단어만 고려함을 의미합니다 - 작은 값은 더 집중되고 일관된 출력을 만들며, 큰 값은 다양성을 높입니다
- GLM-5.2 기본값:
0.95
권장 사항: temperature와 top_p를 동시에 조정하지 마세요
0.01 <= x <= 10.95
모델 출력의 최대 token 수 제한
설명:
- GLM-5.2는 최대 131,072 tokens(128K) 출력 길이를 지원하며,
1024이상으로 설정하는 것을 권장합니다 thinking이 켜진 경우 사고 체인 token도 이 상한에 포함됩니다- 생성이
length사유로 잘린 경우 이 값을 높여 보세요
1 <= x <= 1310721024
모델이 호출할 수 있는 도구 목록
설명:
- 함수 호출(
function), 지식베이스 검색(retrieval), 웹 검색(web_search), MCP(mcp) 지원 - 최대 128개 함수 지원
128- Function 도구
- Retrieval 도구(지식베이스 검색)
- Web Search 도구(웹 검색)
- MCP 도구
모델이 어떤 함수를 호출할지 선택하는 방식을 제어합니다
설명: 도구 유형이 function일 때만 유효하며, 기본값이자 auto만 지원합니다(모델이 도구 호출 여부를 자동으로 결정)
auto "auto"
중지 단어 목록
설명:
- 모델이 생성하는 텍스트가 지정한 문자열을 만나면 즉시 생성을 중지합니다(중지 단어 자체는 반환 텍스트에 포함되지 않음)
- 현재는 단일 중지 단어만 지원하며, 형식은
["stop_word1"], 예:["Human:"]
4["Human:"]모델 응답 출력 형식을 지정하며, 기본값은 text입니다
설명:
{ "type": "json_object" }는 JSON 모드를 활성화하며, 모델이 유효한 JSON 형식 데이터를 반환하여 구조화 데이터 추출 등의 시나리오에 적합합니다- JSON 모드를 사용할 때는
system또는user메시지에서 JSON 출력을 명확히 요구하는 것을 권장합니다
요청 고유 식별자
설명:
- 사용자 측에서 전달하며, 길이는 6-64자이고 고유성을 보장하기 위해 UUID 형식을 권장합니다
- 제공하지 않으면 플랫폼이 자동으로 생성합니다
6 - 64"req-7f3a2c1e8b9d4f0a"
최종 사용자의 고유 식별자
설명: 길이는 6-128자이며, 민감한 정보를 포함하지 않는 고유 식별자 사용을 권장합니다. 플랫폼이 남용 행위를 모니터링하고 탐지하는 데 도움이 됩니다
6 - 128"user-abc123456"
응답
대화 생성 성공
작업 ID
"chatcmpl-a6613b56-c61c-94ba-9a9f-43d4cdc7d77a"
응답 유형
chat.completion "chat.completion"
요청 ID(요청에서 request_id를 제공한 경우 다시 반환)
"req-7f3a2c1e8b9d4f0a"
요청 생성 시각, Unix 타임스탬프(초)
1777021417
모델 이름
"glm-5.2"
모델 응답 목록
호출 종료 시 반환되는 Token 사용 통계
웹 검색 관련 정보, web_search 도구를 사용하고 검색에 적중했을 때 반환
콘텐츠 안전 관련 정보