GLM-5.2 - Anthropic 호환 API
- Anthropic Messages 프로토콜을 사용하여 GLM-5.2 모델을 호출합니다
- 요청 / 응답 구조가 Anthropic API와 정렬됩니다
- 시스템 프롬프트: 최상위
system으로 전달 - 사고 모드: GLM-5.2는 기본적으로 사고가 켜져 있으며, 사고 내용은
content[type=thinking]block으로 반환됩니다;thinking.type=disabled를 전달하여 끕니다 - 스트리밍 출력: SSE 이벤트 스트림
- 도구 호출: Anthropic
tool_use/tool_result플로우와 호환 - ⚠️ 멀티모달 미지원: GLM-5.2는 순수 텍스트 모델이며, 이미지 / 비디오 콘텐츠 블록은 무시됩니다
https://direct.evolink.ai이며, 텍스트 모델과 장시간 연결을 더 잘 지원합니다. https://api.evolink.ai는 멀티모달 서비스의 기본 엔드포인트이자 텍스트 모델의 대체 주소 역할을 합니다.인증
##모든 인터페이스는 Bearer Token 인증이 필요합니다##
API Key 발급:
API Key 관리 페이지에 방문하여 API Key를 발급받으세요
요청 헤더에 추가:
Authorization: Bearer YOUR_API_KEY참고: EvoLink는 /v1/messages에 대해 일괄적으로 Bearer Token 인증을 사용합니다.
본문
호출할 모델
glm-5.2 "glm-5.2"
대화 메시지 목록으로, 턴마다 user / assistant가 번갈아 나타납니다
설명:
- 최소 1개의 메시지를 포함합니다
- 마지막 메시지는 보통
role=user입니다 - 멀티턴 컨텍스트를 지원하며, 모델이 과거 메시지를 참조합니다
1생성 내용 길이의 상한(Token 수)을 지정합니다
설명:
- thinking이 생성하는 token도 이 상한에 포함됩니다
- 상한에 도달하면 내용이 잘리며, 응답은
stop_reason=max_tokens입니다
x >= 11024
시스템 프롬프트로, AI의 역할과 동작을 설정하는 데 사용합니다
설명:
- 문자열 또는 콘텐츠 블록 배열을 지원합니다
- 최상위
system필드로 전달합니다(messages에 넣지 마세요) - 모델이 system 제약을 따릅니다
- ⚠️ 너무 긴 system은 잘릴 수 있습니다: 긴 컨텍스트가 필요하면
messages에 넣고, 모두system에 쌓지 마세요
"You are a helpful assistant."
샘플링 온도
설명:
- 값이 높을수록 출력이 더 발산적이고, 낮을수록 더 확정적입니다
- 권장 범위
[0, 1]
0 <= x <= 11
핵 샘플링 임계값
설명:
- 범위
[0, 1] - temperature와 top_p를 동시에 조정하지 않는 것을 권장합니다
0 <= x <= 10.9
확률이 가장 높은 K개의 token 중에서만 샘플링합니다(Anthropic 고유 파라미터)
설명:
- 값이 작을수록 출력이 더 확정적이고, 클수록 후보가 더 다양합니다
x >= 010
사용자 정의 중지 시퀀스: 생성이 그중 어느 문자열에라도 적중하면 중지합니다
설명:
- 적중 시 잘리며, 적중 지점 이전 내용은 정상적으로 반환됩니다
- ⚠️ 주의: 중지 시퀀스에 적중할 때 GLM-5.2의
stop_reason은end_turn을 반환하며(Anthropic 표준인stop_sequence가 아님), 응답에도stop_sequence필드가 포함되지 않습니다. 클라이언트가stop_reason=="stop_sequence"로 적중을 판단한다면 별도 처리가 필요합니다
["\n\n"]SSE로 스트리밍 반환할지 여부
true: Server-Sent Events 스트리밍 반환(표준 Anthropic 이벤트 시퀀스: message_start / content_block_start / content_block_delta / message_delta / message_stop)false: 완전한 응답 후 한 번에 반환(기본값)
false
심층 사고를 제어합니다
설명:
- GLM-5.2는 추론 모델로, 이 필드를 전달하지 않으면 기본적으로 사고가 켜집니다
- 켜져 있으면 응답
content배열에type="thinking"인 추론 과정 block이 나타납니다(output token으로 과금되며signature는 빈 문자열일 수 있음) {"type":"disabled"}를 전달하면 사고를 끌 수 있으며 output token을 크게 줄입니다- ⚠️
type이진 스위치만 유효합니다:budget_tokens,effort등 사고 예산/등급 파라미터는 적용되지 않으며(무시됨), 사고량을 세밀하게 제어할 수 없습니다
도구 정의 목록
설명:
- Anthropic tool 정의 규범을 따릅니다
input_schema는 JSON Schema 객체를 사용합니다- 모델은 표준
tool_useblock을 반환하며,stop_reason=tool_use입니다
도구 선택 전략
요청 메타데이터
응답
메시지 객체
Anthropic 스타일의 메시지 응답
메시지 고유 ID(형식: msg_<uuid>)
응답 객체 유형
message assistant 실제 사용된 모델
"glm-5.2"
응답 콘텐츠 블록 목록
포함될 수 있는 block type:
thinking: 추론 과정(사고가 켜져 있을 때, 기본적으로 켜짐)text: 최종 답변 텍스트tool_use: 모델이 발생시킨 도구 호출
중지 사유
end_turn: 자연스러운 종료(⚠️ stop_sequences에 적중할 때도 이 값을 반환)max_tokens: max_tokens 상한 도달tool_use: 모델이 도구 호출을 트리거
end_turn, max_tokens, tool_use Token 사용 통계(Anthropic 규범)