GLM-5.2 - API compatible con OpenAI
- Utiliza el protocolo OpenAI Chat Completions para llamar al modelo GLM-5.2
- Modo de procesamiento síncrono, devuelve el contenido de la conversación en tiempo real
- Conversación de texto plano: diálogo contextual de un solo turno o de múltiples turnos
- Indicaciones de sistema: personaliza el rol y el comportamiento de la IA mediante mensajes con
role=system - Pensamiento profundo: activa o desactiva la cadena de pensamiento mediante
thinking.type, y ajusta la intensidad del razonamiento conreasoning_effort; el proceso de razonamiento se devuelve a través dereasoning_content - Salida en streaming: admite respuestas en streaming SSE (
stream=true) - Llamada a herramientas: admite Function Calling, recuperación de base de conocimiento (retrieval), búsqueda web (web_search) y MCP (hasta 128 herramientas)
- Salida estructurada: activa el modo JSON mediante
response_format
Notas sobre la respuesta en streaming: cuando stream=true, la respuesta se devuelve mediante Server-Sent Events, con cada mensaje en el formato data: {JSON} y, al finalizar, se devuelve data: [DONE]. Cada bloque de datos (ChatCompletionChunk) contiene id, created, model, choices y, opcionalmente, usage y content_filter; donde choices[].delta devuelve de forma incremental role / content / reasoning_content / tool_calls, y choices[].finish_reason indica el motivo de finalización en el último bloque.
https://direct.evolink.ai, que ofrece mejor compatibilidad con los modelos de texto y las conexiones de larga duración. https://api.evolink.ai es el endpoint principal para los servicios multimodales y sirve como dirección de respaldo para los modelos de texto.Autorizaciones
##Todas las API requieren autenticación con Bearer Token##
Obtener la API Key:
Visita la Página de gestión de API Keys para obtener tu API Key
Añadir al encabezado de la solicitud al usarla:
Authorization: Bearer YOUR_API_KEYCuerpo
Código del modelo a invocar
glm-5.2: modelo insignia más reciente, ofrece razonamiento complejo, contexto ultralargo y velocidad de inferencia extrema
glm-5.2 "glm-5.2"
Lista de mensajes de la conversación, contiene la información de contexto completa de la conversación actual
Admite cuatro roles: system, user, assistant, tool. Los mensajes con diferentes roles tienen distintas estructuras de campos; selecciona el rol correspondiente para verlas. Debe contener al menos 1 mensaje y no puede contener únicamente mensajes de sistema o del asistente.
1- System Message
- User Message
- Assistant Message
- Tool Message
Si se debe activar el modo de salida en streaming
false: el modelo genera la respuesta completa y la devuelve de una sola vez (predeterminado), adecuado para textos cortos y procesamiento por lotestrue: devuelve la respuesta en fragmentos en tiempo real mediante Server-Sent Events (SSE), adecuado para chat y textos largos; al finalizar el stream se devuelvedata: [DONE]
false
Controla si se activa la cadena de pensamiento (Chain of Thought)
Controla el grado de razonamiento del modelo (capacidad exclusiva de GLM-5.2)
Notas:
- Solo tiene efecto cuando
thinkingestá activado, predeterminadomax - Valores de mayor a menor:
max>xhigh>high>medium>low>minimal>none
Reglas de mapeo de GLM-5.2 (por compatibilidad con otros protocolos):
xhigh→ equivale amaxlow/medium→ equivalen ahighnone/minimal→ renuncia al pensamiento (no realiza razonamiento profundo)
max, xhigh, high, medium, low, minimal, none "max"
Si se debe activar la estrategia de muestreo
true(predeterminado): usatemperature/top_ppara el muestreo aleatorio, con una salida más variadafalse: siempre selecciona la palabra de mayor probabilidad (decodificación voraz), con una salida más determinista; en este caso,temperatureytop_pse ignoran
Para tareas que requieren coherencia y reproducibilidad (como la generación de código o la traducción), se recomienda establecerlo en false
true
Temperatura de muestreo, controla la aleatoriedad y la creatividad de la salida
Notas:
- Rango:
[0.0, 1.0], limitado a dos decimales - Valores más altos (p. ej. 0.8): más aleatorio y creativo, adecuado para la escritura creativa
- Valores más bajos (p. ej. 0.2): más estable y determinista, adecuado para preguntas factuales y generación de código
- Valor predeterminado de GLM-5.2:
1.0
Recomendación: no ajustes temperature y top_p simultáneamente
0 <= x <= 11
Parámetro de muestreo por núcleo (Nucleus Sampling), es una alternativa al muestreo por temperature
Notas:
- Rango:
[0.01, 1.0], limitado a dos decimales - El modelo solo considera los tokens candidatos cuya probabilidad acumulada alcanza
top_p; por ejemplo, 0.1 significa considerar solo los tokens del primer 10 % de probabilidad - Los valores más pequeños producen una salida más enfocada y coherente; los valores más grandes aumentan la diversidad
- Valor predeterminado de GLM-5.2:
0.95
Recomendación: no ajustes temperature y top_p simultáneamente
0.01 <= x <= 10.95
Límite máximo del número de tokens de salida del modelo
Notas:
- GLM-5.2 admite una longitud de salida máxima de 131,072 tokens (128K), se recomienda establecer no menos de
1024 - Cuando
thinkingestá activado, los tokens de la cadena de pensamiento también cuentan para este límite - Si la generación se interrumpe por el motivo
length, intenta aumentar este valor
1 <= x <= 1310721024
Lista de herramientas que el modelo puede invocar
Notas:
- Admite llamada a funciones (
function), recuperación de base de conocimiento (retrieval), búsqueda web (web_search) y MCP (mcp) - Admite hasta 128 funciones
128- Herramienta Function
- Herramienta Retrieval (recuperación de base de conocimiento)
- Herramienta Web Search (búsqueda web)
- Herramienta MCP
Controla la forma en que el modelo elige qué función invocar
Notas: solo tiene efecto cuando el tipo de herramienta es function, y de forma predeterminada solo admite auto (el modelo decide automáticamente si invoca una herramienta)
auto "auto"
Lista de palabras de parada
Notas:
- Cuando el texto generado por el modelo encuentra la cadena especificada, detiene la generación de inmediato (la palabra de parada en sí no se incluye en el texto devuelto)
- Actualmente solo se admite una única palabra de parada, con el formato
["stop_word1"], por ejemplo["Human:"]
4["Human:"]Especifica el formato de salida de la respuesta del modelo, predeterminado text
Notas:
{ "type": "json_object" }activa el modo JSON, y el modelo devuelve datos en formato JSON válido, adecuado para escenarios como la extracción de datos estructurados- Al usar el modo JSON, se recomienda solicitar explícitamente la salida en JSON en el mensaje
systemouser
Identificador único de la solicitud
Notas:
- Lo transfiere el cliente, con una longitud de 6 a 64 caracteres; se recomienda usar el formato UUID para garantizar la unicidad
- Si no se proporciona, la plataforma lo genera automáticamente
6 - 64"req-7f3a2c1e8b9d4f0a"
Identificador único del usuario final
Notas: longitud de 6 a 128 caracteres; se recomienda usar un identificador único que no contenga información sensible, lo que ayuda a la plataforma a supervisar y detectar comportamientos abusivos
6 - 128"user-abc123456"
Respuesta
Generación de chat exitosa
ID de la tarea
"chatcmpl-a6613b56-c61c-94ba-9a9f-43d4cdc7d77a"
Tipo de respuesta
chat.completion "chat.completion"
ID de la solicitud (se devuelve cuando se proporciona request_id en la solicitud)
"req-7f3a2c1e8b9d4f0a"
Hora de creación de la solicitud, marca de tiempo Unix (segundos)
1777021417
Nombre del modelo
"glm-5.2"
Lista de respuestas del modelo
Estadísticas de uso de tokens devueltas al finalizar la llamada
Información relacionada con la búsqueda web, se devuelve al usar la herramienta web_search y obtener resultados de búsqueda
Información relacionada con la seguridad del contenido