Saltar al contenido principal
POST
/
v1
/
chat
/
completions
curl --request POST \
  --url https://api.evolink.ai/v1/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "kimi-k2-thinking",
  "messages": [
    {
      "role": "user",
      "content": "Please introduce yourself"
    }
  ],
  "temperature": 1
}
'
{
  "id": "cmpl-04ea926191a14749b7f2c7a48a68abc6",
  "model": "kimi-k2-thinking",
  "object": "chat.completion",
  "created": 1698999496,
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hi there! How can I help you?",
        "reasoning_content": "The user just said \"hi\". This is a very simple greeting. I should be friendly, helpful, and professional in my response..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 8,
    "completion_tokens": 292,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 8
    }
  }
}

Autorizaciones

Authorization
string
header
requerido

##Todas las APIs requieren autenticación Bearer Token##

Obtener API Key:

Visita la Página de gestión de API Key para obtener tu API Key

Agregar al encabezado de la solicitud:

Authorization: Bearer YOUR_API_KEY

Cuerpo

application/json
model
enum<string>
requerido

Nombre del modelo para completado de chat

Opciones disponibles:
kimi-k2-thinking,
kimi-k2-thinking-turbo
Ejemplo:

"kimi-k2-thinking"

messages
object[]
requerido

Lista de mensajes para la conversación, soporta diálogo de múltiples turnos y entrada multimodal

Minimum array length: 1
stream
boolean
predeterminado:false

Si se transmite la respuesta en streaming

  • true: Respuesta en streaming, devuelve contenido fragmento a fragmento en tiempo real
  • false: Esperar la respuesta completa y devolverla de una sola vez
Ejemplo:

false

max_tokens
integer

Número máximo de tokens a generar en la respuesta

Nota:

  • Un valor demasiado pequeño puede causar una respuesta truncada
  • Si se alcanza el máximo de tokens, finish_reason será "length", de lo contrario "stop"
Rango requerido: x >= 1
Ejemplo:

2000

temperature
number
predeterminado:1

Temperatura de muestreo, controla la aleatoriedad de la salida

Nota:

  • Valores más bajos (ej., 0.2): Salida más determinista y enfocada
  • Valores más altos (ej., 1.5): Salida más aleatoria y creativa
  • Valor recomendado para la serie kimi-k2-thinking: 1.0
Rango requerido: 0 <= x <= 2
Ejemplo:

1

top_p
number
predeterminado:1

Parámetro de muestreo nucleus

Nota:

  • Controla el muestreo de tokens con probabilidad acumulativa
  • Por ejemplo, 0.9 significa muestrear de los tokens con el 90% superior de probabilidad acumulativa
  • Valor predeterminado: 1.0 (considera todos los tokens)

Sugerencia: No ajustes temperature y top_p simultáneamente

Rango requerido: 0 <= x <= 1
Ejemplo:

0.9

top_k
integer

Parámetro de muestreo Top-K

Nota:

  • Por ejemplo, 10 limita el muestreo a los 10 tokens con mayor probabilidad
  • Valores más pequeños hacen la salida más enfocada
  • Valor predeterminado: sin límite
Rango requerido: x >= 1
Ejemplo:

40

n
integer
predeterminado:1

Número de completaciones a generar por cada mensaje de entrada

Nota:

  • Valor predeterminado: 1, máximo: 5
  • Cuando temperature es muy cercana a 0, solo se puede devolver 1 resultado
Rango requerido: 1 <= x <= 5
Ejemplo:

1

presence_penalty
number
predeterminado:0

Penalización de presencia, número entre -2.0 y 2.0

Nota:

  • Los valores positivos penalizan nuevos tokens según si aparecen en el texto, aumentando la probabilidad de discutir nuevos temas
Rango requerido: -2 <= x <= 2
Ejemplo:

0

frequency_penalty
number
predeterminado:0

Penalización de frecuencia, número entre -2.0 y 2.0

Nota:

  • Los valores positivos penalizan nuevos tokens según su frecuencia en el texto, disminuyendo la probabilidad de repetir las mismas frases textualmente
Rango requerido: -2 <= x <= 2
Ejemplo:

0

response_format
object

Configuración del formato de respuesta

Nota:

  • Establece {"type": "json_object"} para habilitar el modo JSON, asegurando que el modelo genere JSON válido
  • Al usar response_format con {"type": "json_object"}, guía explícitamente al modelo para que genere formato JSON en tu prompt
  • Valor predeterminado: {"type": "text"}
  • Advertencia: No mezcles partial mode con response_format=json_object
stop

Secuencias de parada, la generación se detiene cuando se encuentran estas secuencias

Nota:

  • Las secuencias de parada no se incluirán en la salida
  • Máximo 5 cadenas, cada una no mayor a 32 bytes
tools
object[]

Lista de herramientas para Tool Use o Function Calling

Nota:

  • Cada herramienta debe incluir un type
  • La estructura de la función debe incluir name, description y parameters
  • Máximo 128 funciones en el array tools
Maximum array length: 128

Respuesta

Completado de chat exitoso

id
string

Identificador único para la completación de chat

Ejemplo:

"cmpl-04ea926191a14749b7f2c7a48a68abc6"

model
string

El modelo utilizado para el completado

Ejemplo:

"kimi-k2-thinking"

object
enum<string>

Tipo de respuesta

Opciones disponibles:
chat.completion
Ejemplo:

"chat.completion"

created
integer

Marca de tiempo Unix cuando se creó el completado

Ejemplo:

1698999496

choices
object[]

Lista de opciones de completado

usage
object

Estadísticas de uso de tokens