curl --request POST \
  --url https://api.evolink.ai/v1/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "kimi-k2-thinking",
  "messages": [
    {
      "role": "user",
      "content": "Please introduce yourself"
    }
  ],
  "temperature": 1
}
'

{
  "id": "cmpl-04ea926191a14749b7f2c7a48a68abc6",
  "model": "kimi-k2-thinking",
  "object": "chat.completion",
  "created": 1698999496,
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hi there! How can I help you?",
        "reasoning_content": "The user just said \"hi\". This is a very simple greeting. I should be friendly, helpful, and professional in my response..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 8,
    "completion_tokens": 292,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 8
    }
  }
}

Kimi-K2

Kimi K2 - Référence API Complète

Utiliser le format SDK OpenAI pour appeler le modèle Kimi-K2
Mode de traitement synchrone, réponse en temps réel
Conversation textuelle : Dialogue contextuel en un ou plusieurs tours, voir les exemples simple_text et multi_turn
Prompts système : Personnaliser le rôle et le comportement de l’IA, voir l’exemple system_prompt
Entrée multimodale : Prend en charge l’entrée mixte texte + image, voir l’exemple vision
Appel d’outils : Prend en charge le Function Calling, voir l’exemple tool_use
Partial Mode : Prend en charge le mode prefill, voir l’exemple partial_mode

POST

chat

completions

curl --request POST \
  --url https://api.evolink.ai/v1/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "kimi-k2-thinking",
  "messages": [
    {
      "role": "user",
      "content": "Please introduce yourself"
    }
  ],
  "temperature": 1
}
'

{
  "id": "cmpl-04ea926191a14749b7f2c7a48a68abc6",
  "model": "kimi-k2-thinking",
  "object": "chat.completion",
  "created": 1698999496,
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hi there! How can I help you?",
        "reasoning_content": "The user just said \"hi\". This is a very simple greeting. I should be friendly, helpful, and professional in my response..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 8,
    "completion_tokens": 292,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 8
    }
  }
}

Autorisations

Authorization

string

header

requis

##Toutes les API nécessitent une authentification Bearer Token##

Obtenir une clé API :

Visitez la Page de gestion des clés API pour obtenir votre clé API

Ajouter à l'en-tête de requête :

Authorization: Bearer YOUR_API_KEY

Corps

application/json

model

enum<string>

requis

Nom du modèle pour la complétion de chat

Options disponibles:

kimi-k2-thinking,

kimi-k2-thinking-turbo

Exemple:

"kimi-k2-thinking"

messages

object[]

requis

Liste des messages pour la conversation, prend en charge le dialogue multi-tours et l'entrée multimodale

Minimum array length: 1

Afficher attributs enfants

stream

boolean

défaut:false

Indique si la réponse doit être en streaming

true : Réponse en streaming, retourne le contenu fragment par fragment en temps réel
false : Attendre la réponse complète et la retourner en une seule fois

Exemple:

false

max_tokens

integer

Nombre maximum de tokens à générer dans la réponse

Remarque :

Une valeur trop faible peut entraîner une réponse tronquée
Si le nombre maximum de tokens est atteint, finish_reason sera "length", sinon "stop"

Plage requise: x >= 1

Exemple:

2000

temperature

number

défaut:1

Température d'échantillonnage, contrôle le caractère aléatoire de la sortie

Remarque :

Valeurs basses (ex. 0.2) : Sortie plus déterministe et ciblée
Valeurs élevées (ex. 1.5) : Sortie plus aléatoire et créative
Valeur recommandée pour la série kimi-k2-thinking : 1.0

Plage requise: 0 <= x <= 2

Exemple:

1

top_p

number

défaut:1

Paramètre d'échantillonnage nucleus

Remarque :

Contrôle l'échantillonnage à partir des tokens avec une probabilité cumulative
Par exemple, 0.9 signifie un échantillonnage parmi les tokens ayant les 90 % de probabilité cumulative les plus élevés
Par défaut : 1.0 (considère tous les tokens)

Suggestion : Ne pas ajuster simultanément temperature et top_p

Plage requise: 0 <= x <= 1

Exemple:

0.9

top_k

integer

Paramètre d'échantillonnage Top-K

Remarque :

Par exemple, 10 limite l'échantillonnage aux 10 tokens ayant la probabilité la plus élevée
Des valeurs plus petites rendent la sortie plus ciblée
Par défaut : sans limite

Plage requise: x >= 1

Exemple:

40

integer

défaut:1

Nombre de complétions à générer pour chaque message d'entrée

Remarque :

Par défaut : 1, maximum : 5
Lorsque la température est très proche de 0, un seul résultat peut être retourné

Plage requise: 1 <= x <= 5

Exemple:

1

presence_penalty

number

défaut:0

Pénalité de présence, nombre entre -2.0 et 2.0

Remarque :

Les valeurs positives pénalisent les nouveaux tokens en fonction de leur apparition dans le texte, augmentant la probabilité d'aborder de nouveaux sujets

Plage requise: -2 <= x <= 2

Exemple:

0

frequency_penalty

number

défaut:0

Pénalité de fréquence, nombre entre -2.0 et 2.0

Remarque :

Les valeurs positives pénalisent les nouveaux tokens en fonction de leur fréquence dans le texte, réduisant la probabilité de répéter les mêmes phrases mot pour mot

Plage requise: -2 <= x <= 2

Exemple:

0

response_format

object

Paramètres du format de réponse

Remarque :

Définir sur {"type": "json_object"} pour activer le mode JSON, garantissant que le modèle génère du JSON valide
Lors de l'utilisation de response_format avec {"type": "json_object"}, guidez explicitement le modèle pour produire un format JSON dans votre prompt
Par défaut : {"type": "text"}
Avertissement : Ne pas mélanger le partial mode avec response_format=json_object

Afficher attributs enfants

stop

Séquences d'arrêt, la génération s'arrête lorsque ces séquences sont détectées

Remarque :

Les séquences d'arrêt elles-mêmes ne seront pas incluses dans la sortie
Maximum 5 chaînes, chacune ne dépassant pas 32 octets

tools

object[]

Liste d'outils pour Tool Use ou Function Calling

Remarque :

Chaque outil doit inclure un type
La structure de la fonction doit inclure name, description et parameters
Maximum 128 fonctions dans le tableau tools

Maximum array length: 128

Afficher attributs enfants

Réponse

Complétion de chat réussie

string

Identifiant unique pour la complétion de chat

Exemple:

"cmpl-04ea926191a14749b7f2c7a48a68abc6"

model

string

Le modèle utilisé pour la complétion

Exemple:

"kimi-k2-thinking"

object

enum<string>

Type de réponse

Options disponibles:

chat.completion

Exemple:

"chat.completion"

created

integer

Horodatage Unix de la création de la complétion

Exemple:

1698999496

choices

object[]

Liste des choix de complétion

Afficher attributs enfants

usage

object

Statistiques d'utilisation des jetons

Afficher attributs enfants

DeepSeek - Référence API complète Obtenir l'utilisation des crédits

Série Image

Série Vidéo

Série Audio

Série Texte

Gestion du compte

Gestion des tâches

Gestion des fichiers

Kimi K2 - Référence API Complète

Autorisations

Corps

Réponse