Passer au contenu principal
POST
/
v1
/
chat
/
completions
curl --request POST \
  --url https://api.evolink.ai/v1/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "kimi-k2-thinking",
  "messages": [
    {
      "role": "user",
      "content": "Please introduce yourself"
    }
  ],
  "temperature": 1
}
'
{
  "id": "cmpl-04ea926191a14749b7f2c7a48a68abc6",
  "model": "kimi-k2-thinking",
  "object": "chat.completion",
  "created": 1698999496,
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hi there! How can I help you?",
        "reasoning_content": "The user just said \"hi\". This is a very simple greeting. I should be friendly, helpful, and professional in my response..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 8,
    "completion_tokens": 292,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 8
    }
  }
}

Autorisations

Authorization
string
header
requis

##Toutes les API nécessitent une authentification Bearer Token##

Obtenir une clé API :

Visitez la Page de gestion des clés API pour obtenir votre clé API

Ajouter à l'en-tête de requête :

Authorization: Bearer YOUR_API_KEY

Corps

application/json
model
enum<string>
requis

Nom du modèle pour la complétion de chat

Options disponibles:
kimi-k2-thinking,
kimi-k2-thinking-turbo
Exemple:

"kimi-k2-thinking"

messages
object[]
requis

Liste des messages pour la conversation, prend en charge le dialogue multi-tours et l'entrée multimodale

Minimum array length: 1
stream
boolean
défaut:false

Indique si la réponse doit être en streaming

  • true : Réponse en streaming, retourne le contenu fragment par fragment en temps réel
  • false : Attendre la réponse complète et la retourner en une seule fois
Exemple:

false

max_tokens
integer

Nombre maximum de tokens à générer dans la réponse

Remarque :

  • Une valeur trop faible peut entraîner une réponse tronquée
  • Si le nombre maximum de tokens est atteint, finish_reason sera "length", sinon "stop"
Plage requise: x >= 1
Exemple:

2000

temperature
number
défaut:1

Température d'échantillonnage, contrôle le caractère aléatoire de la sortie

Remarque :

  • Valeurs basses (ex. 0.2) : Sortie plus déterministe et ciblée
  • Valeurs élevées (ex. 1.5) : Sortie plus aléatoire et créative
  • Valeur recommandée pour la série kimi-k2-thinking : 1.0
Plage requise: 0 <= x <= 2
Exemple:

1

top_p
number
défaut:1

Paramètre d'échantillonnage nucleus

Remarque :

  • Contrôle l'échantillonnage à partir des tokens avec une probabilité cumulative
  • Par exemple, 0.9 signifie un échantillonnage parmi les tokens ayant les 90 % de probabilité cumulative les plus élevés
  • Par défaut : 1.0 (considère tous les tokens)

Suggestion : Ne pas ajuster simultanément temperature et top_p

Plage requise: 0 <= x <= 1
Exemple:

0.9

top_k
integer

Paramètre d'échantillonnage Top-K

Remarque :

  • Par exemple, 10 limite l'échantillonnage aux 10 tokens ayant la probabilité la plus élevée
  • Des valeurs plus petites rendent la sortie plus ciblée
  • Par défaut : sans limite
Plage requise: x >= 1
Exemple:

40

n
integer
défaut:1

Nombre de complétions à générer pour chaque message d'entrée

Remarque :

  • Par défaut : 1, maximum : 5
  • Lorsque la température est très proche de 0, un seul résultat peut être retourné
Plage requise: 1 <= x <= 5
Exemple:

1

presence_penalty
number
défaut:0

Pénalité de présence, nombre entre -2.0 et 2.0

Remarque :

  • Les valeurs positives pénalisent les nouveaux tokens en fonction de leur apparition dans le texte, augmentant la probabilité d'aborder de nouveaux sujets
Plage requise: -2 <= x <= 2
Exemple:

0

frequency_penalty
number
défaut:0

Pénalité de fréquence, nombre entre -2.0 et 2.0

Remarque :

  • Les valeurs positives pénalisent les nouveaux tokens en fonction de leur fréquence dans le texte, réduisant la probabilité de répéter les mêmes phrases mot pour mot
Plage requise: -2 <= x <= 2
Exemple:

0

response_format
object

Paramètres du format de réponse

Remarque :

  • Définir sur {"type": "json_object"} pour activer le mode JSON, garantissant que le modèle génère du JSON valide
  • Lors de l'utilisation de response_format avec {"type": "json_object"}, guidez explicitement le modèle pour produire un format JSON dans votre prompt
  • Par défaut : {"type": "text"}
  • Avertissement : Ne pas mélanger le partial mode avec response_format=json_object
stop

Séquences d'arrêt, la génération s'arrête lorsque ces séquences sont détectées

Remarque :

  • Les séquences d'arrêt elles-mêmes ne seront pas incluses dans la sortie
  • Maximum 5 chaînes, chacune ne dépassant pas 32 octets
tools
object[]

Liste d'outils pour Tool Use ou Function Calling

Remarque :

  • Chaque outil doit inclure un type
  • La structure de la fonction doit inclure name, description et parameters
  • Maximum 128 fonctions dans le tableau tools
Maximum array length: 128

Réponse

Complétion de chat réussie

id
string

Identifiant unique pour la complétion de chat

Exemple:

"cmpl-04ea926191a14749b7f2c7a48a68abc6"

model
string

Le modèle utilisé pour la complétion

Exemple:

"kimi-k2-thinking"

object
enum<string>

Type de réponse

Options disponibles:
chat.completion
Exemple:

"chat.completion"

created
integer

Horodatage Unix de la création de la complétion

Exemple:

1698999496

choices
object[]

Liste des choix de complétion

usage
object

Statistiques d'utilisation des jetons