DeepSeek V4 - API compatible OpenAI
- Appeler les modèles DeepSeek V4 via le protocole OpenAI Chat Completions
- Prend en charge
deepseek-v4-flash(rapide et généraliste) etdeepseek-v4-pro(raisonnement approfondi) - Conversation textuelle : dialogue contextuel en un ou plusieurs tours, prise en charge d’un contexte ultra-long de 1M
- Prompts système : personnaliser le rôle et le comportement de l’IA
- Mode de réflexion : contrôler le raisonnement approfondi via
thinking.type; le contenu de réflexion dedeepseek-v4-proest retourné viareasoning_content - Sortie en streaming : prend en charge le retour en streaming SSE
- Appel d’outils : prend en charge Function Calling (jusqu’à 128 outils)
- Mode JSON : activé via
response_format - Cache de contexte : les requêtes avec le même préfixe déclenchent automatiquement le cache, réduisant considérablement le coût d’entrée
https://direct.evolink.ai, qui offre une meilleure prise en charge des modèles de texte et des connexions persistantes. https://api.evolink.ai est le point d’accès principal pour les services multimodaux et sert d’adresse de secours pour les modèles de texte.Autorisations
##Toutes les API nécessitent une authentification Bearer Token##
Obtenir une clé API :
Visitez la Page de gestion des clés API pour obtenir votre clé API
Ajouter à l'en-tête de requête :
Authorization: Bearer YOUR_API_KEYCorps
Nom du modèle de conversation
deepseek-v4-flash: modèle rapide et généraliste, contexte de 1Mdeepseek-v4-pro: modèle de raisonnement approfondi, excelle en mathématiques, en programmation et en logique complexe
Astuce : Les deux modèles ont thinking activé par défaut, la réponse contiendra reasoning_content ; vous pouvez le désactiver via thinking.type="disabled" pour réduire le coût des tokens de sortie. Les paramètres des deux sont totalement identiques.
deepseek-v4-flash, deepseek-v4-pro "deepseek-v4-flash"
Liste des messages de conversation, prend en charge les dialogues multi-tours
Les messages de rôles différents ont des structures de champs différentes, veuillez sélectionner le rôle correspondant
1- System Message
- User Message
- Assistant Message
- Tool Message
Contrôle du mode de réflexion (nouveauté V4)
Remarque :
- Utilisé pour contrôler la fonctionnalité de réflexion approfondie (Chain of Thought)
- Activé par défaut pour les deux modèles (
type=enabled) - Une fois activé, le processus de raisonnement est retourné via
choices[].message.reasoning_contentet facturé au tarif des tokens de sortie
⚠️ Attention pour les conversations multi-tours / appels d'outils : si la réponse de ce tour contient reasoning_content, le message assistant correspondant dans l'historique messages de la requête suivante doit retourner ce champ tel quel, sinon l'API renverra 400 The reasoning_content in the thinking mode must be passed back to the API. Si vous ne souhaitez pas le gérer, vous pouvez définir explicitement thinking.type="disabled" pour toute la session.
Température d'échantillonnage, contrôle le caractère aléatoire de la sortie
Remarque :
- Valeurs basses (ex. 0.2) : sortie plus déterministe et ciblée
- Valeurs élevées (ex. 1.5) : sortie plus aléatoire et créative
- Valeur par défaut : 1
0 <= x <= 21
Paramètre d'échantillonnage nucleus (Nucleus Sampling)
Remarque :
- Contrôle l'échantillonnage à partir des tokens avec une probabilité cumulative
- Par exemple, 0.9 signifie un échantillonnage parmi les tokens ayant 90 % de probabilité cumulative
- Valeur par défaut : 1.0 (considère tous les tokens)
Suggestion : Ne pas ajuster simultanément temperature et top_p
0 <= x <= 11
Limite le nombre maximum de tokens générés
Remarque :
- La série V4 peut atteindre 384 000 tokens
- Lorsque thinking est activé, reasoning_tokens sont également comptés dans la limite max_tokens
- Si non défini, le modèle décide lui-même de la longueur générée
1 <= x <= 3840004096
Paramètre de pénalité de fréquence, utilisé pour réduire le contenu répétitif
Remarque :
- Les valeurs positives pénalisent en fonction de la fréquence d'apparition des tokens dans le texte généré
- Plus la valeur est élevée, moins le contenu déjà apparu sera répété
- Valeur par défaut : 0 (pas de pénalité)
-2 <= x <= 20
Paramètre de pénalité de présence, utilisé pour encourager la génération de nouveaux sujets
Remarque :
- Les valeurs positives pénalisent en fonction de la présence antérieure des tokens dans le texte
- Plus la valeur est élevée, plus le modèle tend à aborder de nouveaux sujets
- Valeur par défaut : 0 (pas de pénalité)
-2 <= x <= 20
Spécifier le format de la réponse
Remarque :
- Définir sur
{"type": "json_object"}pour activer le mode JSON - En mode JSON, le modèle produira un contenu au format JSON valide
- Il est recommandé de demander explicitement une sortie JSON dans le message system ou user pour obtenir les meilleurs résultats
Séquences d'arrêt, le modèle arrête la génération lorsqu'il rencontre ces chaînes
Remarque :
- Peut être une chaîne unique ou un tableau de chaînes
- Prend en charge jusqu'à 16 séquences d'arrêt
Indique si la réponse doit être retournée en streaming
true: retour en streaming, le contenu est renvoyé bloc par bloc en temps réel via SSE (Server-Sent Events)false: attendre la réponse complète et la retourner en une seule fois (par défaut)
false
Options de réponse en streaming
Valide uniquement lorsque stream=true
Liste des définitions d'outils, utilisée pour Function Calling
Remarque :
- Prend en charge jusqu'à 128 définitions d'outils
- Chaque outil doit définir un nom, une description et un schéma de paramètres
128Contrôle le comportement d'appel des outils
Valeurs possibles :
none: n'appeler aucun outilauto: le modèle décide automatiquement d'appeler ou non un outil (par défaut lorsque tools est fourni)required: force le modèle à appeler un ou plusieurs outils- Forme objet
{"type":"function","function":{"name":"xxx"}}: spécifier un outil particulier à appeler
Valeur par défaut : none si tools n'est pas fourni, auto si tools est fourni
none, auto, required Retourner ou non la probabilité logarithmique des tokens
Remarque :
- Lorsque défini sur
true, la réponse inclura les informations de probabilité logarithmique de chaque token
Retourner la probabilité logarithmique des N tokens avec la probabilité la plus élevée
Remarque :
- Nécessite
logprobsdéfini surtrue - Plage de valeurs :
[0, 20]
0 <= x <= 20Mappage de biais des tokens
Remarque :
- La clé est l'ID du token dans le tokenizer, la valeur est un biais entre -100 et 100
- -100 signifie interdire totalement ce token, 100 signifie forcer la génération
- La plage typique -1 à 1 produit déjà un effet observable
Nombre de complétions de chat à générer pour chaque message d'entrée
Remarque :
- Par défaut 1 ; lorsque défini sur N, N candidats seront retournés (facturés à N × output_tokens)
1 <= x <= 81
Graine aléatoire (Bêta)
Remarque :
- Une fois spécifiée, le modèle tentera un échantillonnage déterministe
- Même seed + mêmes autres paramètres → même sortie (garantie non à 100 %)
Identifiant unique représentant l'utilisateur final
Remarque :
- Permet à la plateforme de surveiller et détecter les abus
- Il est recommandé d'utiliser un ID utilisateur haché
Réponse
Génération de conversation réussie
Identifiant unique de la complétion de conversation
"53c548dc-ec02-4a2f-bbb6-eca4184630b8"
Nom du modèle réellement utilisé
"deepseek-v4-flash"
Type de réponse
chat.completion "chat.completion"
Horodatage de création (Unix en secondes)
1777021417
Liste des choix de génération de conversation
Statistiques d'utilisation des tokens (avec détail du cache et du raisonnement)
Identifiant d'empreinte système
"fp_evolink_v4_20260402"