메인 콘텐츠로 건너뛰기
POST
/
v1
/
chat
/
completions
curl --request POST \
  --url https://api.evolink.ai/v1/chat/completions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "kimi-k2-thinking",
  "messages": [
    {
      "role": "user",
      "content": "Please introduce yourself"
    }
  ],
  "temperature": 1
}
'
{
  "id": "cmpl-04ea926191a14749b7f2c7a48a68abc6",
  "model": "kimi-k2-thinking",
  "object": "chat.completion",
  "created": 1698999496,
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Hi there! How can I help you?",
        "reasoning_content": "The user just said \"hi\". This is a very simple greeting. I should be friendly, helpful, and professional in my response..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 8,
    "completion_tokens": 292,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 8
    }
  }
}

인증

Authorization
string
header
필수

##모든 API는 Bearer Token 인증이 필요합니다##

API Key 받기:

API Key 관리 페이지를 방문하여 API Key를 받으세요

요청 헤더에 추가:

Authorization: Bearer YOUR_API_KEY

본문

application/json
model
enum<string>
필수

채팅 완료를 위한 모델 이름

사용 가능한 옵션:
kimi-k2-thinking,
kimi-k2-thinking-turbo
예시:

"kimi-k2-thinking"

messages
object[]
필수

대화를 위한 메시지 목록, 다중 턴 대화 및 멀티모달 입력 지원

Minimum array length: 1
stream
boolean
기본값:false

응답을 스트리밍할지 여부

  • true: 스트림 응답, 실시간으로 청크 단위로 내용 반환
  • false: 완전한 응답을 기다린 후 한 번에 반환
예시:

false

max_tokens
integer

응답에서 생성할 최대 토큰 수

참고:

  • 값이 너무 작으면 응답이 잘릴 수 있습니다
  • 최대 토큰에 도달하면 finish_reason이 "length"가 되고, 그렇지 않으면 "stop"이 됩니다
필수 범위: x >= 1
예시:

2000

temperature
number
기본값:1

샘플링 온도, 출력의 무작위성을 제어합니다

참고:

  • 낮은 값 (예: 0.2): 더 결정적이고 집중된 출력
  • 높은 값 (예: 1.5): 더 무작위적이고 창의적인 출력
  • kimi-k2-thinking 시리즈 권장 값: 1.0
필수 범위: 0 <= x <= 2
예시:

1

top_p
number
기본값:1

Nucleus 샘플링 매개변수

참고:

  • 누적 확률을 기반으로 토큰 샘플링을 제어합니다
  • 예를 들어, 0.9는 상위 90% 누적 확률의 토큰에서 샘플링합니다
  • 기본값: 1.0 (모든 토큰 고려)

권장사항: temperature와 top_p를 동시에 조정하지 마세요

필수 범위: 0 <= x <= 1
예시:

0.9

top_k
integer

Top-K 샘플링 매개변수

참고:

  • 예를 들어, 10은 확률이 가장 높은 상위 10개 토큰으로 샘플링을 제한합니다
  • 값이 작을수록 출력이 더 집중됩니다
  • 기본값: 제한 없음
필수 범위: x >= 1
예시:

40

n
integer
기본값:1

각 입력 메시지에 대해 생성할 완성 수

참고:

  • 기본값: 1, 최대: 5
  • temperature가 0에 매우 가까울 때는 1개의 결과만 반환됩니다
필수 범위: 1 <= x <= 5
예시:

1

presence_penalty
number
기본값:0

존재 페널티, -2.0에서 2.0 사이의 숫자

참고:

  • 양수 값은 텍스트에 나타나는지 여부에 따라 새 토큰에 페널티를 부여하여 새로운 주제를 논의할 가능성을 높입니다
필수 범위: -2 <= x <= 2
예시:

0

frequency_penalty
number
기본값:0

빈도 페널티, -2.0에서 2.0 사이의 숫자

참고:

  • 양수 값은 텍스트에서의 빈도에 따라 새 토큰에 페널티를 부여하여 동일한 문구를 그대로 반복할 가능성을 줄입니다
필수 범위: -2 <= x <= 2
예시:

0

response_format
object

응답 형식 설정

참고:

  • {"type": "json_object"}로 설정하면 JSON 모드가 활성화되어 모델이 유효한 JSON을 생성합니다
  • {"type": "json_object"}와 함께 response_format을 사용할 때 프롬프트에서 모델이 JSON 형식으로 출력하도록 명시적으로 안내하세요
  • 기본값: {"type": "text"}
  • 경고: partial mode와 response_format=json_object를 혼합하지 마세요
stop

중지 시퀀스, 이 시퀀스가 일치하면 생성이 중지됩니다

참고:

  • 중지 시퀀스 자체는 출력에 포함되지 않습니다
  • 최대 5개 문자열, 각각 32바이트 이하
tools
object[]

Tool Use 또는 Function Calling을 위한 도구 목록

참고:

  • 각 도구에는 type이 포함되어야 합니다
  • function 구조에는 name, description, parameters가 포함되어야 합니다
  • tools 배열에 최대 128개의 함수
Maximum array length: 128

응답

채팅 완료 성공

id
string

채팅 완성의 고유 식별자

예시:

"cmpl-04ea926191a14749b7f2c7a48a68abc6"

model
string

완료에 사용된 모델

예시:

"kimi-k2-thinking"

object
enum<string>

응답 유형

사용 가능한 옵션:
chat.completion
예시:

"chat.completion"

created
integer

완료가 생성된 Unix 타임스탬프

예시:

1698999496

choices
object[]

완료 선택 목록

usage
object

토큰 사용 통계