메인 콘텐츠로 건너뛰기
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "qwen-voice-design",
  "voice_prompt": "침착한 중년 남성 아나운서, 낮고 중후한 음색, 자기력 있는 목소리, 안정적인 속도, 명확한 발음",
  "preview_text": "청취자 여러분, 안녕하세요. 저녁 뉴스를 시청해 주셔서 감사합니다.",
  "preferred_name": "announcer"
}
'
{
  "created": 1775123456,
  "id": "task-unified-1775123456-abcd1234",
  "model": "qwen-voice-design",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "voice_design"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 2
  }
}

인증

Authorization
string
header
필수

##모든 인터페이스는 Bearer Token 인증이 필요합니다##

API Key 발급:

API Key 관리 페이지에서 API Key를 발급받으세요

요청 헤더에 다음을 추가하세요:

Authorization: Bearer YOUR_API_KEY

본문

application/json
model
enum<string>
기본값:qwen-voice-design
필수

모델 이름

사용 가능한 옵션:
qwen-voice-design
예시:

"qwen-voice-design"

voice_prompt
string
필수

음색을 정의하기 위한 음성 특성 설명

제약:

  • 최대 2048
  • 중국어와 영어만 지원

설명 차원 권장:

  • 성별: 남성, 여성, 중성
  • 연령: 어린이(5-12), 청소년(13-18), 청년(19-35), 중년(36-55), 노년(55+)
  • 음조: 고음, 중음, 저음
  • 속도: 빠름, 중간, 느림
  • 감성: 밝음, 침착, 부드러움, 엄숙, 활발, 차분
  • 특징: 자기력, 청아함, 허스키, 풍부함, 달콤함, 중후함
  • 용도: 뉴스 방송, 광고 더빙, 오디오북, 애니메이션 캐릭터, 음성 어시스턴트

권장 작성 예시:

  • 침착한 중년 남성, 느린 속도, 낮고 자기력 있는 음색, 뉴스 또는 다큐멘터리 해설에 적합
  • 귀여운 어린이 목소리, 약 8세 여자아이, 약간 유치한 말투, 애니메이션 캐릭터 더빙에 적합
  • 부드럽고 지적인 여성, 30대 전후, 평온한 어조, 오디오북 낭독에 적합
Maximum string length: 2048
예시:

"침착한 중년 남성 아나운서, 낮고 중후한 음색, 자기력 있는 목소리, 안정적인 속도, 명확한 발음"

preview_text
string
필수

미리보기 오디오를 생성하기 위한 미리보기 텍스트

제약:

  • 최대 1024
  • 10가지 언어 지원: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 이탈리아어, 러시아어, 포르투갈어, 스페인어
  • language 언어와 일치하도록 권장
Maximum string length: 1024
예시:

"청취자 여러분, 안녕하세요. 저녁 뉴스를 시청해 주셔서 감사합니다."

preferred_name
string
필수

음색 이름 접두사

제약:

  • 숫자, 영문자, 밑줄만 허용
  • 16자 이하

생성되는 전체 음색 이름 형식: qwen-tts-vd-{preferred_name}-voice-{timestamp}

announcer를 입력하면 최종 음색 이름은 다음과 같습니다: qwen-tts-vd-announcer-voice-20260402-a1b2

Maximum string length: 16
Pattern: ^[a-zA-Z0-9_]+$
예시:

"announcer"

language
enum<string>

음색의 언어 성향, preview_text 언어와 일치하도록 권장

미전달 시 업스트림 기본값 zh 사용

사용 가능한 옵션:
zh,
en,
ja,
ko,
de,
fr,
it,
ru,
pt,
es
예시:

"zh"

sample_rate
enum<integer>

미리보기 오디오 샘플링 레이트(Hz)

미전달 시 업스트림 기본값 24000 사용

사용 가능한 옵션:
8000,
16000,
24000,
48000
예시:

24000

response_format
enum<string>

미리보기 오디오 형식

미전달 시 업스트림 기본값 wav 사용

사용 가능한 옵션:
pcm,
wav,
mp3,
opus
예시:

"wav"

target_model
enum<string>
기본값:qwen3-tts-vd-2026-01-26

생성된 음색을 구동할 TTS 모델

중요: 음색 생성 시 지정한 target_model은 이후 음성 합성 시 사용하는 모델과 반드시 일치해야 하며, 그렇지 않으면 합성이 실패합니다

설명
qwen3-tts-vd-2026-01-26Qwen3-TTS-VD 비스트리밍(기본값)
qwen3-tts-vd-realtime-2026-01-15Qwen3-TTS-VD-Realtime 양방향 스트리밍(신버전)
qwen3-tts-vd-realtime-2025-12-16Qwen3-TTS-VD-Realtime 양방향 스트리밍(구버전)

현재 본 플랫폼은 qwen3-tts-vd-2026-01-26(비스트리밍)을 지원하며, realtime 모델은 아직 미지원이지만 음색 사전 생성은 가능합니다

사용 가능한 옵션:
qwen3-tts-vd-2026-01-26,
qwen3-tts-vd-realtime-2026-01-15,
qwen3-tts-vd-realtime-2025-12-16
예시:

"qwen3-tts-vd-2026-01-26"

callback_url
string<uri>

작업 완료 후 HTTPS 콜백 주소

콜백 시점:

  • 작업 완료(completed), 실패(failed) 또는 취소(cancelled) 시 트리거
  • 과금 확인 완료 후 발송

보안 제한:

  • HTTPS 프로토콜만 지원
  • 내부 IP 주소로의 콜백 금지(127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x 등)
  • URL 길이 2048자 이하

콜백 메커니즘:

  • 타임아웃: 10
  • 실패 후 최대 3회 재시도(각각 실패 후 1초/2초/4초 후 재시도)
  • 콜백 응답 본문 형식은 작업 조회 인터페이스 반환 형식과 동일
  • 콜백 주소가 2xx 상태 코드를 반환하면 성공으로 간주, 그 외 상태 코드는 재시도 트리거
예시:

"https://your-domain.com/webhooks/voice-design-completed"

응답

음성 디자인 작업 생성 성공

created
integer

작업 생성 타임스탬프

예시:

1775123456

id
string

작업 ID

예시:

"task-unified-1775123456-abcd1234"

model
string

실제 사용된 모델 이름

예시:

"qwen-voice-design"

object
enum<string>

작업의 구체적인 유형

사용 가능한 옵션:
audio.generation.task
progress
integer

작업 진행률 (0-100)

필수 범위: 0 <= x <= 100
예시:

0

status
enum<string>

작업 상태

사용 가능한 옵션:
pending,
processing,
completed,
failed
예시:

"pending"

task_info
object

오디오 작업 상세 정보

type
enum<string>

작업의 출력 유형

사용 가능한 옵션:
audio
예시:

"audio"

usage
object

사용량 및 과금 정보