사용 흐름:
result_data.voice(음색 이름) 획득voice 파라미터를 전달하여 음성 합성##모든 인터페이스는 Bearer Token 인증이 필요합니다##
API Key 발급:
API Key 관리 페이지에서 API Key를 발급받으세요
요청 헤더에 다음을 추가하세요:
Authorization: Bearer YOUR_API_KEY모델 이름
qwen-voice-design "qwen-voice-design"
음색을 정의하기 위한 음성 특성 설명
제약:
2048자설명 차원 권장:
권장 작성 예시:
침착한 중년 남성, 느린 속도, 낮고 자기력 있는 음색, 뉴스 또는 다큐멘터리 해설에 적합귀여운 어린이 목소리, 약 8세 여자아이, 약간 유치한 말투, 애니메이션 캐릭터 더빙에 적합부드럽고 지적인 여성, 30대 전후, 평온한 어조, 오디오북 낭독에 적합2048"침착한 중년 남성 아나운서, 낮고 중후한 음색, 자기력 있는 목소리, 안정적인 속도, 명확한 발음"
미리보기 오디오를 생성하기 위한 미리보기 텍스트
제약:
1024자language 언어와 일치하도록 권장1024"청취자 여러분, 안녕하세요. 저녁 뉴스를 시청해 주셔서 감사합니다."
음색 이름 접두사
제약:
16자 이하생성되는 전체 음색 이름 형식: qwen-tts-vd-{preferred_name}-voice-{timestamp}
announcer를 입력하면 최종 음색 이름은 다음과 같습니다: qwen-tts-vd-announcer-voice-20260402-a1b2
16^[a-zA-Z0-9_]+$"announcer"
음색의 언어 성향, preview_text 언어와 일치하도록 권장
미전달 시 업스트림 기본값 zh 사용
zh, en, ja, ko, de, fr, it, ru, pt, es "zh"
미리보기 오디오 샘플링 레이트(Hz)
미전달 시 업스트림 기본값 24000 사용
8000, 16000, 24000, 48000 24000
미리보기 오디오 형식
미전달 시 업스트림 기본값 wav 사용
pcm, wav, mp3, opus "wav"
생성된 음색을 구동할 TTS 모델
중요: 음색 생성 시 지정한 target_model은 이후 음성 합성 시 사용하는 모델과 반드시 일치해야 하며, 그렇지 않으면 합성이 실패합니다
| 값 | 설명 |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD 비스트리밍(기본값) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime 양방향 스트리밍(신버전) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime 양방향 스트리밍(구버전) |
현재 본 플랫폼은
qwen3-tts-vd-2026-01-26(비스트리밍)을 지원하며, realtime 모델은 아직 미지원이지만 음색 사전 생성은 가능합니다
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
작업 완료 후 HTTPS 콜백 주소
콜백 시점:
보안 제한:
2048자 이하콜백 메커니즘:
10초3회 재시도(각각 실패 후 1초/2초/4초 후 재시도)"https://your-domain.com/webhooks/voice-design-completed"
음성 디자인 작업 생성 성공
작업 생성 타임스탬프
1775123456
작업 ID
"task-unified-1775123456-abcd1234"
실제 사용된 모델 이름
"qwen-voice-design"
작업의 구체적인 유형
audio.generation.task 작업 진행률 (0-100)
0 <= x <= 1000
작업 상태
pending, processing, completed, failed "pending"
오디오 작업 상세 정보
작업의 출력 유형
audio "audio"
사용량 및 과금 정보