Qwen Voice Design
- 텍스트 설명을 통해 커스텀 음색을 생성하고, 음색 이름과 미리보기 오디오를 반환합니다
- Qwen3 TTS VD 음성 합성은 반드시 본 인터페이스로 생성된 음색을 사용해야 하며, 시스템 기본 음색은 지원하지 않습니다
- 비동기 처리 모드이며, 반환된 작업 ID로 조회할 수 있습니다
- 생성된 오디오 링크의 유효 기간은 24시간이므로 빠르게 저장하십시오
사용 흐름:
- 본 인터페이스를 호출하여 음색 생성
- 작업 결과를 폴링하여
result_data.voice(음색 이름) 획득 - Qwen3 TTS VD를 호출하고
voice파라미터를 전달하여 음성 합성
인증
##모든 인터페이스는 Bearer Token 인증이 필요합니다##
API Key 발급:
API Key 관리 페이지에서 API Key를 발급받으세요
요청 헤더에 다음을 추가하세요:
Authorization: Bearer YOUR_API_KEY본문
모델 이름
qwen-voice-design "qwen-voice-design"
음색을 정의하기 위한 음성 특성 설명
제약:
- 최대
2048자 - 중국어와 영어만 지원
설명 차원 권장:
- 성별: 남성, 여성, 중성
- 연령: 어린이(5-12), 청소년(13-18), 청년(19-35), 중년(36-55), 노년(55+)
- 음조: 고음, 중음, 저음
- 속도: 빠름, 중간, 느림
- 감성: 밝음, 침착, 부드러움, 엄숙, 활발, 차분
- 특징: 자기력, 청아함, 허스키, 풍부함, 달콤함, 중후함
- 용도: 뉴스 방송, 광고 더빙, 오디오북, 애니메이션 캐릭터, 음성 어시스턴트
권장 작성 예시:
침착한 중년 남성, 느린 속도, 낮고 자기력 있는 음색, 뉴스 또는 다큐멘터리 해설에 적합귀여운 어린이 목소리, 약 8세 여자아이, 약간 유치한 말투, 애니메이션 캐릭터 더빙에 적합부드럽고 지적인 여성, 30대 전후, 평온한 어조, 오디오북 낭독에 적합
2048"침착한 중년 남성 아나운서, 낮고 중후한 음색, 자기력 있는 목소리, 안정적인 속도, 명확한 발음"
미리보기 오디오를 생성하기 위한 미리보기 텍스트
제약:
- 최대
1024자 - 10가지 언어 지원: 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 이탈리아어, 러시아어, 포르투갈어, 스페인어
language언어와 일치하도록 권장
1024"청취자 여러분, 안녕하세요. 저녁 뉴스를 시청해 주셔서 감사합니다."
음색 이름 접두사
제약:
- 숫자, 영문자, 밑줄만 허용
16자 이하
생성되는 전체 음색 이름 형식: qwen-tts-vd-{preferred_name}-voice-{timestamp}
announcer를 입력하면 최종 음색 이름은 다음과 같습니다: qwen-tts-vd-announcer-voice-20260402-a1b2
16^[a-zA-Z0-9_]+$"announcer"
음색의 언어 성향, preview_text 언어와 일치하도록 권장
미전달 시 업스트림 기본값 zh 사용
zh, en, ja, ko, de, fr, it, ru, pt, es "zh"
미리보기 오디오 샘플링 레이트(Hz)
미전달 시 업스트림 기본값 24000 사용
8000, 16000, 24000, 48000 24000
미리보기 오디오 형식
미전달 시 업스트림 기본값 wav 사용
pcm, wav, mp3, opus "wav"
생성된 음색을 구동할 TTS 모델
중요: 음색 생성 시 지정한 target_model은 이후 음성 합성 시 사용하는 모델과 반드시 일치해야 하며, 그렇지 않으면 합성이 실패합니다
| 값 | 설명 |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD 비스트리밍(기본값) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime 양방향 스트리밍(신버전) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime 양방향 스트리밍(구버전) |
현재 본 플랫폼은
qwen3-tts-vd-2026-01-26(비스트리밍)을 지원하며, realtime 모델은 아직 미지원이지만 음색 사전 생성은 가능합니다
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
작업 완료 후 HTTPS 콜백 주소
콜백 시점:
- 작업 완료(completed), 실패(failed) 또는 취소(cancelled) 시 트리거
- 과금 확인 완료 후 발송
보안 제한:
- HTTPS 프로토콜만 지원
- 내부 IP 주소로의 콜백 금지(127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x 등)
- URL 길이
2048자 이하
콜백 메커니즘:
- 타임아웃:
10초 - 실패 후 최대
3회 재시도(각각 실패 후1초/2초/4초 후 재시도) - 콜백 응답 본문 형식은 작업 조회 인터페이스 반환 형식과 동일
- 콜백 주소가 2xx 상태 코드를 반환하면 성공으로 간주, 그 외 상태 코드는 재시도 트리거
"https://your-domain.com/webhooks/voice-design-completed"
응답
음성 디자인 작업 생성 성공
작업 생성 타임스탬프
1775123456
작업 ID
"task-unified-1775123456-abcd1234"
실제 사용된 모델 이름
"qwen-voice-design"
작업의 구체적인 유형
audio.generation.task 작업 진행률 (0-100)
0 <= x <= 1000
작업 상태
pending, processing, completed, failed "pending"
오디오 작업 상세 정보
작업의 출력 유형
audio "audio"
사용량 및 과금 정보