利用フロー:
result_data.voice(音声名)を取得するvoice パラメータを渡して音声合成を行う##すべてのインターフェースは Bearer Token による認証が必要です##
API キーの取得:
API キー管理ページ にアクセスして API キーを取得してください
リクエストヘッダーに以下を追加してください:
Authorization: Bearer YOUR_API_KEY
モデル名
qwen-voice-design "qwen-voice-design"
音声の特徴説明(音色の定義に使用)
制約:
2048 文字説明の推奨ディメンション:
推奨の書き方例:
落ち着いた中年男性、ゆっくりとした話速、低くて磁力感のある声、ニュースや記録映画のナレーションに最適かわいい子どもの声、約8歳の女の子、少し幼い話し方、アニメキャラクターの吹き替えに最適穏やかで知性的な女性、30歳前後、落ち着いた話し方、オーディオブックの朗読に最適2048"落ち着いた中年男性アナウンサー、低くて重厚な声、磁力感があり、安定したペース、明瞭な発音"
試聴音声を生成するためのプレビューテキスト
制約:
1024 文字language パラメータの言語と一致させることを推奨1024"リスナーの皆さん、こんばんは。夜のニュースをお届けします。"
音声名のプレフィックス
制約:
16 文字以内生成される完全な音声名の形式:qwen-tts-vd-{preferred_name}-voice-{timestamp}
announcer を入力した場合、最終的な音声名は例えば qwen-tts-vd-announcer-voice-20260402-a1b2 のようになります
16^[a-zA-Z0-9_]+$"announcer"
音声の言語傾向。preview_text の言語と一致させることを推奨
指定しない場合、上流はデフォルト値 zh を使用します
zh, en, ja, ko, de, fr, it, ru, pt, es "ja"
プレビュー音声のサンプリングレート(Hz)
指定しない場合、上流はデフォルト値 24000 を使用します
8000, 16000, 24000, 48000 24000
プレビュー音声のフォーマット
指定しない場合、上流はデフォルト値 wav を使用します
pcm, wav, mp3, opus "wav"
作成した音声を駆動する TTS モデル
重要: 音声作成時に指定した target_model は、後続の音声合成で使用するモデルと一致させる必要があります。一致しない場合、合成が失敗します
| 値 | 説明 |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD 非ストリーミング(デフォルト) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime 双方向ストリーミング(新バージョン) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime 双方向ストリーミング(旧バージョン) |
現在、本プラットフォームは
qwen3-tts-vd-2026-01-26(非ストリーミング)を統合済みです。realtime モデルはまだ統合されていませんが、事前に音声を作成しておくことは可能です
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
タスク完了後の HTTPS コールバック URL
コールバックのタイミング:
セキュリティ制限:
2048 文字以内コールバックの仕組み:
10 秒3 回リトライ(失敗後それぞれ 1 秒 / 2 秒 / 4 秒後にリトライ)"https://your-domain.com/webhooks/voice-design-completed"
ボイスデザインタスクの作成に成功
タスク作成タイムスタンプ
1775123456
タスク ID
"task-unified-1775123456-abcd1234"
実際に使用されたモデル名
"qwen-voice-design"
タスクの具体的なタイプ
audio.generation.task タスクの進捗率 (0-100)
0 <= x <= 1000
タスクのステータス
pending, processing, completed, failed "pending"
音声タスクの詳細情報
タスクの出力タイプ
audio "audio"
使用量と課金情報