Qwen Voice Design
- テキスト説明からカスタム音声を作成し、音声名とプレビュー音声を返します
- Qwen3 TTS VD の音声合成では本インターフェースで作成した音声を必ず使用してください。システム内蔵音声はサポートしていません
- 非同期処理モード:返却されたタスクIDを使って結果を照会してください
- 生成された音声リンクの有効期間は24時間です。速やかに保存してください
利用フロー:
- 本インターフェースを呼び出して音声を作成する
- タスク結果をポーリングして
result_data.voice(音声名)を取得する - Qwen3 TTS VD に
voiceパラメータを渡して音声合成を行う
承認
##すべてのインターフェースは Bearer Token による認証が必要です##
API キーの取得:
API キー管理ページ にアクセスして API キーを取得してください
リクエストヘッダーに以下を追加してください:
Authorization: Bearer YOUR_API_KEYボディ
モデル名
qwen-voice-design "qwen-voice-design"
音声の特徴説明(音色の定義に使用)
制約:
- 最大
2048文字 - 中国語と英語のみサポート
説明の推奨ディメンション:
- 性別:男性、女性、中性
- 年齢:子供 (5-12歳)、ティーンエイジャー (13-18歳)、青年 (19-35歳)、中年 (36-55歳)、シニア (55歳以上)
- 音域:高音、中音、低音
- 話速:速い、普通、ゆっくり
- 感情:明るい、落ち着いた、穏やか、真剣、活発、冷静
- 特徴:磁力感がある、澄んでいる、しゃがれた、まろやか、甘い、重厚
- 用途:ニュース読み上げ、CM ナレーション、オーディオブック、アニメキャラクター、音声アシスタント
推奨の書き方例:
落ち着いた中年男性、ゆっくりとした話速、低くて磁力感のある声、ニュースや記録映画のナレーションに最適かわいい子どもの声、約8歳の女の子、少し幼い話し方、アニメキャラクターの吹き替えに最適穏やかで知性的な女性、30歳前後、落ち着いた話し方、オーディオブックの朗読に最適
2048"落ち着いた中年男性アナウンサー、低くて重厚な声、磁力感があり、安定したペース、明瞭な発音"
試聴音声を生成するためのプレビューテキスト
制約:
- 最大
1024文字 - 10言語をサポート:中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、ロシア語、ポルトガル語、スペイン語
languageパラメータの言語と一致させることを推奨
1024"リスナーの皆さん、こんばんは。夜のニュースをお届けします。"
音声名のプレフィックス
制約:
- 数字、英字、アンダースコアのみ使用可能
16文字以内
生成される完全な音声名の形式:qwen-tts-vd-{preferred_name}-voice-{timestamp}
announcer を入力した場合、最終的な音声名は例えば qwen-tts-vd-announcer-voice-20260402-a1b2 のようになります
16^[a-zA-Z0-9_]+$"announcer"
音声の言語傾向。preview_text の言語と一致させることを推奨
指定しない場合、上流はデフォルト値 zh を使用します
zh, en, ja, ko, de, fr, it, ru, pt, es "ja"
プレビュー音声のサンプリングレート(Hz)
指定しない場合、上流はデフォルト値 24000 を使用します
8000, 16000, 24000, 48000 24000
プレビュー音声のフォーマット
指定しない場合、上流はデフォルト値 wav を使用します
pcm, wav, mp3, opus "wav"
作成した音声を駆動する TTS モデル
重要: 音声作成時に指定した target_model は、後続の音声合成で使用するモデルと一致させる必要があります。一致しない場合、合成が失敗します
| 値 | 説明 |
|---|---|
qwen3-tts-vd-2026-01-26 | Qwen3-TTS-VD 非ストリーミング(デフォルト) |
qwen3-tts-vd-realtime-2026-01-15 | Qwen3-TTS-VD-Realtime 双方向ストリーミング(新バージョン) |
qwen3-tts-vd-realtime-2025-12-16 | Qwen3-TTS-VD-Realtime 双方向ストリーミング(旧バージョン) |
現在、本プラットフォームは
qwen3-tts-vd-2026-01-26(非ストリーミング)を統合済みです。realtime モデルはまだ統合されていませんが、事前に音声を作成しておくことは可能です
qwen3-tts-vd-2026-01-26, qwen3-tts-vd-realtime-2026-01-15, qwen3-tts-vd-realtime-2025-12-16 "qwen3-tts-vd-2026-01-26"
タスク完了後の HTTPS コールバック URL
コールバックのタイミング:
- タスクが完了(completed)、失敗(failed)、またはキャンセル(cancelled)した際にトリガー
- 課金確認後に送信
セキュリティ制限:
- HTTPS プロトコルのみサポート
- 内部 IP アドレスへのコールバックは禁止(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x など)
- URL の長さは
2048文字以内
コールバックの仕組み:
- タイムアウト:
10秒 - 失敗時は最大
3回リトライ(失敗後それぞれ1秒 /2秒 /4秒後にリトライ) - コールバックのレスポンスボディ形式はタスク照会インターフェースの返却形式と同一
- コールバック URL が 2xx ステータスコードを返した場合は成功とみなし、それ以外はリトライをトリガー
"https://your-domain.com/webhooks/voice-design-completed"
レスポンス
ボイスデザインタスクの作成に成功
タスク作成タイムスタンプ
1775123456
タスク ID
"task-unified-1775123456-abcd1234"
実際に使用されたモデル名
"qwen-voice-design"
タスクの具体的なタイプ
audio.generation.task タスクの進捗率 (0-100)
0 <= x <= 1000
タスクのステータス
pending, processing, completed, failed "pending"
音声タスクの詳細情報
タスクの出力タイプ
audio "audio"
使用量と課金情報