メインコンテンツへスキップ
POST
/
v1
/
audios
/
generations
curl --request POST \ --url https://api.evolink.ai/v1/audios/generations \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data ' { "model": "qwen-voice-design", "voice_prompt": "落ち着いた中年男性アナウンサー、低くて重厚な声、磁力感があり、安定したペース、明瞭な発音", "preview_text": "リスナーの皆さん、こんばんは。夜のニュースをお届けします。", "preferred_name": "announcer" } '
{
  "created": 1775123456,
  "id": "task-unified-1775123456-abcd1234",
  "model": "qwen-voice-design",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "voice_design"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 2
  }
}

承認

Authorization
string
header
必須

##すべてのインターフェースは Bearer Token による認証が必要です##

API キーの取得:

API キー管理ページ にアクセスして API キーを取得してください

リクエストヘッダーに以下を追加してください:

Authorization: Bearer YOUR_API_KEY

ボディ

application/json
model
enum<string>
デフォルト:qwen-voice-design
必須

モデル名

利用可能なオプション:
qwen-voice-design
:

"qwen-voice-design"

voice_prompt
string
必須

音声の特徴説明(音色の定義に使用)

制約:

  • 最大 2048 文字
  • 中国語と英語のみサポート

説明の推奨ディメンション:

  • 性別:男性、女性、中性
  • 年齢:子供 (5-12歳)、ティーンエイジャー (13-18歳)、青年 (19-35歳)、中年 (36-55歳)、シニア (55歳以上)
  • 音域:高音、中音、低音
  • 話速:速い、普通、ゆっくり
  • 感情:明るい、落ち着いた、穏やか、真剣、活発、冷静
  • 特徴:磁力感がある、澄んでいる、しゃがれた、まろやか、甘い、重厚
  • 用途:ニュース読み上げ、CM ナレーション、オーディオブック、アニメキャラクター、音声アシスタント

推奨の書き方例:

  • 落ち着いた中年男性、ゆっくりとした話速、低くて磁力感のある声、ニュースや記録映画のナレーションに最適
  • かわいい子どもの声、約8歳の女の子、少し幼い話し方、アニメキャラクターの吹き替えに最適
  • 穏やかで知性的な女性、30歳前後、落ち着いた話し方、オーディオブックの朗読に最適
Maximum string length: 2048
:

"落ち着いた中年男性アナウンサー、低くて重厚な声、磁力感があり、安定したペース、明瞭な発音"

preview_text
string
必須

試聴音声を生成するためのプレビューテキスト

制約:

  • 最大 1024 文字
  • 10言語をサポート:中国語、英語、日本語、韓国語、ドイツ語、フランス語、イタリア語、ロシア語、ポルトガル語、スペイン語
  • language パラメータの言語と一致させることを推奨
Maximum string length: 1024
:

"リスナーの皆さん、こんばんは。夜のニュースをお届けします。"

preferred_name
string
必須

音声名のプレフィックス

制約:

  • 数字、英字、アンダースコアのみ使用可能
  • 16 文字以内

生成される完全な音声名の形式:qwen-tts-vd-{preferred_name}-voice-{timestamp}

announcer を入力した場合、最終的な音声名は例えば qwen-tts-vd-announcer-voice-20260402-a1b2 のようになります

Maximum string length: 16
Pattern: ^[a-zA-Z0-9_]+$
:

"announcer"

language
enum<string>

音声の言語傾向。preview_text の言語と一致させることを推奨

指定しない場合、上流はデフォルト値 zh を使用します

利用可能なオプション:
zh,
en,
ja,
ko,
de,
fr,
it,
ru,
pt,
es
:

"ja"

sample_rate
enum<integer>

プレビュー音声のサンプリングレート(Hz)

指定しない場合、上流はデフォルト値 24000 を使用します

利用可能なオプション:
8000,
16000,
24000,
48000
:

24000

response_format
enum<string>

プレビュー音声のフォーマット

指定しない場合、上流はデフォルト値 wav を使用します

利用可能なオプション:
pcm,
wav,
mp3,
opus
:

"wav"

target_model
enum<string>
デフォルト:qwen3-tts-vd-2026-01-26

作成した音声を駆動する TTS モデル

重要: 音声作成時に指定した target_model は、後続の音声合成で使用するモデルと一致させる必要があります。一致しない場合、合成が失敗します

説明
qwen3-tts-vd-2026-01-26Qwen3-TTS-VD 非ストリーミング(デフォルト)
qwen3-tts-vd-realtime-2026-01-15Qwen3-TTS-VD-Realtime 双方向ストリーミング(新バージョン)
qwen3-tts-vd-realtime-2025-12-16Qwen3-TTS-VD-Realtime 双方向ストリーミング(旧バージョン)

現在、本プラットフォームは qwen3-tts-vd-2026-01-26(非ストリーミング)を統合済みです。realtime モデルはまだ統合されていませんが、事前に音声を作成しておくことは可能です

利用可能なオプション:
qwen3-tts-vd-2026-01-26,
qwen3-tts-vd-realtime-2026-01-15,
qwen3-tts-vd-realtime-2025-12-16
:

"qwen3-tts-vd-2026-01-26"

callback_url
string<uri>

タスク完了後の HTTPS コールバック URL

コールバックのタイミング:

  • タスクが完了(completed)、失敗(failed)、またはキャンセル(cancelled)した際にトリガー
  • 課金確認後に送信

セキュリティ制限:

  • HTTPS プロトコルのみサポート
  • 内部 IP アドレスへのコールバックは禁止(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x など)
  • URL の長さは 2048 文字以内

コールバックの仕組み:

  • タイムアウト:10
  • 失敗時は最大 3 回リトライ(失敗後それぞれ 1 秒 / 2 秒 / 4 秒後にリトライ)
  • コールバックのレスポンスボディ形式はタスク照会インターフェースの返却形式と同一
  • コールバック URL が 2xx ステータスコードを返した場合は成功とみなし、それ以外はリトライをトリガー
:

"https://your-domain.com/webhooks/voice-design-completed"

レスポンス

ボイスデザインタスクの作成に成功

created
integer

タスク作成タイムスタンプ

:

1775123456

id
string

タスク ID

:

"task-unified-1775123456-abcd1234"

model
string

実際に使用されたモデル名

:

"qwen-voice-design"

object
enum<string>

タスクの具体的なタイプ

利用可能なオプション:
audio.generation.task
progress
integer

タスクの進捗率 (0-100)

必須範囲: 0 <= x <= 100
:

0

status
enum<string>

タスクのステータス

利用可能なオプション:
pending,
processing,
completed,
failed
:

"pending"

task_info
object

音声タスクの詳細情報

type
enum<string>

タスクの出力タイプ

利用可能なオプション:
audio
:

"audio"

usage
object

使用量と課金情報