Seed-Audio 1.0 音声生成
- 3つのモードに対応するマルチモーダル音声生成:テキストから音声生成、参照音声(音声クローニング)、参照画像
- 1回のリクエストで最大
120秒の音声生成 - 非同期モード — 返却されたタスクIDを使って結果を取得
- 生成された音声のリンクは24時間有効です。お早めに保存してください
承認
##すべてのエンドポイントは Bearer Token 認証が必要です##
API Key を取得:
API Key 管理ページにアクセスして API Key を取得してください
リクエストヘッダーに追加:
Authorization: Bearer YOUR_API_KEYボディ
モデル名
doubao-seed-audio-1-0 "doubao-seed-audio-1-0"
音声に合成するプロンプトまたはテキスト
3つの生成モード(渡す参照リソースに応じて自動判別):
- テキストから音声生成:
promptのみを渡し、プロンプトから直接音声を生成 - 参照音声(音声クローニング):
audio_referencesと組み合わせて使用。リテラルマーカー@音声Nで配列内のN番目の項目を参照(配列順に1から番号付け) - 参照画像:
image_urlsと組み合わせて使用。promptには合成するテキストのみを指定
参照音声(
audio_references)と参照画像(image_urls)は排他的です — 1回のリクエストではいずれか一方のみ使用できます。
制約:
- 最大
1500文字
1500"音声生成サービスへようこそ。今日はとても良い天気ですね。"
参照リソースのリスト。各項目は音声IDまたは参照音声URLのいずれかで、同じ配列内に混在させることもできます
- 音声ID:プリセット音声の
voice_type— 完全なリストは Seed-Audio 1.0 音声リストを参照 - 音声URL:音声クローニング用の参照音声クリップをアップロード
image_urlsと排他的:参照音声と参照画像はいずれか一方のみ。1回のリクエストで同時に送信することはできませんprompt内でリテラルマーカー@音声Nを使い、配列内のN番目の項目を参照(配列順に1から番号付け)- 省略した場合、モデルは
promptに基づいて自由に音声を生成します
数量制限:
- 配列全体で最大
3項目(音声IDと音声URLの合計)
音声URLの制約:
- 各参照クリップは
30秒以下かつ10 MB以下 - フォーマット:
wav/mp3/pcm/ogg_opus
3["zh_female_vv_uranus_bigtts"]参照画像URLのリスト。画像の雰囲気に合った音声を生成します
- 画像参照を使用する場合、
promptには合成するテキストのみを指定すれば十分です audio_referencesと排他的:参照画像と参照音声はいずれか一方のみ。1回のリクエストで同時に送信することはできません
制約:
- 現時点では
1枚のみ、10 MB以下 - フォーマット:
jpeg/png/webp
1["https://example.com/scene.jpg"]出力音声フォーマット
wav, mp3, pcm, ogg_opus "mp3"
出力サンプリングレート(Hz)
8000, 16000, 24000, 32000, 44100, 48000 24000
速度倍率(小数点以下2桁まで対応)
1.0:通常の速度(デフォルト)2.0:2倍速、0.5:半速
範囲 0.5 から 2.0
0.5 <= x <= 2次の倍数である必要があります 0.011.25
音量倍率(小数点以下2桁まで対応)
1.0:通常の音量(デフォルト)2.0:2倍の音量、0.5:半分の音量
範囲 0.5 から 2.0
0.5 <= x <= 2次の倍数である必要があります 0.010.85
ピッチ(半音単位)の調整
0:デフォルトのピッチ(変化なし)- 正の値はピッチを上げる:値が大きいほど音が高く鋭くなる。
12で1オクターブ上がる - 負の値はピッチを下げる:値が小さいほど音が低く深くなる。
-12で1オクターブ下がる
範囲 -12 から 12
-12 <= x <= 120
タスク完了時に呼び出される HTTPS コールバック URL
発火タイミング:
- タスクが完了、失敗、またはキャンセルされた時にトリガー
- 課金が確定した後に送信
セキュリティ制約:
- HTTPS のみ
- 内部 IP アドレスへのコールバックは禁止(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x など)
- URL の長さは
2048文字以下
コールバックの仕組み:
- タイムアウト:
10秒 - 失敗時に最大
3回リトライ(各失敗後1/2/4秒) - コールバックのボディ形式はタスク取得レスポンスと同じ
- 2xx レスポンスを成功とみなし、それ以外のステータスコードはリトライをトリガー
"https://your-domain.com/webhooks/audio-completed"
レスポンス
音声生成タスクが正常に作成されました
タスク作成タイムスタンプ
1775200000
タスクID
"task-unified-1775200000-abcd1234"
実際に使用されたモデル
"doubao-seed-audio-1-0"
具体的なタスクタイプ
audio.generation.task タスクの進捗率(0-100)
0 <= x <= 1000
タスクのステータス
pending, processing, completed, failed "pending"
音声タスクの詳細情報
タスクの出力タイプ
audio "audio"
使用量および課金情報