Seed-Audio 1.0 音声生成

承認

Authorization

string

header

必須

##すべてのエンドポイントは Bearer Token 認証が必要です##

API Key を取得:

API Key 管理ページにアクセスして API Key を取得してください

リクエストヘッダーに追加:

Authorization: Bearer YOUR_API_KEY

ボディ

application/json

model

enum<string>

デフォルト:doubao-seed-audio-1-0

必須

モデル名

利用可能なオプション:

doubao-seed-audio-1-0

例:

"doubao-seed-audio-1-0"

prompt

string

必須

音声に合成するプロンプトまたはテキスト

3つの生成モード(渡す参照リソースに応じて自動判別):

テキストから音声生成:prompt のみを渡し、プロンプトから直接音声を生成
参照音声(音声クローニング):audio_references と組み合わせて使用。リテラルマーカー @音声N で配列内のN番目の項目を参照(配列順に 1 から番号付け)
参照画像:image_urls と組み合わせて使用。prompt には合成するテキストのみを指定

参照音声(audio_references)と参照画像(image_urls)は排他的です — 1回のリクエストではいずれか一方のみ使用できます。

制約:

最大 1500 文字

Maximum string length: 1500

例:

"音声生成サービスへようこそ。今日はとても良い天気ですね。"

audio_references

string[]

参照リソースのリスト。各項目は音声IDまたは参照音声URLのいずれかで、同じ配列内に混在させることもできます

音声ID:プリセット音声の voice_type — 完全なリストは Seed-Audio 1.0 音声リストを参照
音声URL:音声クローニング用の参照音声クリップをアップロード
image_urls と排他的:参照音声と参照画像はいずれか一方のみ。1回のリクエストで同時に送信することはできません
prompt 内でリテラルマーカー @音声N を使い、配列内のN番目の項目を参照(配列順に 1 から番号付け)
省略した場合、モデルは prompt に基づいて自由に音声を生成します

数量制限:

配列全体で最大 3 項目(音声IDと音声URLの合計)

音声URLの制約:

各参照クリップは 30 秒以下かつ 10 MB 以下
フォーマット:wav / mp3 / pcm / ogg_opus

Maximum array length: 3

例:

["zh_female_vv_uranus_bigtts"]

image_urls

string<uri>[]

参照画像URLのリスト。画像の雰囲気に合った音声を生成します

画像参照を使用する場合、prompt には合成するテキストのみを指定すれば十分です
audio_references と排他的:参照画像と参照音声はいずれか一方のみ。1回のリクエストで同時に送信することはできません

制約:

現時点では 1 枚のみ、10 MB 以下
フォーマット:jpeg / png / webp

Maximum array length: 1

例:

["https://example.com/scene.jpg"]

format

enum<string>

デフォルト:wav

出力音声フォーマット

利用可能なオプション:

wav,

mp3,

pcm,

ogg_opus

例:

"mp3"

sample_rate

enum<integer>

デフォルト:24000

出力サンプリングレート(Hz)

利用可能なオプション:

8000,

16000,

24000,

32000,

44100,

48000

例:

24000

speech_rate

number

デフォルト:1

速度倍率(小数点以下2桁まで対応)

1.0:通常の速度(デフォルト)
2.0:2倍速、0.5:半速

範囲 0.5 から 2.0

必須範囲: 0.5 <= x <= 2次の倍数である必要があります 0.01

例:

1.25

loudness_rate

number

デフォルト:1

音量倍率(小数点以下2桁まで対応)

1.0:通常の音量(デフォルト)
2.0:2倍の音量、0.5:半分の音量

範囲 0.5 から 2.0

必須範囲: 0.5 <= x <= 2次の倍数である必要があります 0.01

例:

0.85

pitch_rate

integer

デフォルト:0

ピッチ(半音単位)の調整

0:デフォルトのピッチ(変化なし)
正の値はピッチを上げる:値が大きいほど音が高く鋭くなる。12 で1オクターブ上がる
負の値はピッチを下げる:値が小さいほど音が低く深くなる。-12 で1オクターブ下がる

範囲 -12 から 12

必須範囲: -12 <= x <= 12

例:

0

callback_url

string<uri>

タスク完了時に呼び出される HTTPS コールバック URL

発火タイミング:

タスクが完了、失敗、またはキャンセルされた時にトリガー
課金が確定した後に送信

セキュリティ制約:

HTTPS のみ
内部 IP アドレスへのコールバックは禁止(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x など)
URL の長さは 2048 文字以下

コールバックの仕組み:

タイムアウト:10 秒
失敗時に最大 3 回リトライ(各失敗後 1 / 2 / 4 秒)
コールバックのボディ形式はタスク取得レスポンスと同じ
2xx レスポンスを成功とみなし、それ以外のステータスコードはリトライをトリガー

例:

"https://your-domain.com/webhooks/audio-completed"

レスポンス

音声生成タスクが正常に作成されました

created

integer

タスク作成タイムスタンプ

例:

1775200000

string

タスクID

例:

"task-unified-1775200000-abcd1234"

model

string

実際に使用されたモデル

例:

"doubao-seed-audio-1-0"

object

enum<string>

具体的なタスクタイプ

利用可能なオプション:

audio.generation.task

progress

integer

タスクの進捗率(0-100)

必須範囲: 0 <= x <= 100

例:

0

status

enum<string>

タスクのステータス

利用可能なオプション:

pending,

processing,

completed,

failed

例:

"pending"

task_info

object

音声タスクの詳細情報

Show child attributes

type

enum<string>

タスクの出力タイプ

利用可能なオプション:

audio

例:

"audio"

usage

object

使用量および課金情報

Show child attributes