メインコンテンツへスキップ
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "doubao-seed-audio-1-0",
  "prompt": "音声生成サービスへようこそ。今日はとても良い天気ですね。",
  "format": "mp3"
}
'
{
  "created": 1775200000,
  "id": "task-unified-1775200000-abcd1234",
  "model": "doubao-seed-audio-1-0",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "audio_generation"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 9.6
  }
}

承認

Authorization
string
header
必須

##すべてのエンドポイントは Bearer Token 認証が必要です##

API Key を取得:

API Key 管理ページにアクセスして API Key を取得してください

リクエストヘッダーに追加:

Authorization: Bearer YOUR_API_KEY

ボディ

application/json
model
enum<string>
デフォルト:doubao-seed-audio-1-0
必須

モデル名

利用可能なオプション:
doubao-seed-audio-1-0
:

"doubao-seed-audio-1-0"

prompt
string
必須

音声に合成するプロンプトまたはテキスト

3つの生成モード(渡す参照リソースに応じて自動判別):

  • テキストから音声生成:prompt のみを渡し、プロンプトから直接音声を生成
  • 参照音声(音声クローニング):audio_references と組み合わせて使用。リテラルマーカー @音声N で配列内のN番目の項目を参照(配列順に 1 から番号付け)
  • 参照画像:image_urls と組み合わせて使用。prompt には合成するテキストのみを指定

参照音声(audio_references)と参照画像(image_urls)は排他的です — 1回のリクエストではいずれか一方のみ使用できます。

制約:

  • 最大 1500 文字
Maximum string length: 1500
:

"音声生成サービスへようこそ。今日はとても良い天気ですね。"

audio_references
string[]

参照リソースのリスト。各項目は音声IDまたは参照音声URLのいずれかで、同じ配列内に混在させることもできます

  • 音声ID:プリセット音声の voice_type — 完全なリストは Seed-Audio 1.0 音声リストを参照
  • 音声URL:音声クローニング用の参照音声クリップをアップロード
  • image_urls と排他的:参照音声と参照画像はいずれか一方のみ。1回のリクエストで同時に送信することはできません
  • prompt 内でリテラルマーカー @音声N を使い、配列内のN番目の項目を参照(配列順に 1 から番号付け)
  • 省略した場合、モデルは prompt に基づいて自由に音声を生成します

数量制限:

  • 配列全体で最大 3 項目(音声IDと音声URLの合計)

音声URLの制約:

  • 各参照クリップは 30 秒以下かつ 10 MB 以下
  • フォーマット:wav / mp3 / pcm / ogg_opus
Maximum array length: 3
:
["zh_female_vv_uranus_bigtts"]
image_urls
string<uri>[]

参照画像URLのリスト。画像の雰囲気に合った音声を生成します

  • 画像参照を使用する場合、prompt には合成するテキストのみを指定すれば十分です
  • audio_references と排他的:参照画像と参照音声はいずれか一方のみ。1回のリクエストで同時に送信することはできません

制約:

  • 現時点では 1 枚のみ、10 MB 以下
  • フォーマット:jpeg / png / webp
Maximum array length: 1
:
["https://example.com/scene.jpg"]
format
enum<string>
デフォルト:wav

出力音声フォーマット

利用可能なオプション:
wav,
mp3,
pcm,
ogg_opus
:

"mp3"

sample_rate
enum<integer>
デフォルト:24000

出力サンプリングレート(Hz)

利用可能なオプション:
8000,
16000,
24000,
32000,
44100,
48000
:

24000

speech_rate
number
デフォルト:1

速度倍率(小数点以下2桁まで対応)

  • 1.0:通常の速度(デフォルト)
  • 2.0:2倍速、0.5:半速

範囲 0.5 から 2.0

必須範囲: 0.5 <= x <= 2次の倍数である必要があります 0.01
:

1.25

loudness_rate
number
デフォルト:1

音量倍率(小数点以下2桁まで対応)

  • 1.0:通常の音量(デフォルト)
  • 2.0:2倍の音量、0.5:半分の音量

範囲 0.5 から 2.0

必須範囲: 0.5 <= x <= 2次の倍数である必要があります 0.01
:

0.85

pitch_rate
integer
デフォルト:0

ピッチ(半音単位)の調整

  • 0:デフォルトのピッチ(変化なし)
  • 正の値はピッチを上げる:値が大きいほど音が高く鋭くなる。12 で1オクターブ上がる
  • 負の値はピッチを下げる:値が小さいほど音が低く深くなる。-12 で1オクターブ下がる

範囲 -12 から 12

必須範囲: -12 <= x <= 12
:

0

callback_url
string<uri>

タスク完了時に呼び出される HTTPS コールバック URL

発火タイミング:

  • タスクが完了、失敗、またはキャンセルされた時にトリガー
  • 課金が確定した後に送信

セキュリティ制約:

  • HTTPS のみ
  • 内部 IP アドレスへのコールバックは禁止(127.0.0.1、10.x.x.x、172.16-31.x.x、192.168.x.x など)
  • URL の長さは 2048 文字以下

コールバックの仕組み:

  • タイムアウト:10
  • 失敗時に最大 3 回リトライ(各失敗後 1 / 2 / 4 秒)
  • コールバックのボディ形式はタスク取得レスポンスと同じ
  • 2xx レスポンスを成功とみなし、それ以外のステータスコードはリトライをトリガー
:

"https://your-domain.com/webhooks/audio-completed"

レスポンス

音声生成タスクが正常に作成されました

created
integer

タスク作成タイムスタンプ

:

1775200000

id
string

タスクID

:

"task-unified-1775200000-abcd1234"

model
string

実際に使用されたモデル

:

"doubao-seed-audio-1-0"

object
enum<string>

具体的なタスクタイプ

利用可能なオプション:
audio.generation.task
progress
integer

タスクの進捗率(0-100)

必須範囲: 0 <= x <= 100
:

0

status
enum<string>

タスクのステータス

利用可能なオプション:
pending,
processing,
completed,
failed
:

"pending"

task_info
object

音声タスクの詳細情報

type
enum<string>

タスクの出力タイプ

利用可能なオプション:
audio
:

"audio"

usage
object

使用量および課金情報