Seed-Audio 1.0 오디오 생성

인증

Authorization

string

header

필수

##모든 엔드포인트는 Bearer Token 인증이 필요합니다##

API Key 발급:

API Key 관리 페이지를 방문하여 API Key를 발급받으세요

요청 헤더에 추가:

Authorization: Bearer YOUR_API_KEY

본문

application/json

model

enum<string>

기본값:doubao-seed-audio-1-0

필수

모델 이름

사용 가능한 옵션:

doubao-seed-audio-1-0

예시:

"doubao-seed-audio-1-0"

prompt

string

필수

오디오로 합성할 프롬프트 또는 텍스트

세 가지 생성 모드(전달된 참조 리소스에 따라 자동 감지됨):

텍스트→오디오: prompt만 전달하여 프롬프트에서 직접 오디오 생성
참조 오디오(음성 복제): audio_references와 함께 사용; 리터럴 마커 @오디오N로 N번째 항목 참조(배열 순서대로 1부터 번호 매김)
참조 이미지: image_urls와 함께 사용; prompt에는 합성할 텍스트만 입력

오디오 참조(audio_references)와 이미지 참조(image_urls)는 상호 배타적이며, 요청당 하나만 사용할 수 있습니다.

제약 사항:

최대 1500자

Maximum string length: 1500

예시:

"오디오 생성 서비스에 오신 것을 환영합니다. 오늘 날씨가 참 좋네요."

audio_references

string[]

참조 리소스 목록. 각 항목은 음성 ID 또는 참조 오디오 URL일 수 있으며, 동일한 배열 안에서 두 유형을 혼합할 수 있습니다

음성 ID: 프리셋 음성의 voice_type — 전체 목록은 Seed-Audio 1.0 음성 목록 참고
오디오 URL: 음성 복제용 참조 오디오 클립 업로드
image_urls와 상호 배타적: 참조 오디오와 참조 이미지는 둘 중 하나만 선택할 수 있으며, 하나의 요청에서 함께 보낼 수 없습니다
prompt에서 리터럴 마커 @오디오N로 N번째 항목 참조(배열 순서대로 1부터 번호 매김)
생략 시 모델이 prompt를 기반으로 자유롭게 음성을 생성합니다

수량 제한:

배열 전체 최대 3개 항목(음성 ID와 오디오 URL 합산)

오디오 URL 제약 사항:

각 참조 클립 ≤ 30초 및 ≤ 10 MB
포맷: wav / mp3 / pcm / ogg_opus

Maximum array length: 3

예시:

["zh_female_vv_uranus_bigtts"]

image_urls

string<uri>[]

참조 이미지 URL 목록; 이미지의 분위기에 맞는 오디오를 생성합니다

이미지 참조 사용 시 prompt에는 합성할 텍스트만 입력
audio_references와 상호 배타적: 참조 이미지와 참조 오디오는 둘 중 하나만 선택할 수 있으며, 하나의 요청에서 함께 보낼 수 없습니다

제약 사항:

현재 1개 이미지만 지원, ≤ 10 MB
포맷: jpeg / png / webp

Maximum array length: 1

예시:

["https://example.com/scene.jpg"]

format

enum<string>

기본값:wav

출력 오디오 포맷

사용 가능한 옵션:

wav,

mp3,

pcm,

ogg_opus

예시:

"mp3"

sample_rate

enum<integer>

기본값:24000

출력 샘플 레이트(Hz)

사용 가능한 옵션:

8000,

16000,

24000,

32000,

44100,

48000

예시:

24000

speech_rate

number

기본값:1

속도 배율(소수점 둘째 자리까지 지원)

1.0: 기본 속도(기본값)
2.0: 2배속; 0.5: 절반 속도

범위 0.5 ~ 2.0

필수 범위: 0.5 <= x <= 2다음의 배수여야 합니다 0.01

예시:

1.25

loudness_rate

number

기본값:1

음량 배율(소수점 둘째 자리까지 지원)

1.0: 기본 음량(기본값)
2.0: 2배 음량; 0.5: 절반 음량

범위 0.5 ~ 2.0

필수 범위: 0.5 <= x <= 2다음의 배수여야 합니다 0.01

예시:

0.85

pitch_rate

integer

기본값:0

피치 조정, 반음 단위

0: 기본 피치(변경 없음)
양수 값은 피치를 높임: 값이 클수록 음성이 더 높고 날카로워짐; 12는 한 옥타브 높임
음수 값은 피치를 낮춤: 값이 작을수록 음성이 더 낮고 깊어짐; -12는 한 옥타브 낮춤

범위 -12 ~ 12

필수 범위: -12 <= x <= 12

예시:

0

callback_url

string<uri>

작업 완료 시 호출되는 HTTPS 콜백 URL

호출 시점:

작업이 완료, 실패 또는 취소될 때 트리거됨
정산 완료 후 전송됨

보안 제한:

HTTPS만 지원
내부 IP 주소로의 콜백은 금지됨(127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x 등)
URL 길이는 2048자를 초과할 수 없음

콜백 메커니즘:

타임아웃: 10초
실패 시 최대 3회 재시도(각 실패 후 1 / 2 / 4초)
콜백 본문은 작업 조회 응답과 동일한 포맷
2xx 응답은 성공으로 처리; 다른 상태 코드는 재시도를 트리거

예시:

"https://your-domain.com/webhooks/audio-completed"

응답

오디오 생성 작업이 정상적으로 생성됨

created

integer

작업 생성 타임스탬프

예시:

1775200000

string

작업 ID

예시:

"task-unified-1775200000-abcd1234"

model

string

실제 사용된 모델

예시:

"doubao-seed-audio-1-0"

object

enum<string>

구체적인 작업 타입

사용 가능한 옵션:

audio.generation.task

progress

integer

작업 진행률 백분율(0-100)

필수 범위: 0 <= x <= 100

예시:

0

status

enum<string>

작업 상태

사용 가능한 옵션:

pending,

processing,

completed,

failed

예시:

"pending"

task_info

object

상세 오디오 작업 정보

Show child attributes

type

enum<string>

작업 출력 타입

사용 가능한 옵션:

audio

예시:

"audio"

usage

object

사용량 및 청구 정보

Show child attributes