메인 콘텐츠로 건너뛰기
POST
/
v1
/
audios
/
generations
curl --request POST \
  --url https://api.evolink.ai/v1/audios/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "model": "doubao-seed-audio-1-0",
  "prompt": "오디오 생성 서비스에 오신 것을 환영합니다. 오늘 날씨가 참 좋네요.",
  "format": "mp3"
}
'
{
  "created": 1775200000,
  "id": "task-unified-1775200000-abcd1234",
  "model": "doubao-seed-audio-1-0",
  "object": "audio.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": true,
    "estimated_time": 15,
    "audio_type": "audio_generation"
  },
  "type": "audio",
  "usage": {
    "credits_reserved": 9.6
  }
}

인증

Authorization
string
header
필수

##모든 엔드포인트는 Bearer Token 인증이 필요합니다##

API Key 발급:

API Key 관리 페이지를 방문하여 API Key를 발급받으세요

요청 헤더에 추가:

Authorization: Bearer YOUR_API_KEY

본문

application/json
model
enum<string>
기본값:doubao-seed-audio-1-0
필수

모델 이름

사용 가능한 옵션:
doubao-seed-audio-1-0
예시:

"doubao-seed-audio-1-0"

prompt
string
필수

오디오로 합성할 프롬프트 또는 텍스트

세 가지 생성 모드(전달된 참조 리소스에 따라 자동 감지됨):

  • 텍스트→오디오: prompt만 전달하여 프롬프트에서 직접 오디오 생성
  • 참조 오디오(음성 복제): audio_references와 함께 사용; 리터럴 마커 @오디오N로 N번째 항목 참조(배열 순서대로 1부터 번호 매김)
  • 참조 이미지: image_urls와 함께 사용; prompt에는 합성할 텍스트만 입력

오디오 참조(audio_references)와 이미지 참조(image_urls)는 상호 배타적이며, 요청당 하나만 사용할 수 있습니다.

제약 사항:

  • 최대 1500
Maximum string length: 1500
예시:

"오디오 생성 서비스에 오신 것을 환영합니다. 오늘 날씨가 참 좋네요."

audio_references
string[]

참조 리소스 목록. 각 항목은 음성 ID 또는 참조 오디오 URL일 수 있으며, 동일한 배열 안에서 두 유형을 혼합할 수 있습니다

  • 음성 ID: 프리셋 음성의 voice_type — 전체 목록은 Seed-Audio 1.0 음성 목록 참고
  • 오디오 URL: 음성 복제용 참조 오디오 클립 업로드
  • image_urls와 상호 배타적: 참조 오디오와 참조 이미지는 둘 중 하나만 선택할 수 있으며, 하나의 요청에서 함께 보낼 수 없습니다
  • prompt에서 리터럴 마커 @오디오N로 N번째 항목 참조(배열 순서대로 1부터 번호 매김)
  • 생략 시 모델이 prompt를 기반으로 자유롭게 음성을 생성합니다

수량 제한:

  • 배열 전체 최대 3개 항목(음성 ID와 오디오 URL 합산)

오디오 URL 제약 사항:

  • 각 참조 클립 ≤ 30초 및 ≤ 10 MB
  • 포맷: wav / mp3 / pcm / ogg_opus
Maximum array length: 3
예시:
["zh_female_vv_uranus_bigtts"]
image_urls
string<uri>[]

참조 이미지 URL 목록; 이미지의 분위기에 맞는 오디오를 생성합니다

  • 이미지 참조 사용 시 prompt에는 합성할 텍스트만 입력
  • audio_references와 상호 배타적: 참조 이미지와 참조 오디오는 둘 중 하나만 선택할 수 있으며, 하나의 요청에서 함께 보낼 수 없습니다

제약 사항:

  • 현재 1개 이미지만 지원, ≤ 10 MB
  • 포맷: jpeg / png / webp
Maximum array length: 1
예시:
["https://example.com/scene.jpg"]
format
enum<string>
기본값:wav

출력 오디오 포맷

사용 가능한 옵션:
wav,
mp3,
pcm,
ogg_opus
예시:

"mp3"

sample_rate
enum<integer>
기본값:24000

출력 샘플 레이트(Hz)

사용 가능한 옵션:
8000,
16000,
24000,
32000,
44100,
48000
예시:

24000

speech_rate
number
기본값:1

속도 배율(소수점 둘째 자리까지 지원)

  • 1.0: 기본 속도(기본값)
  • 2.0: 2배속; 0.5: 절반 속도

범위 0.5 ~ 2.0

필수 범위: 0.5 <= x <= 2다음의 배수여야 합니다 0.01
예시:

1.25

loudness_rate
number
기본값:1

음량 배율(소수점 둘째 자리까지 지원)

  • 1.0: 기본 음량(기본값)
  • 2.0: 2배 음량; 0.5: 절반 음량

범위 0.5 ~ 2.0

필수 범위: 0.5 <= x <= 2다음의 배수여야 합니다 0.01
예시:

0.85

pitch_rate
integer
기본값:0

피치 조정, 반음 단위

  • 0: 기본 피치(변경 없음)
  • 양수 값은 피치를 높임: 값이 클수록 음성이 더 높고 날카로워짐; 12는 한 옥타브 높임
  • 음수 값은 피치를 낮춤: 값이 작을수록 음성이 더 낮고 깊어짐; -12는 한 옥타브 낮춤

범위 -12 ~ 12

필수 범위: -12 <= x <= 12
예시:

0

callback_url
string<uri>

작업 완료 시 호출되는 HTTPS 콜백 URL

호출 시점:

  • 작업이 완료, 실패 또는 취소될 때 트리거됨
  • 정산 완료 후 전송됨

보안 제한:

  • HTTPS만 지원
  • 내부 IP 주소로의 콜백은 금지됨(127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x 등)
  • URL 길이는 2048자를 초과할 수 없음

콜백 메커니즘:

  • 타임아웃: 10
  • 실패 시 최대 3회 재시도(각 실패 후 1 / 2 / 4초)
  • 콜백 본문은 작업 조회 응답과 동일한 포맷
  • 2xx 응답은 성공으로 처리; 다른 상태 코드는 재시도를 트리거
예시:

"https://your-domain.com/webhooks/audio-completed"

응답

오디오 생성 작업이 정상적으로 생성됨

created
integer

작업 생성 타임스탬프

예시:

1775200000

id
string

작업 ID

예시:

"task-unified-1775200000-abcd1234"

model
string

실제 사용된 모델

예시:

"doubao-seed-audio-1-0"

object
enum<string>

구체적인 작업 타입

사용 가능한 옵션:
audio.generation.task
progress
integer

작업 진행률 백분율(0-100)

필수 범위: 0 <= x <= 100
예시:

0

status
enum<string>

작업 상태

사용 가능한 옵션:
pending,
processing,
completed,
failed
예시:

"pending"

task_info
object

상세 오디오 작업 정보

type
enum<string>

작업 출력 타입

사용 가능한 옵션:
audio
예시:

"audio"

usage
object

사용량 및 청구 정보