Seed-Audio 1.0 오디오 생성
- 세 가지 모드의 멀티모달 오디오 생성: 텍스트→오디오, 참조 오디오(음성 복제), 참조 이미지
- 요청당 최대
120초의 오디오 - 비동기 모드 — 반환된 작업 ID로 결과 조회
- 생성된 오디오 링크는 24시간 동안 유효하므로 즉시 저장하시기 바랍니다
인증
##모든 엔드포인트는 Bearer Token 인증이 필요합니다##
API Key 발급:
API Key 관리 페이지를 방문하여 API Key를 발급받으세요
요청 헤더에 추가:
Authorization: Bearer YOUR_API_KEY본문
모델 이름
doubao-seed-audio-1-0 "doubao-seed-audio-1-0"
오디오로 합성할 프롬프트 또는 텍스트
세 가지 생성 모드(전달된 참조 리소스에 따라 자동 감지됨):
- 텍스트→오디오:
prompt만 전달하여 프롬프트에서 직접 오디오 생성 - 참조 오디오(음성 복제):
audio_references와 함께 사용; 리터럴 마커@오디오N로 N번째 항목 참조(배열 순서대로1부터 번호 매김) - 참조 이미지:
image_urls와 함께 사용;prompt에는 합성할 텍스트만 입력
오디오 참조(
audio_references)와 이미지 참조(image_urls)는 상호 배타적이며, 요청당 하나만 사용할 수 있습니다.
제약 사항:
- 최대
1500자
1500"오디오 생성 서비스에 오신 것을 환영합니다. 오늘 날씨가 참 좋네요."
참조 리소스 목록. 각 항목은 음성 ID 또는 참조 오디오 URL일 수 있으며, 동일한 배열 안에서 두 유형을 혼합할 수 있습니다
- 음성 ID: 프리셋 음성의
voice_type— 전체 목록은 Seed-Audio 1.0 음성 목록 참고 - 오디오 URL: 음성 복제용 참조 오디오 클립 업로드
image_urls와 상호 배타적: 참조 오디오와 참조 이미지는 둘 중 하나만 선택할 수 있으며, 하나의 요청에서 함께 보낼 수 없습니다prompt에서 리터럴 마커@오디오N로 N번째 항목 참조(배열 순서대로1부터 번호 매김)- 생략 시 모델이
prompt를 기반으로 자유롭게 음성을 생성합니다
수량 제한:
- 배열 전체 최대
3개 항목(음성 ID와 오디오 URL 합산)
오디오 URL 제약 사항:
- 각 참조 클립 ≤
30초 및 ≤10 MB - 포맷:
wav/mp3/pcm/ogg_opus
3["zh_female_vv_uranus_bigtts"]참조 이미지 URL 목록; 이미지의 분위기에 맞는 오디오를 생성합니다
- 이미지 참조 사용 시
prompt에는 합성할 텍스트만 입력 audio_references와 상호 배타적: 참조 이미지와 참조 오디오는 둘 중 하나만 선택할 수 있으며, 하나의 요청에서 함께 보낼 수 없습니다
제약 사항:
- 현재
1개 이미지만 지원, ≤10 MB - 포맷:
jpeg/png/webp
1["https://example.com/scene.jpg"]출력 오디오 포맷
wav, mp3, pcm, ogg_opus "mp3"
출력 샘플 레이트(Hz)
8000, 16000, 24000, 32000, 44100, 48000 24000
속도 배율(소수점 둘째 자리까지 지원)
1.0: 기본 속도(기본값)2.0: 2배속;0.5: 절반 속도
범위 0.5 ~ 2.0
0.5 <= x <= 2다음의 배수여야 합니다 0.011.25
음량 배율(소수점 둘째 자리까지 지원)
1.0: 기본 음량(기본값)2.0: 2배 음량;0.5: 절반 음량
범위 0.5 ~ 2.0
0.5 <= x <= 2다음의 배수여야 합니다 0.010.85
피치 조정, 반음 단위
0: 기본 피치(변경 없음)- 양수 값은 피치를 높임: 값이 클수록 음성이 더 높고 날카로워짐;
12는 한 옥타브 높임 - 음수 값은 피치를 낮춤: 값이 작을수록 음성이 더 낮고 깊어짐;
-12는 한 옥타브 낮춤
범위 -12 ~ 12
-12 <= x <= 120
작업 완료 시 호출되는 HTTPS 콜백 URL
호출 시점:
- 작업이 완료, 실패 또는 취소될 때 트리거됨
- 정산 완료 후 전송됨
보안 제한:
- HTTPS만 지원
- 내부 IP 주소로의 콜백은 금지됨(127.0.0.1, 10.x.x.x, 172.16-31.x.x, 192.168.x.x 등)
- URL 길이는
2048자를 초과할 수 없음
콜백 메커니즘:
- 타임아웃:
10초 - 실패 시 최대
3회 재시도(각 실패 후1/2/4초) - 콜백 본문은 작업 조회 응답과 동일한 포맷
- 2xx 응답은 성공으로 처리; 다른 상태 코드는 재시도를 트리거
"https://your-domain.com/webhooks/audio-completed"
응답
오디오 생성 작업이 정상적으로 생성됨
작업 생성 타임스탬프
1775200000
작업 ID
"task-unified-1775200000-abcd1234"
실제 사용된 모델
"doubao-seed-audio-1-0"
구체적인 작업 타입
audio.generation.task 작업 진행률 백분율(0-100)
0 <= x <= 1000
작업 상태
pending, processing, completed, failed "pending"
상세 오디오 작업 정보
작업 출력 타입
audio "audio"
사용량 및 청구 정보