火山引擎豆包语音工具箱

录音文件识别 · TTS 合成 · 字幕生成 · 控制台管理 · API Key 存于浏览器 localStorage

火山引擎鉴权

API Key（新控制台，控制台获取）

App ID（旧控制台，仅 TTS/字幕等历史接口需要）

Access Token（旧控制台，仅历史接口需要）

新控制台接口仅需 API Key；旧 v1 接口（TTS/字幕）还需 App ID + Access Token，鉴权一律在 Cloudflare 后端注入。

语音识别 ASR

语音合成 TTS

音视频字幕

控制台管理

API 配置

标准版

submit + query 轮询 · 无时长限制

极速版

一次请求返回 · ≤2h / ≤100MB

闲时版

submit + query · 大批量离线·24h 内完成

模型版本

极速版固定使用 volc.bigasr.auc_turbo 资源 ID，上方版本选择被忽略。

闲时版固定使用 volc.bigasr.auc_idle 资源 ID。任务入闲时算力队列按资源空闲调度，24h 内保证完成。适合大批量离线转写。注意：单音频 ≤1h、≤150MB（MP3/WAV/OGG/MP4）。

音频输入

URL 链接

本地文件上传

音频 URL

音频格式

语言（留空自动识别）

采样率

声道数

合成文本

合成模式

大模型 V3 Chunked

最新 V3 大模型 · HTTP 单次合成

大模型 V1 HTTP

HTTP 一次返回 base64

小模型 HTTP

POST 返回 base64

异步长文本

submit + query 轮询

V3 Chunked 协议，一次性合成返回二进制音频流。

合成参数

音色 voice_type

编码格式

语速 speed_ratio (0.1~2)

音量 loudness_ratio (0.5~2)

采样率

enable_lang_mix — 中英混读

"mixed"中英混合 / "auto"自动判断

合成音频

音视频字幕生成

提交音视频 URL · 支持中英混合及方言 · 自动产出分句字幕

音视频文件 URL

语言

每行字数 (words_per_line)

最大行数 (max_lines)

ITN

首字母大写

字幕结果

全文

SRT

原始

—

控制台管理

通用 Bearer 鉴权接口，使用 Access Token 操作自己的账号资源

查询结果

—