火山引擎豆包语音工具箱

录音文件识别 · TTS 合成 · 字幕生成 · 控制台管理 · API Key 存于浏览器 localStorage
火山引擎鉴权
新控制台接口仅需 API Key;旧 v1 接口(TTS/字幕)还需 App ID + Access Token,鉴权一律在 Cloudflare 后端注入。
语音识别 ASR
语音合成 TTS
音视频字幕
控制台管理
API 配置
标准版
submit + query 轮询 · 无时长限制
极速版
一次请求返回 · ≤2h / ≤100MB
闲时版
submit + query · 大批量离线·24h 内完成
音频输入
URL 链接
本地文件上传
识别参数
将"一百二十三" → "123",默认开启
添加标点符号,默认关闭
去除停顿词/语气词/重复词,默认关闭
返回时间轴+分词,默认开启
区分不同说话人(≤10人),默认关闭
区分左右声道,默认关闭
高级参数
执行
识别结果
全文文本
分句时间轴
原始 JSON
合成文本
合成模式
大模型 V3 Chunked
最新 V3 大模型 · HTTP 单次合成
大模型 V1 HTTP
HTTP 一次返回 base64
小模型 HTTP
POST 返回 base64
异步长文本
submit + query 轮询

V3 Chunked 协议,一次性合成返回二进制音频流。

合成参数
"mixed"中英混合 / "auto"自动判断
合成音频
音视频字幕生成

提交音视频 URL · 支持中英混合及方言 · 自动产出分句字幕

字幕结果
全文
SRT
原始
控制台管理

通用 Bearer 鉴权接口,使用 Access Token 操作自己的账号资源

查询结果