⚠️ 重要:音频要求
- 时长:10-20 秒(建议不超过60秒)
- 连续语音:至少包含一段超过 5 秒的连续人声
- 格式:WAV 或 MP3
- 环境:安静环境录制,无背景噪音、无音乐
- 语言:支持中文、英文、日语、韩语等
- 内容:连贯朗读,避免频繁停顿
- 质量:清晰的人声,建议使用手机或麦克风近距离录音
提示:如果提示"No valid speech segments found",说明音频质量不符合要求,请重新录制。
⚠️ 重要提示:当前限制
qwen3-tts-vc-realtime 是实时模型,仅支持 WebSocket 协议,不支持传统的 HTTP POST 调用。
可选方案:
- 方案 1(推荐):使用 Python 脚本 + PHP 调用(支持自定义音色)
- 方案 2:切换到非实时模型(仅支持预设音色)
- 方案 3:使用 Node.js 中间服务
详细说明请查看:语音合成说明文档