工作原理
语音管道分为三个阶段:- 语音转文字(STT) — 实时转录你的语音
- 语言模型(LLM) — 中间 AI 决定如何处理你的消息
- 文字转语音(TTS) — 将回复以语音形式播放给你
- 转发给编程代理 — 用于编程指令,如”重构认证模块”
- 直接回复 — 用于对话类问题,如”当前状态是什么?”
- 调用工具 — 用于应用操作,如”切换到会话 2”或”批准权限请求”
支持的语言
语音功能支持多种语言。代理会自动对技术术语和编程专业用语进行语音纠正,这对非英语语言尤其有用,因为语音转文字可能会误解与代码相关的术语。 支持的语言包括:英语、中文、日语、韩语、西班牙语、法语、德语等。语音提供商
Happy 支持两种语音提供商:| 提供商 | 说明 |
|---|---|
| Happy Voice | 内置功能,开箱即用,无需额外设置 |
| ElevenLabs | 第三方语音 AI,需要 ElevenLabs 账号 |