Happy Voice 让你可以通过语音与 AI 编程会话交互,而不必手动输入。它通过语音网关处理你的语音,并智能路由 — 直接回复或将指令转发给你的 AI 编程代理。

工作原理

语音管道分为三个阶段:
  1. 语音转文字(STT) — 实时转录你的语音
  2. 语言模型(LLM) — 中间 AI 决定如何处理你的消息
  3. 文字转语音(TTS) — 将回复以语音形式播放给你
语音代理充当智能桥梁,它会决定:
  • 转发给编程代理 — 用于编程指令,如”重构认证模块”
  • 直接回复 — 用于对话类问题,如”当前状态是什么?”
  • 调用工具 — 用于应用操作,如”切换到会话 2”或”批准权限请求”

支持的语言

语音功能支持多种语言。代理会自动对技术术语和编程专业用语进行语音纠正,这对非英语语言尤其有用,因为语音转文字可能会误解与代码相关的术语。 支持的语言包括:英语、中文、日语、韩语、西班牙语、法语、德语等。

语音提供商

Happy 支持两种语音提供商:
提供商说明
Happy Voice内置功能,开箱即用,无需额外设置
ElevenLabs第三方语音 AI,需要 ElevenLabs 账号
Happy Voice 是默认且推荐的提供商。它内置于应用中,可以立即使用。详见语音设置了解配置细节。