语音配置完成后,在任意会话中点击麦克风图标即可开始语音对话。

语音代理的决策逻辑

语音代理使用基于优先级的决策框架:
  1. 工具操作? — 如果你要求在应用中执行操作(切换会话、批准权限),它会直接调用工具
  2. 发给编程代理? — 如果你在给出编程指令,它会转发给 Claude/Codex/Gemini
  3. 语音代理自行处理? — 如果你在闲聊或提问,它会直接回复
  4. 不确定? — 它会提出澄清问题,而不是猜测

命令示例

转发给编程代理:
  • “重构认证模块,改用 JWT”
  • “为用户注册接口编写测试”
  • “解释一下 sync 函数的作用”
由语音代理直接处理:
  • “当前会话状态是什么?”
  • “把最新的代理回复读给我听”
工具操作:
  • “切换到会话 2”
  • “批准权限请求”
  • “创建一个新的 Claude 会话”
  • “回到主界面”
  • “结束这次语音对话”

语音纠正

语音代理会自动纠正常见的语音转文字错误,尤其是技术术语。例如:
  • 同音词:“组建” -> “组件”(component)
  • 技术术语:代码函数名和编程概念会根据当前会话上下文进行纠正

上下文感知

语音代理了解:
  • 你当前的会话及其最近的消息
  • AI 编程代理当前正在执行的任务
  • 正在编辑的文件
这些上下文信息帮助它更好地决定如何处理你的请求。例如,如果你的代理刚完成一项任务,语音代理可以直接总结结果,无需你主动询问。

使用技巧

  • 保持简洁 — 语音代理对简洁的指令响应最佳
  • 具体明确 — “修复 auth.ts 中的 bug”比”修复那个东西”更好
  • 使用自然语言 — 无需使用特殊语法或命令