语音代理的决策逻辑
语音代理使用基于优先级的决策框架:- 工具操作? — 如果你要求在应用中执行操作(切换会话、批准权限),它会直接调用工具
- 发给编程代理? — 如果你在给出编程指令,它会转发给 Claude/Codex/Gemini
- 语音代理自行处理? — 如果你在闲聊或提问,它会直接回复
- 不确定? — 它会提出澄清问题,而不是猜测
命令示例
转发给编程代理:- “重构认证模块,改用 JWT”
- “为用户注册接口编写测试”
- “解释一下 sync 函数的作用”
- “当前会话状态是什么?”
- “把最新的代理回复读给我听”
- “切换到会话 2”
- “批准权限请求”
- “创建一个新的 Claude 会话”
- “回到主界面”
- “结束这次语音对话”
语音纠正
语音代理会自动纠正常见的语音转文字错误,尤其是技术术语。例如:- 同音词:“组建” -> “组件”(component)
- 技术术语:代码函数名和编程概念会根据当前会话上下文进行纠正
上下文感知
语音代理了解:- 你当前的会话及其最近的消息
- AI 编程代理当前正在执行的任务
- 正在编辑的文件
使用技巧
- 保持简洁 — 语音代理对简洁的指令响应最佳
- 具体明确 — “修复 auth.ts 中的 bug”比”修复那个东西”更好
- 使用自然语言 — 无需使用特殊语法或命令