语音功能在 Happy 移动应用的 设置 > 语音 中进行配置。

Happy Voice(默认)

Happy Voice 内置于应用中,开箱即用 — 无需额外设置或注册。只需在任意会话中点击麦克风图标即可开始语音对话。 Happy Voice 使用基于 LiveKit 的语音网关,采用 STT -> LLM -> TTS 管道。默认为所有用户提供托管网关。

自托管定制

如果你想完全控制语音管道 — 选择自己的 STT、LLM 和 TTS 模型,或将语音数据保留在自己的基础设施上 — 可以部署自己的 Happy Voice 网关。 要求:
  • 一个 LiveKit 服务器实例
  • 所选提供商的 API 密钥(例如 OpenAI 用于 STT/LLM,Cartesia 用于 TTS)
在 Happy 应用中,前往 设置 > 语音 并配置:
  • 提供商 — 选择 “Happy Voice”
  • 网关 URL — 你自托管的 Happy Voice 端点
  • 公钥 — 语音服务器的授权密钥
或通过环境变量设置:
EXPO_PUBLIC_VOICE_PROVIDER=happy-voice
EXPO_PUBLIC_VOICE_BASE_URL=https://your-voice-server.com
EXPO_PUBLIC_VOICE_PUBLIC_KEY=your-public-key
详见自托管获取部署说明。

ElevenLabs(备选方案)

ElevenLabs 是一个第三方语音 AI 服务,提供高质量的语音合成。需要免费或付费的 ElevenLabs 账号。
  1. elevenlabs.io 创建账号并获取 Agent ID
  2. 在 Happy 应用中,前往 设置 > 语音
  3. 选择 ElevenLabs 作为提供商
  4. 输入你的 Agent ID
或者通过环境变量设置 Agent ID:
EXPO_PUBLIC_ELEVENLABS_AGENT_ID=your-agent-id