主要功能
- 实时头像:使用Trulience的免费头像选项,需配置头像ID和token。
- 实时语音与MCP服务器:集成MCP服务器扩展LLM能力,支持通过Playground添加MCP URL。
- 实时硬件通信:支持Espressif ESP32-S3 Korvo V3开发板,实现硬件与LLM的实时交互。
- 实时视觉和屏幕共享检测:集成Google Gemini Multimodal Live API,提供实时视觉和屏幕共享功能。
- 图像生成:通过StoryTeller扩展支持实时图像生成,集成天气检查和网页搜索工具。
- 其他LLM平台集成:支持Dify等平台,增强实时交互体验。
使用说明
- 本地运行:
- 前置条件:Docker/Docker Compose、Node.js v18、API密钥(Agora App ID和证书、OpenAI API密钥、Deepgram ASR、Elevenlabs TTS)。
- 克隆仓库,进入
ai_agents目录,复制.env.example为.env并配置密钥。
- 运行
docker compose up -d启动容器,进入容器后使用task use AGENT=voice-assistant构建代理。
- 启动Web服务器:
task build和task run。
- TMAN Designer定制:
- 访问http://localhost:49483。
- 右键STT、LLM、TTS扩展配置API。
- 通过Apps Manager运行应用并勾选'Run with TEN Agent'。
- 自托管部署:支持Docker部署,创建发布镜像。
目标用户
开发者、AI研究者、企业用户,适用于构建语音助手、视觉AI代理和多模态交互系统。
核心优势
- 开源免费:Apache 2.0许可证,无费用。
- 多模态支持:语音、视觉、头像实时交互。
- 高性能:低延迟、实时处理。
- 跨平台:支持C、Python、C++、Rust、TypeScript、Go语言。
- 社区生态:包括TEN Framework、TEN Turn Detection、TEN VAD等组件,提供Discord、Hugging Face社区支持。
典型用例
- AI语音助手(如实时对话代理)。
- 硬件集成(如ESP32设备通信)。
- 视觉AI应用(如屏幕共享分析)。
- 图像生成(如StoryTeller)。
收费模式
完全免费开源,无付费层级或订阅费用。