硬件对话智能体,是一个端到端的智能硬件对话开发平台,兼容主流 IoT 芯片,可快速帮助开发者将低延迟、高自然的 AI 对话能力集成到智能硬件中,让智能硬件会听、会看、会说话,适用于 AI 玩具、智能穿戴设备(AI眼镜,智能手表等设备)、陪伴机器人、智能家居、教育硬件、具身智能设备等场景。
- AI 实时语音对话: 与智能体进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。
- 语音识别: 将用户语音实时转写为文本,供大模型分析理解、生成字幕等。
- 大模型处理: 解析输入文本,并生成语义响应,驱动智能体对话逻辑。
- 语音合成: 将大模型生成的文字回复转化为语音。
- 降噪: 结合音频 3A 技术和 AI 降噪算法,能够兼顾强降噪与高保真,确保在嘈杂的环境中有效去除背景噪音,保留清晰的人声。
- 打断智能体: 在对话过程中,用户可以随时打断智能体的语音输出,实现双向互动。
- 视频互动: 接入视觉理解模型,使智能体能够理解实时视频画面或指定外部图片,从而实现感知环境、理解真人行为、图像问答等视觉交互。
- Function calling: 允许大模型识别用户对话中的特定需求,并在内容的过程中调用外部函数实现天气查询、数学计算等功能。如处理实时数据检索、文件处理、数据库查询等,从而扩展智能体的服务能力和应用场景。
- 实时字幕: 实时将用户和智能体的对话内容转化为文字,可用于字幕渲染或存储。
-
application: 该目录下包含了ai对话智能体application的相关代码,包括:
- Platform: 屏蔽硬件细节,使用户专注软件开发
- Framwork: 规范业务交互协议,使各个业务模块间能十分容易的交互
- service: 拆分不同的业务模块,每个业务模块都代表了 这一部分业务的最佳实践:
-
volc_conv_ai: 该目录下包含了与云端智能体建立网络连接相关的代码,对外是统一的建联接口( volc_conv_ai/inc/volc_conv_ai.h ),底层建联有两种模式:
- 低负载的建联方案(volc_conv_ai/src/transports/low_load)
- 高质量的建联方案(volc_conv_ai/src/transports/high_quality) 如果想快速移植这部分代码到当前仓库尚未支持的平台,请参考平台移植
-
examples: 该目录下给出了基于application和volc_conv_ai快速构建app的demo代码示例;
参考快速入门开通服务并搭建硬件对话智能体。
请根据你使用的硬件开发板,选择对应的设备端部署教程:
- 乐鑫 ESP32-S3-EchoEar (喵伴): 运行设备端_乐鑫 (完善中)
- 乐鑫 ESP32-S3-Korvo-2: 请切换分支到main_Korvo_2
- MacOS方案: 运行设备端_MacOS(完善中)
- 乐鑫 ESP32-S3-EchoEar(喵伴): 运行设备端_乐鑫 (推荐)
- 乐鑫 ESP32-S3-Korvo-2: 请切换分支到main_Korvo_2
- MacOS方案: 运行设备端_MacOS(完善中)
欢迎加入我们的技术交流群或提出Issue,一起探讨技术,一起学习进步。
