基于websocket实现浏览器端文本、视频、语音的即时通讯,以及实时语音转文字
any4any: 语音识别、文本转语音、文档重排、数据库连接、知识库文本处理和MCP服务的一键式API服务
通过天猫精灵语音技能控制 MicroPython ESP32 开发板
DeepSpeech2是一个采用PaddlePaddle平台的端到端自动语音识别(ASR)引擎的开源项目
AI拟声: 克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time