ESP-RTC(Real-Time Communication) 音视频通信方案,能够实现稳定流畅、超低延时的语音和视频实时通信
ESP-RTC以ESP32-S3-Korvo-2多媒体开发板为核心。ESP32-S3-Korvo-2搭载 ESP32-S3 AI SoC,拥有双麦克风阵列,支持近/远场语音唤醒和语音识别。

它还集成了摄像头、Micro SD 卡、LCD 等外设,支持基于 MJPEG 视频流的处理,为用户构建低成本、低功耗、可联网的音视频产品提供了理想的开发原型。
ESP32-S3是一款低功耗的 MCU 系统级芯片 (SoC),支持 2.4 GHz Wi-Fi 和低功耗蓝牙 (Bluetooth® LE) 双模无线通信。
芯片集成了 Xtensa® 32 位 LX7 双核处理器、超低功耗协处理器、Wi-Fi 基带、蓝牙基带、RF 模块以及外设。

ESP32-S3 MCU增加了用于加速神经网络计算和信号处理等工作的向量指令,通过这些向量指令,可以实现高性能的图像识别、语音唤醒和识别等应用。
ESP-RTC方案能够实现稳定流畅、超低延时的语音和视频实时通信。ESP-RTC方案基于SIP(Session Initialization Protocol,会话初始协议)协议栈,实现了实时的音视频通信。
协议栈包含传输层、事务层和会话层,其信令交互模块支持 UDP、TCP 和 TLS 三种方式,媒体传输模块支持 RTP (UDP)、RTCP、SRTP、TURN 等 NAT 透传协议。

ESP-RTC 方案还在传输模块中增加了弱网对抗算法,如 Jitter Buffer 和 PLC,有效解决了丢包、抖动、拥塞、延时等问题,能够充分保证音视频通信的流畅性与实时性。
ESP-RTC 方案既可以作为 RTSP 服务器,支持使用 VLC/FFMPEG/PotPlayer/KmPlayer 等播放器进行点播;也可以作为 RTSP 客户端,支持对 EasyDarwin 等开源服务器进行直播推流和拉流播放。

ESP-RTC 基于音频 3A 算法 (AEC 声学回声消除、ANS 背景噪声抑制、AGC 音频自动增益),降低了通话中的噪音和回声,使语音对讲保持高质量稳定。
结合ESP32-S3,ESP-RTC可借助其出色的AI运算能力,实现高性能语音唤醒与识别、图像识别等应用,广泛适用于智能音箱、可视对讲门铃、智能家居控制面板、宠物监控、车载行车记录仪、儿童玩具等场景。