开源数字人大盘点，有没有你在用的|数字人|模态|高吞吐量内核

开源数字人大盘点，有没有你在用的

这些项目里，有没有你已经在用了的？

数字人技术在 2024–2025 年迎来爆发，从“能动嘴”到“能演戏”，从“能对话”到“能直播”，开源生态也在快速成熟。

下面这份清单覆盖了当前 GitHub 上最具代表性的开源数字人项目，涵盖驱动模型、视频生成、音频合成、虚拟主播系统、端侧方案等多个方向。

01. Hallo3（复旦开源）

Hallo3 是复旦团队推出的新一代开源数字人生成框架，主打高保真、自然流畅的面部驱动效果。项目基于先进的生成式视觉模型，能够精准捕捉音频与表情之间的对应关系，实现逼真的口型、眼神与面部细节同步。相比传统方法，Hallo3 在表情细腻度、动作连贯性和视频质量上都有明显提升，非常适合科研人员、开发者以及内容创作者进行二次开发或模型训练。其代码结构清晰、可扩展性强，是当前国内学术界最具代表性的数字人开源项目之一。

地址： https://github.com/fudan-generative-vision/hallo3

STAR数：1.4k+

定位： 高质量数字人视频生成框架
亮点：

• 复旦团队出品，学术背景强
• 支持高保真面部驱动
• 适合科研、二次开发、模型训练

适用场景： 数字人研究、视频生成算法验证

2. LatentSync（字节跳动开源）

LatentSync 是字节跳动开源的高精度音频驱动数字人框架，专注解决“嘴型不准、节奏不稳”这一行业痛点。它通过潜空间同步技术，将音频特征与视频生成过程深度绑定，使得口型与语音的对应关系更加自然、准确。项目在短视频、虚拟主播、教育讲解等场景中表现出色，尤其适合对口型同步要求极高的应用。LatentSync 的模型推理速度快、效果稳定，开源后受到大量开发者关注，是当前数字人口型驱动领域的标杆级项目。

地址： https://github.com/bytedance/LatentSync

STAR数：5.4k+

定位： 高同步性数字人口型驱动
亮点：

• 字节跳动开源，技术成熟度高
• 主打“音频驱动 → 高精度口型同步”
• 适合短视频、虚拟主播、教育内容

适用场景： 需要“嘴型精准同步”的数字人场景

3. EchoMimic V2（阿里开源）

EchoMimic V2 是阿里蚂蚁团队推出的数字人表情与动作模仿框架，相比前代版本在自然度、细节还原和驱动稳定性上全面升级。它支持音频驱动、视频模仿等多种模式，能够生成更贴近真人的表情变化和头部动作。项目在“拟真人”数字人方向表现突出，适合用于主持、讲解、客服等需要高可信度的场景。其模型结构经过深度优化，推理效率更高，适合本地部署或云端服务，是阿里在数字人领域最具代表性的开源成果之一。

地址： https://github.com/antgroup/echomimic_v2

STAR数：4.5k+

定位： 高质量表情与动作模仿
亮点：

• EchoMimic 升级版，效果更自然
• 支持多模态驱动（音频/视频）
• 适合做“拟真人”数字人

适用场景： 数字人主持、讲解、客服

4. Sonic（腾讯 & 浙大开源）

地址： https://github.com/jixiaozhong/Sonic

STAR数：3.2k+

定位： 实时数字人驱动
亮点：

• 腾讯 + 浙大联合
• 强调实时性，延迟极低
• 适合直播、互动场景

适用场景： 虚拟主播、实时互动数字人

5. HunyuanVideo（腾讯开源）

HunyuanVideo 是腾讯混元大模型体系中的视频生成模型，支持文生视频、图生视频、动作生成等多种能力。虽然它不是专门的数字人框架，但在数字人背景生成、动作补全、场景扩展等方面有极高价值。模型能够生成高分辨率、长时序的视频内容，画面稳定性和细节表现都处于行业领先水平。对于希望打造“数字人 + 视频生成”一体化内容的开发者来说，HunyuanVideo 是一个非常强大的底层工具，适合创作短片、广告、虚拟场景等内容。

大视频生成模型的系统框架

地址： https://github.com/Tencent/HunyuanVideo

STAR数：11.7k+

定位： 文生视频 / 视频生成大模型
亮点：

• 腾讯混元体系的一部分
• 支持高质量视频生成
• 可用于数字人背景、动作生成

适用场景： 数字人视频增强、背景生成、动作生成

6. AIGCPanel

AIGCPanel 是一个简单易用的一站式AI数字人系统，支持视频合成、声音合成、声音克隆，简化本地模型管理、一键导入和使用AI模型。

地址： https://github.com/modstart-lib/aigcpanel

STAR数：4.5k+

定位： 一站式数字人系统
亮点：

• 集成视频合成、声音合成、声音克隆
• 本地模型管理非常方便
• 一键导入模型，适合非技术用户

适用场景： 企业/个人快速搭建数字人系统

7. AI-Vtuber（虚拟主播系统）

Luna AI 是一款结合了最先进技术的虚拟AI主播。它的核心是一系列高效的人工智能模型和平台，包括 ChatterBot、GPT、Claude、langchain、chatglm、text-generation-webui、讯飞星火、智谱AI、谷歌Bard、通义星尘、阿里云百炼（通义千问、百川、月之暗面、零一万物、MiniMax）、千帆大模型（文心一言）、Gemini、Kimi Chat、koboldcpp、FastGPT、Ollama、One-API、AnythingLLM、LLM_TPU、Dify、火山引擎（豆包）。这些模型既可以在本地运行，也可以通过云端服务提供支持。当然，为了让对话照进现实，还结合了多模态模型，包括 Gemini、glm-4v 的图像识别能力，获取电脑画面进行分析讲解。

地址： https://github.com/Ikaros-521/AI-Vtuber

STAR数：4.3k+

定位： 全功能虚拟 AI 主播
亮点：

• 支持 GPT、Claude、通义、文心、Gemini 等几十种模型
• 支持本地模型（Ollama、text-generation-webui）
• 支持多模态识别（如 Gemini、GLM-4V）
• 能读取电脑画面做讲解（非常强）

适用场景：

• 24 小时 AI 直播
• 游戏主播
• 教育讲解
• 虚拟客服

8. JoyGen

JoyGen 是一个多模态数字人生成框架，支持音频驱动、视频驱动等多种方式，主打自然、稳定的数字人生成效果。项目结构清晰，易于二次开发，适合科研团队和开发者进行自定义训练或扩展。JoyGen 在表情细节、头部动作和嘴型同步方面表现均衡，是一个“上手快、效果稳”的数字人方案。对于内容创作者来说，它能快速生成高质量数字人视频；对于开发者来说，它是一个优秀的研究与工程结合的开源项目。

地址： https://github.com/JOY-MM/JoyGen

STAR数：419

定位： 多模态数字人生成框架
亮点：

• 支持音频驱动、视频驱动
• 效果自然，适合内容创作
• 结构清晰，适合二次开发

适用场景： 内容创作、短视频数字人

9. Duix-Avatar

地址： https://github.com/duixcom/Duix-Avatar

STAR数：12.2k+

定位： 高质量数字人生成
亮点：

• Duix 系列主力项目
• 支持高保真面部驱动
• 效果接近商业级

适用场景： 商业数字人、品牌 IP、虚拟主持

10. Duix Mobile

Duix-Mobile 是 Duix 系列的移动端版本，主打“轻量化 + 端侧可运行”。它能够在手机等移动设备上生成数字人视频，非常适合 App 内嵌数字人助手、小程序数字人、移动端内容创作等场景。项目对模型进行了深度压缩与优化，在保证效果的同时显著降低算力需求。对于希望在移动端落地数字人功能的开发者来说，Duix-Mobile 是目前最成熟的开源方案之一。

地址： https://github.com/duixcom/Duix-Mobile

STAR数：7.8k+

定位： 端侧数字人（手机可跑）
亮点：