开源数字人大盘点,有没有你在用的

这些项目里,有没有你已经在用了的?

数字人技术在 2024–2025 年迎来爆发,从“能动嘴”到“能演戏”,从“能对话”到“能直播”,开源生态也在快速成熟。

下面这份清单覆盖了当前 GitHub 上最具代表性的开源数字人项目,涵盖驱动模型、视频生成、音频合成、虚拟主播系统、端侧方案等多个方向。

打开网易新闻 查看精彩图片

01. Hallo3(复旦开源)

Hallo3 是复旦团队推出的新一代开源数字人生成框架,主打高保真、自然流畅的面部驱动效果。项目基于先进的生成式视觉模型,能够精准捕捉音频与表情之间的对应关系,实现逼真的口型、眼神与面部细节同步。相比传统方法,Hallo3 在表情细腻度、动作连贯性和视频质量上都有明显提升,非常适合科研人员、开发者以及内容创作者进行二次开发或模型训练。其代码结构清晰、可扩展性强,是当前国内学术界最具代表性的数字人开源项目之一。

地址: https://github.com/fudan-generative-vision/hallo3

STAR数:1.4k+

定位: 高质量数字人视频生成框架
亮点:

  • • 复旦团队出品,学术背景强

  • • 支持高保真面部驱动

  • • 适合科研、二次开发、模型训练

适用场景: 数字人研究、视频生成算法验证

2. LatentSync(字节跳动开源)

LatentSync 是字节跳动开源的高精度音频驱动数字人框架,专注解决“嘴型不准、节奏不稳”这一行业痛点。它通过潜空间同步技术,将音频特征与视频生成过程深度绑定,使得口型与语音的对应关系更加自然、准确。项目在短视频、虚拟主播、教育讲解等场景中表现出色,尤其适合对口型同步要求极高的应用。LatentSync 的模型推理速度快、效果稳定,开源后受到大量开发者关注,是当前数字人口型驱动领域的标杆级项目。

地址: https://github.com/bytedance/LatentSync

STAR数:5.4k+

定位: 高同步性数字人口型驱动
亮点:

  • • 字节跳动开源,技术成熟度高

  • • 主打“音频驱动 → 高精度口型同步”

  • • 适合短视频、虚拟主播、教育内容

适用场景: 需要“嘴型精准同步”的数字人场景

3. EchoMimic V2(阿里开源)

EchoMimic V2 是阿里蚂蚁团队推出的数字人表情与动作模仿框架,相比前代版本在自然度、细节还原和驱动稳定性上全面升级。它支持音频驱动、视频模仿等多种模式,能够生成更贴近真人的表情变化和头部动作。项目在“拟真人”数字人方向表现突出,适合用于主持、讲解、客服等需要高可信度的场景。其模型结构经过深度优化,推理效率更高,适合本地部署或云端服务,是阿里在数字人领域最具代表性的开源成果之一。

地址: https://github.com/antgroup/echomimic_v2

STAR数:4.5k+

定位: 高质量表情与动作模仿
亮点:

  • • EchoMimic 升级版,效果更自然

  • • 支持多模态驱动(音频/视频)

  • • 适合做“拟真人”数字人

适用场景: 数字人主持、讲解、客服

打开网易新闻 查看精彩图片

4. Sonic(腾讯 & 浙大开源)

地址: https://github.com/jixiaozhong/Sonic

STAR数:3.2k+

定位: 实时数字人驱动
亮点:

  • • 腾讯 + 浙大联合

  • • 强调实时性,延迟极低

  • • 适合直播、互动场景

适用场景: 虚拟主播、实时互动数字人

5. HunyuanVideo(腾讯开源)

HunyuanVideo 是腾讯混元大模型体系中的视频生成模型,支持文生视频、图生视频、动作生成等多种能力。虽然它不是专门的数字人框架,但在数字人背景生成、动作补全、场景扩展等方面有极高价值。模型能够生成高分辨率、长时序的视频内容,画面稳定性和细节表现都处于行业领先水平。对于希望打造“数字人 + 视频生成”一体化内容的开发者来说,HunyuanVideo 是一个非常强大的底层工具,适合创作短片、广告、虚拟场景等内容。

大视频生成模型的系统框架

地址: https://github.com/Tencent/HunyuanVideo

STAR数:11.7k+

定位: 文生视频 / 视频生成大模型
亮点:

  • • 腾讯混元体系的一部分

  • • 支持高质量视频生成

  • • 可用于数字人背景、动作生成

适用场景: 数字人视频增强、背景生成、动作生成

打开网易新闻 查看精彩图片

6. AIGCPanel

AIGCPanel 是一个简单易用的一站式AI数字人系统,支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。

地址: https://github.com/modstart-lib/aigcpanel

STAR数:4.5k+

定位: 一站式数字人系统
亮点:

  • • 集成视频合成、声音合成、声音克隆

  • • 本地模型管理非常方便

  • • 一键导入模型,适合非技术用户

适用场景: 企业/个人快速搭建数字人系统

打开网易新闻 查看精彩图片

7. AI-Vtuber(虚拟主播系统)

Luna AI 是一款结合了最先进技术的虚拟AI主播。它的核心是一系列高效的人工智能模型和平台,包括 ChatterBot、GPT、Claude、langchain、chatglm、text-generation-webui、讯飞星火、智谱AI、谷歌Bard、通义星尘、阿里云百炼(通义千问、百川、月之暗面、零一万物、MiniMax)、千帆大模型(文心一言)、Gemini、Kimi Chat、koboldcpp、FastGPT、Ollama、One-API、AnythingLLM、LLM_TPU、Dify、火山引擎(豆包)。这些模型既可以在本地运行,也可以通过云端服务提供支持。当然,为了让对话照进现实,还结合了多模态模型,包括 Gemini、glm-4v 的图像识别能力,获取电脑画面进行分析讲解。

地址: https://github.com/Ikaros-521/AI-Vtuber

STAR数:4.3k+

定位: 全功能虚拟 AI 主播
亮点:

  • • 支持 GPT、Claude、通义、文心、Gemini 等几十种模型

  • • 支持本地模型(Ollama、text-generation-webui)

  • • 支持多模态识别(如 Gemini、GLM-4V)

  • • 能读取电脑画面做讲解(非常强)

适用场景:

  • • 24 小时 AI 直播

  • • 游戏主播

  • • 教育讲解

  • • 虚拟客服

打开网易新闻 查看精彩图片

8. JoyGen

JoyGen 是一个多模态数字人生成框架,支持音频驱动、视频驱动等多种方式,主打自然、稳定的数字人生成效果。项目结构清晰,易于二次开发,适合科研团队和开发者进行自定义训练或扩展。JoyGen 在表情细节、头部动作和嘴型同步方面表现均衡,是一个“上手快、效果稳”的数字人方案。对于内容创作者来说,它能快速生成高质量数字人视频;对于开发者来说,它是一个优秀的研究与工程结合的开源项目。

地址: https://github.com/JOY-MM/JoyGen

STAR数:419

定位: 多模态数字人生成框架
亮点:

  • • 支持音频驱动、视频驱动

  • • 效果自然,适合内容创作

  • • 结构清晰,适合二次开发

适用场景: 内容创作、短视频数字人

9. Duix-Avatar

地址: https://github.com/duixcom/Duix-Avatar

STAR数:12.2k+

定位: 高质量数字人生成
亮点:

  • • Duix 系列主力项目

  • • 支持高保真面部驱动

  • • 效果接近商业级

适用场景: 商业数字人、品牌 IP、虚拟主持

打开网易新闻 查看精彩图片

10. Duix Mobile

Duix-Mobile 是 Duix 系列的移动端版本,主打“轻量化 + 端侧可运行”。它能够在手机等移动设备上生成数字人视频,非常适合 App 内嵌数字人助手、小程序数字人、移动端内容创作等场景。项目对模型进行了深度压缩与优化,在保证效果的同时显著降低算力需求。对于希望在移动端落地数字人功能的开发者来说,Duix-Mobile 是目前最成熟的开源方案之一。

地址: https://github.com/duixcom/Duix-Mobile

STAR数:7.8k+

定位: 端侧数字人(手机可跑)
亮点:

  • • 主打“轻量 + 端侧可用”

  • • 适合移动端应用、App 内嵌数字人

  • • 性能优化优秀

适用场景:

  • • 手机 App 数字人

  • • 小程序数字人

  • • 端侧 AI 助手

总结:不同需求怎么选?

需求

推荐项目

高质量数字人视频

Hallo3、Duix-Avatar、EchoMimic V2

口型同步最强

LatentSync

实时互动/直播

Sonic、AI-Vtuber

文生视频/动作生成

HunyuanVideo

一站式数字人系统

AIGCPanel

移动端数字人

Duix-Mobile

多模态虚拟主播

AI-Vtuber