始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

在人工智能飞速发展的浪潮中,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务里起着关键作用。只是,移动设备和边缘设备硬件资源有限,能效要求又高,要把这些模型成功部署上去,长期以来都是棘手难题。

在这一背景下,轻量级多模态模型Ivy-VL成为面向移动端多模态模型的新代表。它解决了多模态大模型在端侧部署时面临的硬件资源受限、能效不足及难以满足多模态任务需求等问题。

该模型由AI Safeguard联合卡内基梅隆大学、斯坦福大学开发,它的出现既推动了移动端AI应用的发展,也为更多设备在低功耗环境下运行先进AI技术提供了基础。Ivy-VL模型已上线始智AI-wisemodel开源社区,欢迎前去体验。

打开网易新闻 查看精彩图片

模型地址

https://wisemodel.cn/models/ivy1997/Ivy-VL

01.

模型亮点

1.极致轻量化

Ivy-VL的参数量仅为 3B,极大地降低了计算资源需求,与7B 以几十 B 的多模态模型相比,具有更小的硬件占用。模型可高效运行于 AI 眼镜、智能手机等资源受限的设备上。

2.卓越性能

Ivy-VL 在多个多模态榜单中夺得 SOTA(state-of-the-art)成绩。通过精⼼优化的数据集训练,Ivy[1]VL 展现了远超同类模型的性能,证明了小模型同样可以实现⼤突破。

在专业多模态模型评测榜单OpenCompass上⾯,做到4B以下开源模型第⼀的性能。超越了顶尖的端侧 SOTA 模型,包括Qwen2-VL-2B、InternVL2-2B、InternVL2.5-2B、SmolVLM-Instruct、Aquila-VL-2B以及PaliGemma3B等模型。

打开网易新闻 查看精彩图片

3.低延迟和高响应速度

3B 的LLM 模型大小,显著提升了 Ivy-VL 的响应速度,确保其在端侧设备上实现实时推理。在生成速度、能效比和准确率之间,达到了完美平衡。

4.强大的跨模态理解能力

Ivy-VL基于 LLaVA-One-Vision,结合先进的视觉编码器(google/siglip-so400m-patch14-384)与强大的语言模型(Qwen2.5-3B-Instruct),Ivy-VL在视觉问答、图像描述、复杂推理等任务中表现优异,完美满足端侧应用的多模态需求。

5.开放生态

Ivy-VL 将模型开源,并且允许商用,方便开发者快速上手。无论是 AI 创新团队还是个人开发者,都可以利用 Ivy-VL 构建自己的多模态应用。

02.

核心应用场景

Ivy-VL为多模态大模型的边缘部署和普及开创了全新可能。无论是推动移动设备AI 应用,还是服务于广泛的 IoT 设备,Ivy-VL 都在积极赋能各个领域。

智能穿戴设备:支持 AI 眼镜实现实时视觉问答,辅助增强现实(AR)体验。

手机端智能助手:提供更智能的多模态交互能力,让手机用户体验更自然的 AI 服务。

物联网设备:助力智能家居和 IoT 场景实现更高效的多模态数据处理。

移动端教育与娱乐:在教育软件中增强图像理解与交互能力,推动移动学习与沉浸式娱乐体验。

03.

测试用例

Ivy-VL 在科学自然问题中获得了很好的性能,可以发现在第一张图中,Ivy-VL能准确识别是哪个生物体的生命周期,第二张图中判断图中哪个阶段代表冬至。

打开网易新闻 查看精彩图片

在推理和图表问题中,可以看出,在第一张图中,Ivy-VL 可以准确的识别出图中量杯的总容积是多少。第二张图中,需要进行的推理问题,模型同样给出正确的答案。

打开网易新闻 查看精彩图片

Ivy-VL标志着轻量级多模态模型在端侧设备上的一次重要突破。未来,研究团队将持续优化模型,进一步提升其在视频模态任务中的表现,并探索更多行业应用场景。

编辑丨赵雅鑫

----- END -----

wisemodel相关:

系统升级:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看