苹果推出的视频识别模型：FastVLM，让AI有了眼睛

Kevin改变世界的点滴

2025-09-04 22:50 ·广东 ·优质互联网领域创作者

就在最近苹果更新了一个新的模型，叫做FastVLM，是开源的，还只有7B，显存占用不到10多个GB，这个模型在依靠阿里Qwen2-7B做出更深度的训练。

这个模型最大的突破就是识别视频流，在算法层面上，论文指出其准确度都是最高

这个模型的生成原理如下，通过将视频将一阵一阵的图像进行处理，并且通过提取每一帧图像的特征再来汇总最后在第五步的时候将特征汇总，然后再通过文本向量数据库将其结果与其匹配。

这个模型不仅还可以在原生手机客户端运行，还能够支持web浏览器，可以精准的识别现实物理世界的物品、字体、甚至是内容含义，让开发者可以快速调用。

相较于其他AI产品经理，这个视觉生成模型最好的是提供了视觉一体化的方案，并且由于更低的延迟，可以大大增加在应用场景的使用，用户不需要等待太长时间，同时又不需要太多算力。

这个模型的参数只有7B，有用户测试在16GB的M2就可以完成测试。

AI模型的端到端离线，是用户的刚需

相较于其他模型，这个7B的模型也支持离线，保证了数据隐私和安全，并且这个模型支持高分别率图像理解，并且还能够支持图像与文本之间的关系，以及前面介绍的视频理解。

并且模型是最合适在MR与AR眼镜上，并且通过可以通过视觉能力能够在眼镜上，有了FastVLM就可支持拓展到RAG，从而支持更多场景，比如疾病诊断、生活打扫等场景，甚至是用到机器人视觉上。

因为本质上模型还是需要向量数据库，通过将视频转为文本之后再和RAG搭配就可用得到更多场景。

目前生成速度可以将2小时的视频字幕，在几秒内生成，如下是我做的视频生成测试，将手里拿着的瓶子进行识别，就可以得到可乐，即使瓶子不完整

在AI模型跑到端里，手机、平板电脑都可以使用，那么就可以让更多用户使用，而不是受限于GPU算力，从未来来看每个人都将使用AI，算力的要求都会逐步降低，达到人类可以用的智力水平，而更多的算力将用户解决普通人几乎不会涉及到的场景与问题。

因此，我建议AI产品经理收藏这个模型，并且可以基于此来优化做自己的产品设计。

今天的分享就到这里。

“关注我，了解第一批空间计算的产品经理做什么”

点击加入XR空间计算开发者、产品经理交流群

AI开源项目拆解群，以及每天体验1款APP

我创建的产品设计打卡社群，加入后365天，每天体验一款APP。提升产品设计能力，同时有1300份体验报告帮助你找到竞品。

在这里你可以随时查询到你想找的各类竞品行业APP以及我收集整理的开源Github项目，马上得到APP的一手产品优化、交互设计、功能描述信息。

从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度，体验一款应用。

平均1天1块钱，扫码购买即可加入

连续体验48款应用，通过后原路退回

报名后添加星球助理

PMTalk123

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴