始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。
在多模态大型语言模型(MLLMs)领域,长上下文建模能力至关重要,它赋予模型处理长篇内容并保有隐式记忆的强大功能。尽管相关研究已取得一定进展,但在处理极长视频时,由于难以在长序列中精准保留关键特征,这一任务仍充满挑战。
本文着重介绍了一款专为多模态长序列处理精心打造的实用上下文建模系统VideoChat-Flash。该系统具备多阶段从短到长的创新学习方案,拥有丰富的现实世界长视频数据集LongVid,同时配备了升级版的“视频大海捞针”(NIAH)评估方法,用以精准衡量模型的上下文处理能力。
在大量的实验测试中,VideoChat-Flash展现出了卓越的性能优势。无论是在2B还是7B模型规模下,它在主流的长视频和短视频基准测试中均一骑绝尘。值得一提的是,在开源模型中,VideoChat-Flash首次在NIAH评估中实现了处理超过10,000帧视频时,准确率高达99.1%的惊人成绩。VideoChat-Flash已上线始智AI-wisemodel开源社区,欢迎使用。
模型地址
https://wisemodel.cn/models/InternVideo/VideoChat-Flash-Qwen2-7B_res448
01.
快速介绍
在多模态人工智能飞速发展的当下,长视频处理的效率一直是阻碍其广泛应用和深入发展的关键瓶颈。传统的视频处理模型在面对长视频时,往往因庞大的计算量和复杂的处理流程,导致运行效率低下、资源消耗过大。为了突破这一困境,研究团队不断探索,取得了重大突破。
高效视频模型架构:研究人员提出了层次化视频特征压缩技术 HiCo,显著降低长视频处理的计算需求,每个 视频帧仅编码为仅 16 个 token ,推理速度比其它模型快 5-10 倍。
支持超长视频输入:首个在万帧级别(约三个小时视频)的大海捞针上实现了99.1%正确率的开源模型。
多阶段学习方案:采用多阶段学习方法,结合短视频和长视频数据进行训练,提升模型对不同程度视频上下文的理解能力。
超强性能表现:实验结果显示,VideoChat-Flash在各个视频理解基准测试中都达到了领先的性能。
全新长视频训练数据和评估基准:研究团队收集了大规模的长视频训练数据LongVid,以及设计了新的长视频大海捞针评估基准MH-NIAH,助力社区长视频理解研究。
02.
应用场景
VideoChat-Flash作为一款创新的多模态长序列处理系统,凭借其强大的上下文建模能力和高效的处理机制,在多个领域展现出应用潜力。它不仅能够精准处理长视频中的复杂信息,还在短时信息捕捉和长时间序列分析方面独具优势。以下两大应用场景,充分体现了VideoChat-Flash的实用价值与技术先进性。
短时快速运动捕捉:
在影视制作、动画创作和体育训练等领域,对短时快速运动的精准捕捉至关重要。例如,在影视特效制作中,演员的细微动作、快速的打斗场面等,需要被精确记录,以制作出逼真的特效画面。动画创作里,角色的灵动跳跃、敏捷转身等动作,借助高帧率摄像机和先进算法,能被快速捕捉并转化为动画模型的动作数据,大大提升动画制作效率与质量。体育训练时,教练通过捕捉运动员瞬间的起跑、击球动作,利用慢动作回放和数据分析,能精准指出技术问题,助力运动员提升成绩。
长时监控视频异常检测:
城市安防、企业园区管理和金融机构安保等场景中,长时监控视频的异常检测意义重大。城市街道的监控摄像头,全天候记录交通状况和人员活动,通过智能算法对长时间视频进行分析,能及时发现交通事故、人群聚集骚乱等异常情况,为城市管理和应急处理提供有力支持。企业园区内,对仓库、生产车间等区域的长时监控,可检测设备故障、员工违规操作等问题,保障企业安全生产与运营。金融机构利用异常检测技术,能防范抢劫、盗窃等犯罪行为,维护金融秩序和客户财产安全 。
03.
模型部署
首先在wisemodel上创建一个单卡A5000或者3090的开发环境,选择基础开发镜像,填写好基本的信息,然后直接下一步,确认计费方式之后直接提交订单,开发环境就开始创建了。
开发环境创建好之后,通过notebook或通过SSH登录到开发环境上进行部署相关的操作。
安装必要的依赖库:
pip install transformers==4.40.1 -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
pip install timm -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
pip install opencv-python -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
pip install opencv-python-headless -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
pip install av -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
pip install decord -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
pip install imageio -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple如果你需要更快的推理速度的话,安装flash attention:
pip install flash-attn --no-build-isolation -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple下载:https://wisemodel.cn/models/InternVideo/VideoChat-Flash-Qwen2_5-2B_res448/blob/main/flash_app.py作为运行文件。
下载模型(这里以2B模型为例,你也可以下载7B的进行尝试):
git clone https://www.wisemodel.cn/InternVideo/VideoChat-Flash-Qwen2_5-2B_res448.git
上图中,将第17行修改为wisemodel服务器上的路径。
然后执行
python flash_app.py模型部署的基本工作就完成,模型部署成功之后,回到开发环境详情的页面申请一个服务端口和域名地址。
(模型为英文模型,中文能力较弱,建议英文回答)
把申请好的域名地址复制到浏览器里,demo正常运行,就可以开始体验模型服务
了。
作者团队:由上海人工智能实验室OpenGVlab与南京大学王利民教授团队联合完成,第一作者为南京大学硕士二年级学生李新浩。
arXiv 技术论文: https://arxiv.org/pdf/2501.00574
----- END -----
wisemodel相关:
系统升级:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
热门跟贴