Magma是微软开源的多模态AI基础模型,专为智能代理任务设计。它在保留视觉语言理解能力的同时,新增了在物理空间中的行动规划能力,可广泛应用于UI界面操作、机器人控制等场景。【核心功能】1. 视觉语言理解:精准解析图像、视频中的物体与指令2.空间行动规划:通过坐标系统理解物体位置,规划操作路径【技术亮点】• Set-of-Mark(SoM)标记技术:在图像中标注可交互对象(如按钮、机械臂)• Trace-of-Mark(ToM)轨迹追踪:记录视频中物体的运动路径(如机械臂移动轨迹)【性能优势】1. 零样本任务表现:未经过特定领域训练时,UI导航准确率提升40%2. 多场景适应:在机器人抓取任务中成功率超越传统方法15%3. 数据高效性:仅用1/10训练数据,视觉问答准确率持平大型模型【应用场景】✓ 智能助手:操作手机APP、填写网页表单✓ 工业机器人:物品分拣、精密装配✓ 跨领域AI代理:医疗设备操作、智能家居控制开源地址:网页链接