打开网易新闻 查看精彩图片

密集图像描述这门技术,有点像让你朋友看图说话——只不过普通人说"桌上有水果",高手得说出"木质餐桌左前方的青苹果带褐色斑点,旁边玻璃杯有半杯橙汁"。越细越难,训练成本也越离谱。

打开网易新闻 查看精彩图片

苹果和威斯康星大学刚放了个新框架 RubiCap,核心思路挺有意思:与其砸钱请人标注,不如让 AI 自己教自己。具体玩法分三步——先用 GPT-5、Gemini 2.5 Pro 给 5 万张图写一堆候选描述,再让 Gemini 总结这些描述的共识和漏洞,提炼成评分标准,最后让 Qwen2.5 当裁判按标准打分。

打开网易新闻 查看精彩图片

这套"自产自评"的机制,相当于给模型配了个实时纠错的教练。最终练出的 70 亿参数模型盲测排名和幻觉错误率都压过了 720 亿参数的大家伙。更意外的是 30 亿参数的迷你版,部分测试里居然反超了自家大哥。

这事给行业提了个醒:参数竞赛未必是唯一解,训练方法的精细度可能才是性价比更高的杠杆。

论文已挂 arXiv,代码和权重暂未开源——按苹果近年的节奏,估计得等 WWDC 看有没有下文。