苹果把70亿参数模型"喂"成720亿效果，秘诀是让AI自己当裁判

灰度测试中

2026-03-26 08:30 ·北京

密集图像描述这门技术，有点像让你朋友看图说话——只不过普通人说"桌上有水果"，高手得说出"木质餐桌左前方的青苹果带褐色斑点，旁边玻璃杯有半杯橙汁"。越细越难，训练成本也越离谱。

苹果和威斯康星大学刚放了个新框架 RubiCap，核心思路挺有意思：与其砸钱请人标注，不如让 AI 自己教自己。具体玩法分三步——先用 GPT-5、Gemini 2.5 Pro 给 5 万张图写一堆候选描述，再让 Gemini 总结这些描述的共识和漏洞，提炼成评分标准，最后让 Qwen2.5 当裁判按标准打分。

这套"自产自评"的机制，相当于给模型配了个实时纠错的教练。最终练出的 70 亿参数模型，盲测排名和幻觉错误率都压过了 720 亿参数的大家伙。更意外的是 30 亿参数的迷你版，部分测试里居然反超了自家大哥。

这事给行业提了个醒：参数竞赛未必是唯一解，训练方法的精细度可能才是性价比更高的杠杆。

论文已挂 arXiv，代码和权重暂未开源——按苹果近年的节奏，估计得等 WWDC 看有没有下文。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴