科研工作者都懂一个痛:论文里的方法图和统计图,往往比写论文本身还耗时间。明明核心想法已经成型,却要花大量精力在配色、排版、箭头连接这些细节上反复打磨。
北大联合Google Cloud AI推出的PaperBanana,试图终结这种低效循环。
打开网易新闻 查看精彩图片
这个框架有意思的地方在于,它不是简单地让AI画图,而是模拟了一个完整的人类设计师工作流程:先检索参考案例,再规划内容结构,然后确定视觉风格,接着渲染输出,最后自我审视修正。五个专门的智能体各司其职,形成协作闭环。
打开网易新闻 查看精彩图片
为了验证效果,团队从NeurIPS 2025的论文中精选了292个测试案例,构建了专门的评测基准。结果显示,在忠实度、简洁性、可读性和美观度四个维度上,PaperBanana全面超越现有方案。其中简洁性提升最为显著,达到37.2%。
打开网易新闻 查看精彩图片
更实用的是,这套系统还能给现有的手绘图做美化升级。很多研究者画图时配色老旧、元素堆砌,通过自动总结的美学指南,可以快速提升视觉品质。
团队还探索了一个有趣的问题:统计图表到底该用代码生成还是让图像模型直接画?答案是各有取舍。图像生成模型画出来的图更好看,但容易出现数值幻觉;代码生成虽然视觉效果一般,但数据准确性有保障。对于数据密集的图表,代码仍是首选;而数据点稀疏时,图像生成的美学优势就能发挥出来。
当然,系统也有局限。目前最主要的失败模式是连接错误,比如多余的箭头或节点匹配错误。这反映出基础模型在视觉感知上的固有短板,审视模块往往难以识别这类问题。
科研的本质是思想的交锋,而非像素的堆砌。当工具能承担更多机械劳动,研究者才能把精力真正放在值得思考的问题上。
x.com/dwzhu128/status/2018405593976103010
热门跟贴