如何骑驴（Paper）找马（Contributions）？|学术论文|实验|文章|骑驴

阅读论文时，可以关注以下几个方面，从中挖掘潜在研究方向及创新点：

A. 局限性 (Limitations)

寻找方式：几乎所有论文都会在结论或讨论部分提到方法的局限性
转化为新问题：局限性可能是未来工作的直接方向。

打开网易新闻查看精彩图片

图1：论文 A的limitations

例如：

如上论文的Limitations部分提到RAP模型只适用于已经预训练的LLM再进行的推理,本质上就是Prompt-based 方法，是否可以利用Low-Rank Adaptation (LoRA) 进行Fine-Tuning推理训练，是否可以两者结合的方式(Prompt Optimization+Fine-Tuning);
同时，可以原文没有利用External tools , 可以利用 Code LLM+ Execution环境进行reasoning的验证；当然，这也可以定义在Multi-Agent框架下，分角色进行协调执行。
如何进行Fine-Tuning的训练，能否使用LLM 做一个Labeler,进行self-training 或self-reasoning 产生数据呢？

B. 未解决的问题

寻找方式：查看论文引言和相关工作部分（Related Work），注意“However”, “But”等转折句，通常在描述现有方法的不足时出现。
转化为新问题：基于作者提到的未解决问题，找到具体切入点。

打开网易新闻查看精彩图片

图2：论文 B的Related Work

例如：

如上论文谈到支持不同领域和跨任务的agentic workflow 是很有挑战性的。的确，不同的类型对于agent role和flow定义是不同的，如何可以统一定义或跨任务复用呢？
首先，Flow和Role的数学定义可以看作Hypergraph, Flow 就是同组Node有向图的关联，Role就是Node的Feature来统一定义；同时，再利用Prompt定义图中涉及的agent和执行逻辑；
基于代码的执行逻辑，是否可以Codify 这个泛化Flow 和Role,这样就可以初步验证定义的是否合理。

C. 模型设计的改进可能性

寻找方式：阅读方法部分（Methodology），思考现有模型的假设、结构或训练过程是否可以简化或改进。
转化为新问题：比如，某模型需要高计算成本，是否可以通过蒸馏或稀疏化降低资源需求？

打开网易新闻查看精彩图片

图3：论文 C的Method

例如：

如上论文利用LLM 作为Text optimizer进行梯度优化,但是Numeric的梯度优化时，需要变量可微（Differentiable）,那么引用了一个新问题，如果进行TextGrad的计算是，是否可以结合Token Embedding的信息进行梯度计算和汇总呢？
Prompt Editing distance是否可以引入并量化呢，并且和Prompt Template结合起来是否可以使得优化更稳定呢？
如果将Prompt 优化看作一个修改过程，那么这些修改的动作，是否可以看作agent的action呢,那么这个优化是否可以转化为policy的优化呢？

D. 实验结果中的异常现象

寻找方式：分析实验部分的结果，关注作者解释不充分的现象（如性能在某个数据集下降）。
转化为新问题：尝试解释这些异常，并设计新的实验验证。

打开网易新闻查看精彩图片

图4：论文 D的Experiments

例如：

如上论文利用Self-consistency 对比Chain-of-thought 提高reasoning的正确率。其实，测试数据中有100%准确率的情况，可以反映出Prompt 的设计与模型的训练数据分布高度一致，模型可能并未展现真正的泛化能力，而是依赖于其训练数据中已有的模式或知识, 推理任务的设计可能不足以测试模型的真正能力。
为此，是否可以原来各个数据集上引入扩展机制，利用Data Augmentation（手工或LLM构造不同Multi-Hop 模板）以生成不同推理难度的数据，以此可以设计不同难度与Reasoning正确率的相关性实验。而这样的设计，对于理解Self-consistency在同一数据不同难度的表现，有更为深入的理解。
同时，对比不同的Prompt测试不同难度reasoning的测试，可以评估prompt的泛化能力及其内容的敏感性问题。

一般地在阅读论文时，还可以问自己以下问题，以启发研究新的问题：

假设合理性：作者是否做了过于强的假设？这些假设可以放宽吗？
适用范围：论文的方法是否只在特定领域/数据集有效？能否扩展到更广泛的场景？
效率问题：模型的复杂性如何？能否设计更轻量化的方法？
对比方法：是否存在遗漏的对比实验？这些遗漏是否值得深挖？
应用问题：论文提出的方法是否可以应用到其他任务中？

同时，利用同一主题的多篇文章一起阅读，也有利于找到相关问题或创新方向，以成果技术演进的角度去切入：

横向扩展：
- 同一领域的多个论文通常会解决类似问题，但方法不同。对比不同方法，找到有待改进的地方。例如，在知识蒸馏、模型压缩、预训练模型等领域，这种方法尤为有效。
纵向挖掘：
- 阅读某一技术方向的连续工作（如Transformer模型的演进），思考是否有规律或瓶颈未被攻克。

图5：论文创新模式

如上图所示，红色的文字和链接都是审稿人比较认同的创新方向，但这些创新背后的力量，其实来源蓝色那些工作，这部分工作是老方案迁移解决新问题；用老结构去演化新趋势；用老方法去派生出新方法；老理论可以革新为新理论；新理论可以推演出老方法等等。这些不仅仅是论文创新不可缺少的思考，也是文章例证或演变的基础，这些都是所谓的“驴”的核心价值。例如，将卷积神经网络（CNN）从图像识别扩展到自然语言处理领域，催生了基于CNN的文本分类模型。然而，这种迁移也带来了挑战，比如领域特异性的不匹配或新任务对方法的适配需求。研究者需要深入理解新问题的本质，并在迁移中设计合理的改进，才能真正体现创新价值。换句话说，“驴”虽然有现成的力量，但如何让它适应新路，才能成为一匹宝马。学术研究中，一个广受欢迎的创新模式是用老理论的核心思想推演出新方法。例如，支持向量机（SVM）的核方法理念，推动了核化技术在多任务学习中的应用；或经典动态规划的思想在深度强化学习中的复兴，通过将值函数逼近结合策略搜索解决更复杂的问题。同样，老结构在新趋势的驱动下也能焕发新生，比如 Transformer 的自注意力机制取代了传统RNN结构的序列建模方式。可见，创新并不总是彻底摒弃过去，而是以革新的视角重新审视现有理论或结构，为新问题、新技术趋势开辟新的解决途径。这种演变方式不仅高效，还体现了研究中的继承与发展逻辑，是“驴”不断成长为“马”的核心驱动。

以上几个Toy Example实例，旨在说明从论文中找到研究方向及创新点需要培养观察力、提问能力和扩展思维。本人接触和辅导过的学生中，不少同学都缺乏这样的锻炼和实践。为此，我们在论文构思阶段，可以先从精读开始进行实践，再按照Critical Thinking的视角，去分析文章的优势和不足，逐步饯行“骑驴找马”。同时，有些的同学希望直接牵出“马”（研究方向和创新点），本人一般也会把“驴”群牵出来或圈起来，一起系统讨论（通常，会围绕一个容易理解的Running case来展开），目的就是为了恢复“找”的过程（这是构思新论文的Abstract和Introduction的核心论述逻辑，也是实验设计的出发点）。

整体上讲，辅导的目标不仅仅是帮助同学完成高质量的论文，也希望能够培养及建立起科研视角。为此，针对不同需求的同学，我们制订个性化的辅导方案，系统化的执行计划，协作同学并一起推进执行计划和成果。

为解决困扰硕博生/高校老师多年的论文难题，以及提高想进大厂或已在大厂的职业竞争力，来自哈佛/UCL/清北复交浙大等全球TOP高校的研究员/博导/顶会审稿人1V1辅导国内核心/EI/ei/SCI/CCF/各顶会。