Parser 这个领域向来安静得像图书馆,直到上周有人翻出了 LlamaParse 的 GitHub 星标曲线——三年涨了 4.2 万星,直接把第二名甩出两个身位。但真正让开发者坐不住的,是一份被删掉的技术白皮书。
事情起于一个 Reddit 帖子。用户发现 LlamaParse 宣传的"透明基准测试",测试集居然全是母公司 LlamaIndex 自己维护的数据集。换句话说,裁判和运动员穿的是同一条裤子。
创始人 Jerry Liu 的回应来得很快:「我们确实用了内部数据集,但代码和评估流程完全开源。」这条评论被顶到了 GitHub Issue 的榜首,下面跟了 300 多条质疑。
争议的核心在于"透明"这个词的定义。LlamaParse 的 README 至今写着"state-of-the-art on transparent benchmarks",但从来没标注过数据来源。有开发者做了对比测试,用同样的 PDF 喂给五个开源解析器,LlamaParse 在自家数据集上准确率 94%,换到 arXiv 论文集直接跌到 71%。
更微妙的是时间线。这个基准测试 2022 年就上线了,直到今年 6 月才被外界质疑。三年里,无数技术博客引用这个数据证明 LlamaParse 的优越性,甚至进了几家云厂商的选型报告。
目前 LlamaIndex 还没修改官网表述。GitHub 上最新的 Issue 有人贴了一张截图:某企业采购经理的邮件,问的就是"你们说的透明基准,第三方能复现吗"。
热门跟贴