开源解析器霸榜3年，官方承认基准测试全是自己人写的

赛博兰博

2026-04-10 10:55 ·北京

Parser 这个领域向来安静得像图书馆，直到上周有人翻出了 LlamaParse 的 GitHub 星标曲线——三年涨了 4.2 万星，直接把第二名甩出两个身位。但真正让开发者坐不住的，是一份被删掉的技术白皮书。

事情起于一个 Reddit 帖子。用户发现 LlamaParse 宣传的"透明基准测试"，测试集居然全是母公司 LlamaIndex 自己维护的数据集。换句话说，裁判和运动员穿的是同一条裤子。

创始人 Jerry Liu 的回应来得很快：「我们确实用了内部数据集，但代码和评估流程完全开源。」这条评论被顶到了 GitHub Issue 的榜首，下面跟了 300 多条质疑。

争议的核心在于"透明"这个词的定义。LlamaParse 的 README 至今写着"state-of-the-art on transparent benchmarks"，但从来没标注过数据来源。有开发者做了对比测试，用同样的 PDF 喂给五个开源解析器，LlamaParse 在自家数据集上准确率 94%，换到 arXiv 论文集直接跌到 71%。

更微妙的是时间线。这个基准测试 2022 年就上线了，直到今年 6 月才被外界质疑。三年里，无数技术博客引用这个数据证明 LlamaParse 的优越性，甚至进了几家云厂商的选型报告。

目前 LlamaIndex 还没修改官网表述。GitHub 上最新的 Issue 有人贴了一张截图：某企业采购经理的邮件，问的就是"你们说的透明基准，第三方能复现吗"。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴