科研圈有个黑色幽默:我们用AI预测蛋白质结构,却还在用1993年发明的PDF传论文。arXiv每天接收上千篇预印本,格式要求一栏写着"仅限PDF"——像一家只收现金的数字货币交易所。

物理学家Andrej Karpathy在X上吐槽:「2026年的论文还在用全格式PDF上传,下载还限流,这足以说明学术圈拥抱新技术的速度。」这条帖子6小时收获2.4万赞,评论区变成大型诉苦现场。有人贴出某期刊的付费墙截图:42美元买一篇8页论文,下载速度被限到50KB/s,"比我的本科网速还慢"。

PDF的问题不是不能用,是它把"只读"刻进了基因。论文里的实验数据?锁死。交互式图表? flatten成静态图。想复制一段公式?先跟乱码搏斗三分钟。Nature去年试过HTML实验版,结果作者们集体抗议:排版不对,引用格式乱了,影响因子算谁的。

更荒诞的是基础设施的撕裂。欧盟砸钱建的OpenAIRE仓库支持XML、JATS、甚至Markdown,但投稿系统后台自动转成PDF归档——像给电动车强装蒸汽机烟囱。2024年一项调查显示,87%的研究员希望数据能随论文流通,实际做到的不到12%。

arXiv技术负责人Jim Entwood去年回应过一次,说"迁移成本太高,且PDF保证了跨平台一致性"。这条回复下面,最高赞评论是:"你们维护了30年的一致性,代价是整个学科的可复现性。"