PDF困住2026年科研：10亿论文锁死在30年前的格式里

算力游侠

2026-04-01 07:07 ·北京

科研圈有个黑色幽默：我们用AI预测蛋白质结构，却还在用1993年发明的PDF传论文。arXiv每天接收上千篇预印本，格式要求一栏写着"仅限PDF"——像一家只收现金的数字货币交易所。

物理学家Andrej Karpathy在X上吐槽：「2026年的论文还在用全格式PDF上传，下载还限流，这足以说明学术圈拥抱新技术的速度。」这条帖子6小时收获2.4万赞，评论区变成大型诉苦现场。有人贴出某期刊的付费墙截图：42美元买一篇8页论文，下载速度被限到50KB/s，"比我的本科网速还慢"。

PDF的问题不是不能用，是它把"只读"刻进了基因。论文里的实验数据？锁死。交互式图表？ flatten成静态图。想复制一段公式？先跟乱码搏斗三分钟。Nature去年试过HTML实验版，结果作者们集体抗议：排版不对，引用格式乱了，影响因子算谁的。

更荒诞的是基础设施的撕裂。欧盟砸钱建的OpenAIRE仓库支持XML、JATS、甚至Markdown，但投稿系统后台自动转成PDF归档——像给电动车强装蒸汽机烟囱。2024年一项调查显示，87%的研究员希望数据能随论文流通，实际做到的不到12%。

arXiv技术负责人Jim Entwood去年回应过一次，说"迁移成本太高，且PDF保证了跨平台一致性"。这条回复下面，最高赞评论是："你们维护了30年的一致性，代价是整个学科的可复现性。"

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴