打开网易新闻 查看精彩图片

上个月有个开发者干了件挺轴的事——为了搞明白2026年怎么爬数据最靠谱,他硬是从50个Reddit子版块扒了1万条帖子,跑了200多次测试。不是纸上谈兵,是真刀真枪地试了4种方案,记录什么崩了什么活着。

最传统的HTML解析+CSS选择器,两周内崩了3次。网站一改版,脚本直接报废。很多人以为这是"标准答案",结果在稳定性上栽了跟头。

转折点在JSON接口。Reddit的old.reddit.com/r/xxx.json这个端点,30天零故障,格式几年没变过。开发者原话:「Zero breakages in 30 days」。相比之下,无头浏览器慢10倍贵5倍,官方API政策还老变——典型的过度工程和过度管制。

这事的启发挺简单:先给URL加个.json试试,比盲目上Selenium聪明多了。他最后把这堆经验开源了,能抓20多个字段包括完整评论树。

评论区有人补刀:Instagram、Twitter早年也有这种隐藏JSON端点,后来慢慢封了。Reddit这块老骨头还能撑多久,没人知道。