爬了半年Medium，才发现一行代码就能提取纯净正文

爬虫饲养员

2026-05-31 02:22 ·北京

去年秋天，我接了个内部知识库的项目。目标很清晰：把团队过去三年在Medium上写的所有技术博客，全部接进一个支持自然语言问答的检索系统。我第一个念头就是——写爬虫。BeautifulSoup解析HTML，绕开导航栏、拍手栏、评论区，再把正文捞出来。结果第一篇文章就花了我一个下午，抓到的正文开头还夹着“推荐阅读”的横幅。我看着调试窗口里那一串混乱的div标签，心想这事不该这么麻烦。

后来朋友扔给我一个API地址，说“试试这个，专门干这件事的”。我将信将疑地发了一个GET请求，传了个文章ID过去。返回的不是HTML，而是干干净净的纯文本，连一个

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴