去年秋天,我接了个内部知识库的项目。目标很清晰:把团队过去三年在Medium上写的所有技术博客,全部接进一个支持自然语言问答的检索系统。我第一个念头就是——写爬虫。BeautifulSoup解析HTML,绕开导航栏、拍手栏、评论区,再把正文捞出来。结果第一篇文章就花了我一个下午,抓到的正文开头还夹着“推荐阅读”的横幅。我看着调试窗口里那一串混乱的div标签,心想这事不该这么麻烦。

后来朋友扔给我一个API地址,说“试试这个,专门干这件事的”。我将信将疑地发了一个GET请求,传了个文章ID过去。返回的不是HTML,而是干干净净的纯文本,连一个