如果你关注AI技术圈的话,应该会知道Simon Willison(下文简称西蒙)。

打开网易新闻 查看精彩图片

他的博客(simonwillison.net)的文章在 Hacker News、Reddit,GitHub 社区经常被引用或讨论,影响力经常排名第一,可以说是遥遥领先。

打开网易新闻 查看精彩图片

西蒙的博客有个非常显著的特征:非常高产!

仅在2025年,他就写了1000多篇博文!但其中只有118篇是完整的文章(仅此而已)。

西蒙经常在一些封闭的平台(例如 TikTok、Twitter)中发现灵感,然后将其带到开放的网络上(如Hacker News)。

他一些最受欢迎的帖子只是简单的引语或者链接,并附上评论,例如:

“我担心他们在Excel中加入Copilot功能”

“电脑永远无法被追责”。

西蒙曾表示,这类文章写起来容易,但价值很高。

分享有趣的链接并附上评论,是一种投入少、价值高的方式,可以为互联网生活做出贡献。——西蒙·威利森,“ 我运营链接博客的方法 ”

如果你也想学他这么玩儿,恐怕大概率要失败,西蒙能做得这么成功,本质原因还是因为他是个有着敏锐洞察力,非常优秀的程序员。

他是著名开源软件Django,Datasette,llm的创始人,更夸张的是,在GitHub上,他维护的开源项目竟然有962个!

打开网易新闻 查看精彩图片

今天咱们来聊聊西蒙的故事。

01

一次伟大的实习

西蒙是个英国人,2001年进入巴斯大学读计算机。

打开网易新闻 查看精彩图片

在读书期间,他开始运营自己的个人主页,在上面分享关于 Web 标准、CSS、PHP 和网页开发的知识。

在那个时代,优秀的技术网站不多,西蒙的网站很快被远在美国肯萨斯州的一个叫Adrian Holovaty程序员(也就是后来的 Django 联合创始人)注意到了,被他的技术实力所吸引。

巴斯大学非常重视实践,他们的本科学制有一种非常有特色的 4 年制的“三明治”课程:

前两年在学校上学,第三年让学生去企业全职实习一整年(称为 Placement Year),第四年再回到学校完成毕业设计和学业。

当Adrian得知西蒙正在找实习的时候,立刻向他抛来了橄榄枝,邀请他来美国堪萨斯州的劳伦斯小镇实习,开发新闻网站 《劳伦斯日报》。

2003 年秋天,Simon 来到堪萨斯州,与 Adrian Holovaty 以及后来加入的 Jacob Kaplan-Moss 组成了新闻网站的开发铁三角。

由于新闻行业的节奏极快,往往上午提需求、下午网页就要上线,现有的工具根本不够用。

三人迫于压力,不得不想办法提炼出一套能让“即使是新手也能快速搭建应用”的工具,这样就可以在紧迫的时间内把活儿干完。

西蒙和同事结对编程开发了一些核心功能:请求/响应对象,URL解析,模板语言,ORM等。

2004 年 ,Simon 结束实习回到巴斯大学,而这套被他们留在报社的框架,在 2005 年被正式开源。

这就是今天大名鼎鼎的 Django(因劳伦斯当地人喜欢爵士吉他手 Django Reinhardt 而得名)。

Django 在 Web 开发史上具有里程碑式的地位,它确立了“大而全”的框架标准:内置了从 ORM(对象关系映射)、身份验证、后台管理界面(Admin)到安全防护、缓存的一整套方案,这种高度集成的方式极大地提升企业级应用的生产力。

曾经采用Django开发系统的著名网站包括:Instagram,Pinterest,Reddit,Dropbox,Mozilla ,Disqus、华盛顿邮报,卫报等。

Django是如此流行,以至于Google 一搜 Django,全是Django的框架,抢了原本那个吉他手的 SEO 排名……

02

淋浴时顿悟

2005年西蒙大学毕业后,加入了当时如日中天的Yahoo!(雅虎) 核心技术开发团队,干了两年后,他他转型做了一段时间的独立技术顾问,致力于OpenID的推广,帮助各大传统媒体和网站构建去中心化的账户登录体系。

打开网易新闻 查看精彩图片

这让他引起了新闻界的注意,2008 年,他被英国老牌大报 《卫报》(The Guardian) 挖走,出任软件架构师(Software Architect)。

在《卫报》期间,他参与了一个数据可视化的项目,使用的是Google Sheets这样的工具,来发布《卫报》新闻发报道背后的数据。

Google Sheets号称云端版Excel,用起来很方便,但是西蒙看到了一些局限,例如无法进行复杂查询,性能瓶颈,尤其是缺乏 API 深度支持,虽然它有 API,但对于想要基于这些数据快速构建一个小工具的开发者来说,Google Sheets 的接口并不够“开发者友好”。

所以西蒙渴望找到一种更好的办法来发布和查询这些数据。

几年后,在一次淋浴的时候,西蒙迎来了自己的“顿悟”时刻:把SQLite 数据库变成一个可以浏览、查询、分享的只读网站。

这就是Datasette。

打开网易新闻 查看精彩图片

Datasette非常有意思,比如你有一个 SQLite 文件 data.db,里面有一张表 users

运行命令:

datasette data.db

浏览器里你会直接看到:

  • /data/users → 表格浏览

  • /data/users.json → API

  • /data?sql=select * from users → SQL 查询

相当于给SQLite的.db文件装上了一个网页外壳,没有后端开发,没有ORM,没有API设计,直接可用。

Datasette看起来非常简单,但是对于那些“任何有数据、想公开的人”非常有用。

例如一些新闻机构、科研机构,政府等,它们有数据,让想别人访问,Datasette就是最低成本的发布工具。

03

华丽转型

2023年,ChatGPT爆发,西蒙开始转型了。

当然,他并没有转型去做一个大模型训练者,更没有去卖课,而是不断地尝试GPT的能力,让它去生成代码、操作数据、调用外部系统。

他经常提到的一个案例:自然语言 → SQL → 数据分析流水线

例如你有一个 SQLite 数据库,里边记录了用户行为日志、网站访问记录、API 调用数据。

传统方式做分析的话,需要写SQL,用Python pandas之类的库来分析。

西蒙的工作方式是:

(1) 用户问题

“帮我分析最近一周哪个 API 错误最多,并给出原因”

(2) LLM 生成 SQL

SELECT api, count(*)

FROM logs

WHERE date > now()-7

GROUP BY api

ORDER BY count DESC;

(3) SQLite 执行,返回结果集

/api/login 1200

/api/pay 300

(4) LLM 总结结果。

login 接口错误最多,可能原因是认证服务不稳定…

现在看来,这种方式没啥,但放在2023年那个时间点,这是让人耳目一新的工作方式。

尤其是国内还在卖账号,卖课程的时候,西蒙已经远远地跑在前面了。

西蒙反复在博客中强调一件事情:LLM 最有价值的用途之一,是作为“工具的接口”(tool interface),这种理念最终发展成了一个叫做llm的开源项目

打开网易新闻 查看精彩图片

llm把 GPT 这种大模型,变成了 Unix 风格的命令行工具,你可以像用 grep、awk 一样用 LLM。

例如:

cat test.py | llm "解释这段代码"

cat log.txt | llm "总结错误"

cat report.txt | llm -m gpt-4 --system "以法律语气总结"

在llm工具出现之前,大众的认知是 AI可以聊天、可以写作。

在llm之后,一部分人开始意识到:AI = 可以接入系统的数据处理节点

这个影响是非常深远的,后续的Tool Calling ,Function Calling , RAG,都是这种思想,让大模型不只是回答问题,而是参与执行任务。

想想现在火热的Cluade Code,西蒙在2023年就开发出的llm工具,是不是洞察力超越常人?

西蒙不仅开发工具,写博客也是一把好手,他的博客没有花里胡哨的界面,非常朴实,接地气,极少空谈概念,每篇都有代码,每个例子都可以复制运行,开始在各个社区自发传播,最终爆火。

04

你很容易脱颖而出

西蒙在一篇文章中写道:

我曾经面试过数百人,但是我发现很多优秀的人才把所有的精力都花在了给公司写代码上,而不注意经营自己的个人品牌。

实际上,你只需付出相对较少的努力,就能直接跃升到招聘经理的首选名单前列(甚至可能他们都没注意到)。

这些努力包括:

(1)开个博客,每年发布一两篇有趣的科技文章,可以是你的新发现、修复的漏洞,或是解决的问题。

(2)创建一个小型个人项目,将代码上传到 GitHub,同时附上一个 README 文件,详细描述项目并附上运行截图,几乎没有人这样做,这只需要额外花费几个小时,却能极大地提升你的项目在招聘经理眼中的影响力。

这绝对是西蒙这个过来人的经验之谈,如果你还没有这两样,强烈建议你去做一下。