OpenAI 2年前埋的暗线，被开发者挖出来玩出花了|openai|工作流|微软|暗线|浏览器|知名企业|网络信息|调用

2023年11月，OpenAI在开发者大会上随手扔了个叫MCP（模型上下文协议）的东西，当时没人当回事。18个月后，这个"浏览器遥控器"让一批开发者把LinkedIn发帖、Medium发文、SORA视频生成全搬进了命令行——不是用Selenium，不是用Puppeteer，是用一个叫Playwright MCP的工具。

一个协议，把AI从"聊天框"拽进了"操作台"

MCP的本质很简单：给AI一个标准接口，让它能调用外部工具。但Playwright MCP玩得更野——它直接让AI接管浏览器。不是模拟点击，是真正意义上的"看屏幕、点按钮、填表单"。

作者自己的用法很说明问题：LinkedIn定时发帖、Medium自动发布、SORA视频生成，全部串成一条命令行流水线。以前需要写几百行Selenium脚本的事，现在变成给AI发一段自然语言指令。

这背后是浏览器自动化的一次范式转移。Selenium和Puppeteer的问题是：你得告诉它"点哪个坐标""等几秒"。Playwright MCP的做法是：告诉AI"我要发一篇关于AI工具的文章"，让它自己去找发布按钮。

从"写脚本"到"下指令"，中间隔了一个协议

传统浏览器自动化的痛点，做过的人都知道。页面改版，选择器失效；异步加载，定时器猜不准；验证码弹出，整条流水线卡死。作者提到自己"automate"这些任务，但没展开说细节——恰恰说明这套方案的卖点是"省掉细节"。

Playwright本身已经是微软开源的明星项目，比Puppeteer晚出生但架构更干净。MCP协议的出现，给它补上了最后一块拼图：一个AI能理解的"遥控器说明书"。

协议的设计很产品经理思维。不规定AI怎么做决策，只规定"你能调用哪些功能""返回什么格式"。浏览器操作被抽象成工具函数：goto、click、fill、screenshot。AI自己决定调用顺序，就像人类用户自己决定先登录还是先搜索。

作者没提具体代码，但从"command line"这个关键词能推断：整套工作流可以被crontab或者GitHub Actions调度。早上8点，AI自动打开LinkedIn，读一遍草稿，配图，发布，关浏览器。全程无人值守。

为什么是现在？三个条件刚凑齐

这套玩法2023年玩不转。第一，GPT-4级别的视觉理解能力刚成熟，能看懂网页截图里的按钮和输入框。第二，浏览器本身的调试协议（Chrome DevTools Protocol）已经足够稳定，Playwright才能封装出可靠的底层。第三，MCP协议标准化了"AI调用工具"的通信格式，不用每家大厂重复造轮子。

作者的选择很有代表性：LinkedIn、Medium、SORA，三个场景对应三种典型的浏览器自动化需求。社交媒体发布是"定时+重复"，内容平台是"富文本编辑+状态监控"，视频生成是"长任务等待+结果下载"。

这三个场景以前都需要专门的API或者爬虫方案。LinkedIn的API权限收紧多年，Medium的官方API早半死不活，SORA更是没有公开接口。Playwright MCP的解法很粗暴：没有API，就让AI像真人一样用网页版。

这种"无头浏览器+视觉理解"的组合，正在吃掉一批传统RPA（机器人流程自动化）的市场。作者没提成本，但按OpenAI的定价，一次网页操作的成本大概在几分钱到几毛钱之间——比雇个实习生便宜，比写维护脚本省事。