打开网易新闻 查看精彩图片

一个产品经理用Claude Code搭了套「Shipwright」系统,44个原子技能、7个专业代理、16步工作流,还带二进制质量门禁。他没写一行产品代码,先拿两个真实项目试了刀。

结果:拉美 credential 验证项目,技术可行性审计直接判了FAIL;医疗售前项目,29问问卷+评分矩阵,6天工作量压到几小时。这系统的产出物长什么样?我扒了他的复盘。

项目一:拉美学历验证,7个数据源测完发现路不通

项目一:拉美学历验证,7个数据源测完发现路不通

目标市场:跨境学历认证。核心假设:能用API批量查拉美三国的官方学历 registry,低成本验证。

Shipwright 先跑 discovery 工作流。产出是一份 TAM/SAM/SOM 分析,三源交叉验证,把欧盟 eIDAS 2.0 的强制时间线(2026年12月数字钱包基础设施 deadline)算进监管推力。SAM 估在 1.5-3 亿美元区间。

国别简报拆了三份:哥伦比亚、墨西哥、委内瑞拉。里面埋了一个关键信号:西班牙 homologation(学历等效认证)积压队列每年 6 万份申请,84% 来自拉美,排队 3-7 年。远程技术雇佣趋势同步收录——拉美到美国的 placements 通过 EOR 平台年增长 50%,但这些平台不系统验证学历。

然后是机会-解决方案树(Opportunity-Solution Tree):5 个排序后的机会点,12 个可测试假设,12 个实验方案,成本 0-1500 美元,周期 3-4 周,每个带明确的通过标准。

打开网易新闻 查看精彩图片

技术可行性审计是转折点。

7 个官方学历 registry 被逐一审查:服务条款(ToS)逐条过,API 可用性实测,商业转售条款归档。结论:7 家里 0-1 家能提供低于 2 美元/查询的 programmatic access 且带商业使用权。

核心假设被证伪,没写一行代码就止损。系统建议 pivot:转 concierge 模式,换一套 unit economics。传统 PM 做这套研究栈:4-8 天。

项目二:医疗售前,29个问题挖出的不是需求是摩擦

项目二:医疗售前,29个问题挖出的不是需求是摩擦

客户是医疗机构,任务:竞品分析、公司画像、首次 discovery meeting 的工具包。

公司画像带「置信度标签」,未知项明确列出,第一次 call 要验证什么一目了然。竞品分析覆盖 4 家主要对手,不是比 slogan,是 9 个自动化维度的能力差距矩阵, revenue impact 用公开行业基准量化。

29 问 discovery 问卷是行为框架(behavioral framing),不设假设性问题。配套评分规则:Friction Severity × Lens Relevance = Opportunity Score。行业基准自动标红低于平均的表现项,决策树把发现映射到下一个该调用的技能。

打开网易新闻 查看精彩图片

传统 PM 工时:4-6 天。

产出物强在哪:每个文件末尾都带「决策框」

产出物强在哪:每个文件末尾都带「决策框」

推荐动作、现在做 vs 等的 trade-off、置信度、负责人、决策 deadline——五项必填。这不是文档,是强制决策的格式。

作者把这套系统定义为「PM 操作系统」,不是聊天机器人,不是「给我写个 PRD」的 prompt。44 个原子技能可组合,7 个代理各管一摊,16 个工作流有确定性的恢复剧本(recovery playbooks),质量门禁是二进制:过,或者不过。

两个项目的 artifacts 证明了一件事:AI 代理系统的产品价值,不在生成速度,在「可验证的决策质量」。当技术可行性审计能在代码之前杀掉项目,当售前问卷能结构化到销售直接可用——PM 的工作单元被重新定义了。

最后一个细节:作者在拉美项目的技术审计里,把 7 个 registry 的 ToS 审查结果存成了可复用的技能模块。下次遇到类似项目,调用即可。这套系统的真正资产,是失败经验的结构化沉淀。

如果 PM 的交付物从「文档」变成「可执行的决策包」,评审会该怎么开?