Claude这套PM系统藏了44个技能，我拿去跑了2个真项目

摸鱼算法

2026-03-30 11:14 ·北京

一个产品经理用Claude Code搭了套「Shipwright」系统，44个原子技能、7个专业代理、16步工作流，还带二进制质量门禁。他没写一行产品代码，先拿两个真实项目试了刀。

结果：拉美 credential 验证项目，技术可行性审计直接判了FAIL；医疗售前项目，29问问卷+评分矩阵，6天工作量压到几小时。这系统的产出物长什么样？我扒了他的复盘。

项目一：拉美学历验证，7个数据源测完发现路不通

项目一：拉美学历验证，7个数据源测完发现路不通

目标市场：跨境学历认证。核心假设：能用API批量查拉美三国的官方学历 registry，低成本验证。

Shipwright 先跑 discovery 工作流。产出是一份 TAM/SAM/SOM 分析，三源交叉验证，把欧盟 eIDAS 2.0 的强制时间线（2026年12月数字钱包基础设施 deadline）算进监管推力。SAM 估在 1.5-3 亿美元区间。

国别简报拆了三份：哥伦比亚、墨西哥、委内瑞拉。里面埋了一个关键信号：西班牙 homologation（学历等效认证）积压队列每年 6 万份申请，84% 来自拉美，排队 3-7 年。远程技术雇佣趋势同步收录——拉美到美国的 placements 通过 EOR 平台年增长 50%，但这些平台不系统验证学历。

然后是机会-解决方案树（Opportunity-Solution Tree）：5 个排序后的机会点，12 个可测试假设，12 个实验方案，成本 0-1500 美元，周期 3-4 周，每个带明确的通过标准。

技术可行性审计是转折点。

7 个官方学历 registry 被逐一审查：服务条款（ToS）逐条过，API 可用性实测，商业转售条款归档。结论：7 家里 0-1 家能提供低于 2 美元/查询的 programmatic access 且带商业使用权。

核心假设被证伪，没写一行代码就止损。系统建议 pivot：转 concierge 模式，换一套 unit economics。传统 PM 做这套研究栈：4-8 天。

项目二：医疗售前，29个问题挖出的不是需求是摩擦

项目二：医疗售前，29个问题挖出的不是需求是摩擦

客户是医疗机构，任务：竞品分析、公司画像、首次 discovery meeting 的工具包。

公司画像带「置信度标签」，未知项明确列出，第一次 call 要验证什么一目了然。竞品分析覆盖 4 家主要对手，不是比 slogan，是 9 个自动化维度的能力差距矩阵， revenue impact 用公开行业基准量化。

29 问 discovery 问卷是行为框架（behavioral framing），不设假设性问题。配套评分规则：Friction Severity × Lens Relevance = Opportunity Score。行业基准自动标红低于平均的表现项，决策树把发现映射到下一个该调用的技能。

传统 PM 工时：4-6 天。

产出物强在哪：每个文件末尾都带「决策框」

产出物强在哪：每个文件末尾都带「决策框」

推荐动作、现在做 vs 等的 trade-off、置信度、负责人、决策 deadline——五项必填。这不是文档，是强制决策的格式。

作者把这套系统定义为「PM 操作系统」，不是聊天机器人，不是「给我写个 PRD」的 prompt。44 个原子技能可组合，7 个代理各管一摊，16 个工作流有确定性的恢复剧本（recovery playbooks），质量门禁是二进制：过，或者不过。

两个项目的 artifacts 证明了一件事：AI 代理系统的产品价值，不在生成速度，在「可验证的决策质量」。当技术可行性审计能在代码之前杀掉项目，当售前问卷能结构化到销售直接可用——PM 的工作单元被重新定义了。

最后一个细节：作者在拉美项目的技术审计里，把 7 个 registry 的 ToS 审查结果存成了可复用的技能模块。下次遇到类似项目，调用即可。这套系统的真正资产，是失败经验的结构化沉淀。

如果 PM 的交付物从「文档」变成「可执行的决策包」，评审会该怎么开？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴