产品经理做计算机博士：不要AI标注的AI模型训练|交互设计|产品经理|大模型|程序员|算法|计算机博士

产品经理读计算机博的好处是什么？

注意，只有计算机博士才对产品经理有这个提升，其他的管理学或者设计学都不涉及，而我认为最大的好处是产品的技术壁垒提升10倍以上

有本职工作所引领的找到用户的需求与引领用户体验价值，避免产品经理停留在社交、娱乐、甚至是一些常规工具的研发，这些产品要么就是领域太浅要么就是不能长久甚至是很难和国家战略发展方向与政策结合在一起（在国内做科技创业，一定要结合国家发现与政策）

比如如果去剪辑、新媒体甚至是营销工具上，就很难走进政府，而真的要成为底层通用技术，或者行业通用技术，就必须要做技术壁垒的工具，要更深入了解这些技术与算法实现。

稍微有研发基础的产品经理：Github

稍微有一些研发基础的产品经理，会选择Github上找到开源项目来改，通过开源项目二次开发从而快速完成研发任务，并且找到别人可用的技术壁垒变成自己的产品，不会说自己重新全部自己做。

这些开源项目自己包含了技术壁垒，同时满足了用户需求，有那些核心算法了，因为一般的程序员只会复制粘贴，没有专研算法精神，尤其是那些枯燥的算法就涉及到数学公式了，这就让开发感到非常麻木。

比如张一鸣曾经在和团队写推荐算法的时候，就是团队自己研究以及看论文，通过逐步迭代开发与自学才完成了推荐算法的早期版本，也就是今日头条。而在今天要想让一个程序员去学习全新的算法，这就非常困难了，还不说他去做成功。

对于要做算法、以及模型训练，这些非工程的工作，只能通过计算机硕士或者计算机博士来完成，因为他们才有时间去做这方面的研究，第一是为了发表文章，第二是有科研经费，才会有经费养着他们去做这方面的研究，（虽然科研经费到学生哪里，和工程师的工资完全不能比）

AI标注与不要AI标注的胸片训练

很多人提到AI模型训练就离不开数据标注，比如医学影像离不开医生与放射科老师来进行手动标注，告知模型需要什么数据才得到模型。

而今天在做科研看到一篇文章提到了以诊断报告与影像学来结合，来完成自动化标注，也就是0标注的训练。在测试结果之后，得到了几乎和人类医生一致的水平，并且还超过了放射科医生或者达到了一致水平。

如上图是论文里介绍了拿到了影像学影片数据，以及对应影像的病历报告，通过文本与视频转化为文本再综合结果分析；右边是做实验对比，将医学影像识别的结果氛围可以诊断和不可诊断，通过prompt来辨别模型是否识别成功。

其中在AUC测试上，一共有大概50种以上的，都能够得到好的测试结果，这里面AUC与AOC测试其实就是指的是一种

如何评价AI看胸片与真人的效果，常用的科学数值：F1、MCC、ROC

在这篇论文里，介绍了3个数值，我认为也是普通产品经理很少能够接触到的客观评估标准，分别是F1、MCC、以及ROC曲线。这3个指标可以用来评估我们的AI性能和真人医生的区别。

在AI解释下，这几个指标通俗易懂的解释如下

F1= 真抓到 + 少误报的综合分

场景：你必须给出阳性/阴性最终结论（需要定阈值）。
胸片里“阳性少、阴性多”，只看准确率会被“全判阴”骗高分；F1专门看查全(别漏诊) + 查准(别误报)的平衡。

比如我们说的F1，举一个一眼能懂的例子
数据：1000 张片子，真的阳性 50，阴性 950。

模型X：全判没病（很多烂模型就是这样）
TP=0, FN=50, FP=0, TN=950
- 准确率：950/1000 = 95%（看着很高，其实在装）
- F1=0（一个病人都没抓到）
- MCC=0（告诉你：这基本等于瞎猜，别被“95%准确率”骗了

MCC= 更公平的总评

场景：类别极不平衡时，F1仍可能偏科；MCC把 TP/TN/FP/FN 四格都算上，分数在[-1,1]，0≈瞎猜。
用处：防止“抓阳性还行但把大量阴性判错”的情况被掩盖。
其中
- TP（真阳性）：有病→判有病（抓对了病人）
- TN（真阴性）：没病→判没病（放对了健康人）
- FP（假阳性）：没病→判有病（误报，把健康人当成病人）
- FN（假阴性）：有病→判没病（漏诊，把病人当成健康

ROC 曲线（c行）= 不定阈值，看“排序能力”

场景：还没决定阈值时，先看模型能不能把有病的排在更前面（区分度）。
蓝色是模型整条曲线；三个彩色点是三位医生各自的“工作点”（相当于他们心里的阈值只有一个）。
解读：如果曲线穿过或高过医生的点，说明“把模型阈值调一调”，能做到不比这位医生差；如果整条曲线都在点的下方，就说明模型区分度还不够。

AI模型的benchmark

我们现在看到很多AI模型都会有SOTA以及benchmark，都是来自于这些客观指标的评估，这些指标评估集就组件成了一些测试，可以在测试里面拿高分

比如在医疗行业也有可以参考的benchmark，就像最近才发布的百川医疗大模型，就列举了下面的标准评测集测试

通用领域我们在以下数据集上进行了 5-shot 测试。我们采用了与 C-Eval 类似的评测方案。医疗领域则使用通用领域数据集（C-Eval、MMLU、CMMLU）中的医学相关学科、MedQA 和 MedMCQA。我们采用了与 C-Eval 类似的评测方案。为了测试方便，我们使用了 C-Eval 的 val 集进行测试。 MedQA 数据集来源于美国、中国的医学考试。我们测试了 MedQA数据集中的 USMLE 和 MCMLE 两个子集，并采用了五个候选的版本。MedMCQA 数据集来源于印度医学院的入学考试。我们只保留了其中的单选题。

当然还有很多的benchmark，产品经理如果读计算机博士，就自己可以发现或者在博士课题组找到，这也是做科研的产品经理可以提升自己产品技术壁垒的核心原因，虽然你不用发表文章，但是你至少你知道你现在强不强。

通过这些测试得到积分再来看自己的分数，从而证明自己的模型能力。也是AI产品经理模型要做的第一到关

今天的分享就在这里

“关注我，了解第一批空间计算的产品经理做什么”

点击加入XR空间计算开发者、产品经理交流群

AI开源项目拆解群，以及每天体验1款APP

我创建的产品设计打卡社群，加入后365天，每天体验一款APP。提升产品设计能力，同时有1300份体验报告帮助你找到竞品。

在这里你可以随时查询到你想找的各类竞品行业APP以及我收集整理的开源Github项目，马上得到APP的一手产品优化、交互设计、功能描述信息。

从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度，体验一款应用。

平均1天1块钱，扫码购买即可加入

连续体验48款应用，通过后原路退回

报名后添加星球助理