大家好,我是Ai学习的老章
unsetunset研究背景与动机unsetunset
随着机器学习 (ML) 模型在医疗保健领域的广泛应用,其复杂性和不透明性引发了医疗从业者的担忧。在医疗决策直接影响患者生命的情况下,模型的可解释性变得尤为重要。欧盟 AI 法案和美国关于 AI 安全发展的行政命令都强调了高风险 AI 系统(如医疗 AI)的透明度要求。可解释人工智能 (XAI) 在提高 ML 过程透明度方面发挥着至关重要的作用,有助于用户理解模型预测及其决定性变量。
unsetunset论文核心概念unsetunset
可辨别性 (Discernibility): 一种新的、面向用户的评估指标,用于量化机器学习解释的清晰度——从用户视角衡量解释如何有效地反映输入数据与模型输出之间的关系。这一概念弥补了现有 XAI 评估方法中的重要缺口:在算法可解释性和人类理解之间建立客观、可量化的桥梁。
unsetunset研究方法与设计unsetunset 人类研究设计
研究团队招募了 50 名具有不同背景的参与者:
来自生物医学研究机构(RESTORE 实验室,法国图卢兹)的生理学家和医生
来自计算机科学研究机构(IRIT 实验室,法国图卢兹)的数据科学家
来自数据科学硕士课程(UT1 Capitole,法国图卢兹)的学生
参与者被要求评估各种解释的清晰度,这些解释来自于:
合成数据生成的模拟关系(线性、多项式、根函数、三角函数等)
真实生物医学数据(NHANES 数据集,包含 60,402 名个体的 48 个生物变量)
研究者测试了 13 种不同的统计系数,以找出最能代表用户感知的可辨别性指标:
皮尔逊相关系数(pearson)
斯皮尔曼等级相关系数(spearman)
肯德尔等级相关系数(kendall)
距离相关系数(dcor)
互信息(MI)
最大信息系数(MIC)
相关系数(xicor)等
unsetunset研究发现unsetunset 人类评估结果
评估者间一致性:
解释清晰度的评估者间一致性较低(ICC < 0.5)
不同背景(生物医学 vs 数据科学)的参与者对解释清晰度的判断存在显著差异
教育水平对评估的影响:博士学位持有者比硕士和学士学位持有者表现出更高的信心提升
最佳统计代理:
距离相关系数 (dcor) 在所有测试指标中表现最佳
通过 Passing-Bablok 回归和 Bland-Altman 图分析,dcor 显示出最低的差异偏差
dcor 能够有效捕捉非线性和非单调关系,这在生物学领域尤为重要
应用与优势
与特征重要性方法协同:
与 SHAP 等方法结合使用效果显著
帮助识别不仅影响模型预测,而且以用户能够有意义理解的方式影响预测的变量
增强了解释的可接受性和实用性
作为特征选择标准:
基于 dcor 的加权可辨别性可作为额外的特征选择标准
研究表明,即使在 R² 分数保持高水平时,可辨别性也能有效识别过拟合模型
提供了超越传统性能指标的模型评估维度
模型复杂性与可辨别性的关系:
在 100 个 ML 模型(XGBoost 和 ANN)测试中,随着模型复杂性增加,可辨别性一致降低
XGBoost 模型通常表现出比 ANN 更好的可辨别性
增加 ANN 深度导致可辨别性下降,而性能提升不显著
帕累托前沿优化:
研究构建了帮助用户在预测性能和解释清晰度之间进行权衡的帕累托前沿
为 NHANES 数据集提供了六种最优特征选择方案
例如,用户可以在子集 4(可辨别性 0.895)和子集 5(更高 R²)之间选择
如果将问题扩展到模型选择,使用 XGBoost 的子集 3 可达到更高的可辨别性(0.90),R² 略有下降(0.67)![图3:可辨别性作为额外指标用于获取更易接受的ML模型。A) 过拟合与可辨别性之间的反相关关系在三个XGBoost模型中观察到。可辨别性能够识别过拟合模型(图3A中的图1),即使它们的R²值相似(图3A中的图2和3)。B) 为NHANES数据集绘制的帕累托前沿,由六种最优特征选择方案组成,每种方案代表性能与可辨别性之间的权衡。]
适应复杂关系:
不同于传统可读性指标,可辨别性能够适应非单调、非线性关系
这一特性使其特别适合生物学领域,因为生物系统中非线性关系普遍存在且至关重要
能够捕捉到传统线性相关系数可能忽略的复杂模式
对用户背景的稳健性:
研究表明,可辨别性指标对不同教育水平和专业领域的用户都有效
这种稳健性支持了在不同用户群体中实现公平和透明的模型解释
克服了由教育背景或个人经验引起的偏见,为解释提供了客观参考
自动化计算能力:
与需要专家逐案评估的传统方法(如合理性、用户满意度)不同
可辨别性可以通过 dcor 系数自动计算,节省资源并提高效率
适用于大规模模型评估和自动化 ML 流程
可解释 AI (XAI) 系统整合:
作者提倡将可辨别性整合到 XAI 系统中,特别是在医疗等高风险领域
符合美国国家标准与技术研究院(NIST)提出的"可解释人工智能四原则"
有助于增强用户对系统的信任和监管透明度
模型验证与优化:
低可辨别性可能表明需要修改模型超参数以防止过拟合
可作为模型复杂性与性能之间权衡的指导原则
为医疗 AI 系统的设计提供了新的优化维度
相关性与因果性的区分:
研究强调了相关性不等同于因果性的经典谬误
在 ML 模型中,相关性可能源于因果关系、混杂因素或选择偏差
实施可辨别性时应包括对这些基本术语的清晰解释,以帮助用户避免潜在的误解
跨领域应用潜力:
虽然研究聚焦于医疗领域,但可辨别性概念有望应用于其他研究领域
如金融、生态学、汽车等需要透明且可解释 AI 的领域
为不同专业背景的用户提供了统一的解释评估框架
本研究引入的可辨别性指标为评估机器学习模型解释提供了新视角,特别是在医疗领域。通过将用户感知与客观统计指标相结合,研究者能够开发出既高性能又易于理解的模型,从而增强医疗 AI 系统的可接受性和实用性。距离相关系数 (dcor) 作为可辨别性的最佳代理,能够有效捕捉复杂的非线性关系,并在不同用户群体中保持稳定性。这种方法不仅提高了模型的透明度,还为未来的可解释 AI 研究提供了有价值的框架,有望在医疗决策支持系统中发挥重要作用。
配图复现思路:
Figure 1: 组合图示例 (Examples of combination plots)
内容来源: 前5个图的数据是人工合成的,模拟了不同的函数关系(如线性、多项式、三角函数等,论文在方法部分有提及)。其余的图则来源于真实的 NHANES 数据集。
解释方法: 使用了SHAP(SHapley Additive exPlanations) 作为 XAI 方法来生成解释值。
可视化组合: 图本身是一种组合图,左侧是 **SHAP 摘要图 (summary plot)**,右侧是 **部分依赖图 (partial dependence plot)**。
实现: 论文描述了图的构成和数据来源,但没有明确提及使用了哪个具体的绘图库(如 Python 的 Matplotlib, Seaborn, 或者 SHAP 库自带的绘图功能)。实现上需要先用 SHAP 计算解释值,然后分别生成摘要图和部分依赖图,最后将它们并排组合在一起。
Figure 2: dcor 指标与人类感知的对比
核心分析: 此图旨在展示dcor(距离相关系数)相较于其他统计指标,更能反映用户对解释可辨别性的感知。
统计方法:- 计算了多种相关性/依赖性系数(如 dcor, pearson, spearman, kendall, xicor 等)。- 对每个用户进行了Passing-Bablok 回归分析,以比较统计系数与用户评分之间的一致性。- 绘制了Bland-Altman 图来展示统计系数预测值与用户实际评分之间的残差。
可视化:- 使用了小提琴图 (violin plots)来展示 Passing-Bablok 回归得到的斜率和置信区间宽度的分布。- 使用了散点图 (Bland-Altman plots)来展示残差。
实现: 实现这张图需要进行大量的统计计算(相关系数、回归分析、残差计算)和相应的数据可视化。论文没有指明使用的具体统计软件或库(如 R 语言的相应包, Python 的 SciPy, Statsmodels, Pingouin 等)或绘图库(如 Matplotlib, Seaborn)。
Figure 3: 可辨别性作为模型评估和选择的指标
图 3A: 展示了过拟合与加权可辨别性 (weighted discernibility)之间的关系。比较了不同复杂度的 XGBoost 和 ANN 模型在 R² 和加权可辨别性上的表现,说明可辨别性可以识别出 R² 值相似但已过拟合的模型。
图 3B: 展示了一个 **帕累托前沿 (Pareto Front)**,用于在模型性能 (R²)和加权可辨别性之间进行权衡,以选择最优的特征子集/模型组合。
计算:- 训练多个机器学习模型(论文提到了 XGBoost 和 ANN)。- 需要计算每个模型的R²值。- 需要计算加权可辨别性(论文提到基于 dcor,但具体加权方式可能结合了特征重要性如 SHAP 值,但未详细说明)。- 需要识别出帕累托最优解来构建帕累托前沿。
实现: 这张图的实现涉及机器学习模型训练、性能评估、自定义指标(加权可辨别性)计算以及帕累托前沿的构建和可视化。论文没有指明使用的机器学习库(如 scikit-learn, XGBoost, TensorFlow/Keras)或绘图库。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴