想象一个孩子首次参观农场,见到了绵羊和山羊。父母会指出两者的区别,帮助孩子学会分辨它们。但如果孩子再次参观时没有这种指导,他们会还能分辨出来吗?
神经科学家弗兰齐斯卡·布若克正在研究人类和机器如何在没有监督的情况下学习(就像孩子独自学习一样),并发现了一个难题:无监督学习在某些条件下可能会促进,但也可能阻碍学习进展。
研究介绍
在机器学习领域,算法在无监督数据上蓬勃发展。它们在没有明确标签的情况下分析大量信息,但仍然能够学习有用的模式。这种成功引发了一个问题:如果机器能以这种方式很好地学习,为什么这种方式对人类却效果甚微?
根据最近的研究,答案可能在于我们在没有反馈的情况下如何进行预测并加强这些预测。换句话说,结果取决于我们对任务的内在理解与任务实际要求之间的匹配程度。
研究表明,人类和机器一样,都会通过预测来理解新信息。例如,如果有人认为羊毛是区分绵羊和山羊的关键特征,他们可能会错误地将一只羊毛山羊归类为绵羊。如果没有人在场纠正这个错误,他们的错误预测就会得到加强,从而更难学会正确的区分方法。这种“自我强化”过程可能导致滚雪球效应:如果他们的初步猜测是正确的,学习就会进步;但如果猜错了,他们可能会陷入错误信念的循环中。
这种现象不仅适用于动物识别,从学习演奏乐器到掌握一门新语言,都可以看到同样的动态过程。如果没有指导或反馈,人们往往会强化错误的方法,使之后的错误更难纠正。
研究表明,当一个人的初步理解与任务本身已经有一定程度的契合时,无监督学习的效果最好。对于更困难的任务(如学习复杂的语言规则或困难的运动技能),反馈对于避免这些陷阱至关重要。
最终,无监督学习展现了一个事实:关键在于何时以及如何进行无反馈学习,而不是无反馈学习是否有效。随着人类和机器在更复杂的环境中继续学习,理解这些细微差别可能会带来更好的教学方法、更有效的训练工具,甚至可能产生能够像我们一样自我纠正的更智能的算法。
研究方法
虽然实验室研究揭示了无监督学习的各种结果,但要理解其在现实世界学习场景中的影响,这表明,一项专长的获得需要的不仅仅是经验的堆砌,还需要通过不同程度的监督,从广泛的学习中培养。
例如,放射科医生在职业生涯早期会获得结构化的反馈,但会逐渐失去明确的监督指导。如果仅靠无监督学习就能培养专长,那么我们应该会看到持续的进步,但现实往往不然。
研究人员认为,经验并不一定能预测专长,它只不过反映了资历的深浅,却没有实质性的技能提升。偏见可能会扭曲无监督学习,因为它会提前导入刻板印象,最终阻碍进步。
相反,对决策进行定期反馈似乎对于持续进步是必要的。这与“表征与任务对齐框架”相一致,该框架认为,在学习者能够有效自我调节学习之前,最初的反馈有助于他们构建准确的心理表征。
例如,如果在学习时及时撤除反馈,则有助于保持或是提高表现。这强调了专长不仅需要经验,还需要在关键学习阶段进行及时的监督。无监督学习通常由自我强化机制驱动,学习者利用自己的预测而非外部验证来进行学习。在感知学习和类别学习中,这种形式的学习已被深入研究。海布模型展示了无监督学习如何根据学习者的表征与任务的对齐程度来增强或降低表现。
这些模型已成功解释了半监督分类现象,如儿童习得语言标签,这表明自我强化可以塑造学习轨迹。然而,在专业知识习得中,反馈的缺失可能导致错误预测,正如刻板印象所显示的那样。没有外部纠正,个体可能会强化自己的错误预测,这一现象可通过建构主义编码假设进行建模。
研究表明,在处理外部反馈时活跃的脑区也在推断反馈(如学习者强化自己的选择)时参与其中。即使在没有外部反馈的情况下,对自己决策的信心也似乎是自我强化的关键驱动力,而主观奖励可以通过强化过去的决策来塑造学习轨迹。
这些内部反馈机制可能使学习者陷入“学习陷阱”,即他们停止探索替代策略,而只专注于利用过去的选择。神经成像研究表明,只有对记住的选择才会更新偏好,这进一步支持了内部反馈在指导无监督学习中的作用。
此外,神经回放(大脑在休息时重新激活过去经历的过程)与自我强化相关联,凸显了其在没有外部指导的情况下完善心理表征的作用。
研究未来
未来的研究应进一步探索无监督自我强化与外部监督信号之间的关系,尤其是在真实世界的学习环境中。这包括研究这些机制在人类学习中如何相互作用,这可能涉及一个统一的学习系统,而非人工智能中常用的独立、任务特定的算法。
了解无监督学习的动态情况和潜在陷阱,将改进教育方法,支持各领域专业知识的发展。通过平衡自我强化与关键的外部反馈,人们可以优化学习系统,培养出深刻且持久的专业知识,避免无监督过度自信的陷阱。
新闻来源:Trends in Cognitive Sciences
热门跟贴