追问daily | 为什么我们每秒只能思考10比特的信息？视觉植入物为何未能“落地”？偏执可能和视觉问题有关|163

█ 脑科学动态

Nature：同样的决策任务，不同的大脑机制

Cell：化学遗传学技术助力精准缓解疼痛

婴儿的心跳可能是他们说出第一句话的关键

为什么我们每秒只能思考10比特的信息？

奖励反应减弱预测青少年抑郁症首次发作

人体能自制“安眠药”，或能替代危险的阿片类止痛药

偏执可能和视觉问题有关

大脑如何根据行为状态调整视觉信息处理

大脑如何稳定神经表征？振荡与瞬态在预测处理中的作用

脑如何将视网膜图像转化为自我中心空间模型

█ AI行业动态

字节跳动发布豆包视觉理解模型，精准度惊艳

NVIDIA 推出最经济实惠的生成式 AI 超级计算机

谷歌推出“Whisk”：无需文本提示即可生成创意图像

█ AI驱动科学

AI接受性格测试时，会主动调整答案以更符合社会期望

混合机器学习模型更准确地预测金融市场波动

视觉植入物为何未能“落地”？

EpiCare：评估医疗保健中的强化学习应用

人工智能聊天机器人可以检测种族，但种族偏见会降低反应同理心

利用人工智能实时解读美国手语

脑科学动态

Nature：同样的决策任务，不同的大脑机制

认知灵活性对于大脑适应外部变化至关重要，但个体间在执行相同任务时的大脑差异尚不明了。普林斯顿大学的Carlos Brody团队通过开发新任务研究了大鼠的认知灵活性，并发现了不同大脑在决策中的个体差异。

▷大鼠灵活决策的神经计算。Credit: Dr. Marino Pagan

研究人员通过训练大鼠执行基于听觉线索的决策任务，发现尽管大鼠的行为结果相似，不同大脑却使用了不同的神经机制来处理任务。通过递归神经网络（RNN）模拟，研究人员揭示了大脑中三种可能的计算方式，并验证了这些计算方式与大鼠的神经活动和行为之间的关系。此外，研究显示，大脑的神经活动在个体间存在显著差异，这种差异与行为结果之间存在密切的联系。研究结果不仅为大脑如何进行灵活决策提供了新见解，还为研究神经发育疾病的个体差异提供了新的思路。研究发表在 Nature 上。

#认知科学 #神经科学 #认知灵活性 #大脑变异性 #行为科学

阅读论文：

Pagan, Marino, et al. “Individual Variability of Neural Computations Underlying Flexible Decisions.” Nature, Nov. 2024, pp. 1–3. www.nature.com, https://doi.org/10.1038/s41586-024-08433-6

Cell：化学遗传学技术助力精准缓解疼痛

慢性疼痛常常困扰患者，现有的治疗方法效果有限且存在副作用。北卡罗来纳大学医学院的研究团队，采用化学遗传学技术开发了一种新型疼痛治疗方法。该方法通过靶向外周神经系统，减轻急性及组织损伤引起的疼痛，具有潜在的基因疗法价值。

▷Credit: Cell (2024).

研究人员开发了一种名为mHCAD的化学遗传学工具，它基于外周神经系统中表达的HCA2受体。通过结构引导的设计，研究人员成功创造出这种仅在外周发挥作用的工具，避免了对中枢神经系统的干扰。mHCAD可以通过改变背根神经节的受体，显著减少急性疼痛和由组织损伤引起的炎症性疼痛。实验结果显示，这种新方法能够精确调控外周神经系统，减少疼痛感知。尽管目前技术仍在动物实验阶段，但该系统为慢性疼痛的基因治疗开辟了新的可能，未来或可用于人类治疗。研究发表在 Cell 上。

#神经技术 #化学遗传学 #疼痛治疗 #基因疗法 #慢性疼痛

阅读论文：

Kang, Hye Jin, et al. “Structure-Guided Design of a Peripherally Restricted Chemogenetic System.” Cell, vol. 0, no. 0, Dec. 2024. www.cell.com, https://doi.org/10.1016/j.cell.2024.11.001

婴儿的心跳可能是他们说出第一句话的关键

休斯顿大学的Jeremy I. Borjon与团队开展了一项关于婴儿语言发育的研究。研究探讨了婴儿语言发声时机与心率波动之间的关系，发现婴儿心率的波动与语言发音的时机、持续时间以及是否能被识别为单词直接相关。

▷心率的相位与婴儿发声的时间和声学特性有关。Credit: Proceedings of the National Academy of Sciences (2024).

在这项研究中，Borjon及其团队观察并记录了34名18至27个月大婴儿在与看护者玩耍时发出的2708个声音样本，同时监测婴儿的心率波动。结果发现，当婴儿的心率波动到达高峰或低谷时，他们发声的几率增加。尤其是在心率减缓的低谷时，婴儿发出的声音更容易被他人识别为单词。此外，在心率高峰时，发出的声音持续时间较长。这表明，婴儿语言的发音时机与心率波动密切相关，心率波动的规律性可能对语言发育起到调节作用。研究的结果为我们提供了对语言发育的生理机制和早期语言障碍识别的新认识，具有重要的理论和实际意义。研究发表在 PNAS 上。

#认知科学 #婴儿语言发育 #心率波动 #语言障碍 #发音

阅读论文：

Borjon, Jeremy I., et al. “Recognizability and Timing of Infant Vocalizations Relate to Fluctuations in Heart Rate.” Proceedings of the National Academy of Sciences, vol. 121, no. 52, Dec. 2024, p. e2419650121. pnas.org (Atypon), https://doi.org/10.1073/pnas.2419650121

大脑思维速度：为什么我们只能思考每秒10位信息？

加州理工学院的研究人员对人类思维的速度进行了量化，发现大脑处理信息的速度为每秒10位比特，远远低于感官系统的处理速度（每秒1万亿比特）。这一研究由Jieyu Zheng、Markus Meister完成，并结合大量文献，通过信息论方法进行了分析，提出了大脑信息处理的悖论：为什么我们的大脑思维如此缓慢，且一次只能处理一个问题？

该研究通过信息论（Information Theory）中的方法，分析了人类在不同活动中的信息处理速度，包括阅读、写作、解魔方和玩游戏等。研究发现，人类的大脑只能处理每秒10位的比特数据，而我们感官系统以每秒1万亿比特的速度接收信息，二者之间的巨大差异提出了“处理悖论”。研究还发现，大脑在进化过程中可能已经习惯于一次专注于一条思维路径，而这也许是因为早期人类的大脑主要用于导航任务，需要集中处理少量信息。梅斯特教授表示，未来的神经科学研究应探索这一悖论，并关注大脑如何编码这一“思维限速”。研究结果发表在 Neuron 期刊上。

#认知科学 #神经科学 #信息处理 #大脑速度 #神经元

阅读论文：

Zheng, Jieyu, and Markus Meister. “The Unbearable Slowness of Being: Why Do We Live at 10 Bits/s?” Neuron, vol. 0, no. 0, Dec. 2024. www.cell.com, https://doi.org/10.1016/j.neuron.2024.11.008

奖励反应减弱预测青少年抑郁症首次发作

青少年情绪和焦虑障碍日益引发关注，这些疾病往往在青春期首次出现，并且会对个人生活产生深远影响。卡尔加里大学的研究团队通过脑电图技术研究了高风险青少年群体（具有家族抑郁或焦虑症史）的奖励反应，旨在寻找早期的生物标志物，以帮助预测这些青少年是否易患上抑郁症。研究结果表明，青少年在获得奖励时大脑反应的减弱，与首次发作的抑郁症存在显著关联。

▷赌博任务的设计。Credit: Biological Psychiatry: Cognitive Neuroscience and Neuroimaging (2024).

本研究跟踪了145名11至17岁的高风险青少年，所有参与者的父母均有抑郁症或焦虑症病史。研究团队使用脑电图（EEG）技术，测量了参与者在进行简单赌博任务时的奖励反馈反应（奖励积极性，RewP）。此外，还通过自我报告问卷评估青少年的内化症状，并在9个月和18个月后对他们的精神健康状况进行了随访。

研究结果表明，奖励反应减弱（RewP较低）显著预测了抑郁症的首次发作，而并未对焦虑症或自杀意念的首次发作产生预测作用。即使在控制了性别、年龄及基线情绪症状的影响后，奖励反应的减弱仍然是抑郁症的一个有效预测因子。这项研究表明，奖励反应的测量可以作为早期识别抑郁症风险的一种低成本方法，为青少年抑郁症的预防和干预提供了新的思路。研究发表在 Biological Psychiatry: Cognitive Neuroscience and Neuroimaging 上。

#大脑健康 #奖励机制 #抑郁症 #青少年 #脑电图

阅读论文：

“The Reward Positivity as a Predictor of First Lifetime Onsets of Depression, Anxiety, and Suicidal Ideation in High-Risk Adolescents.” Biological Psychiatry: Cognitive Neuroscience and Neuroimaging, Nov. 2024. www.sciencedirect.com, https://doi.org/10.1016/j.bpsc.2024.10.017

人体能自制“安眠药”，或能替代危险的阿片类止痛药

利兹大学生物医学学院的Nikita Gamper教授及其合作团队，合作研究揭示了一种人体如何通过自然机制产生类似苯二氮卓类药物的肽，能够减缓疼痛感知。该研究的发现为替代有害的阿片类药物提供了新的方向，揭示了脊髓神经节中的卫星胶质细胞（SGC）在调节疼痛中的重要作用。

研究团队通过对小鼠、大鼠和人类脊髓神经节的分析，发现DBI（一种苯二氮卓结合抑制因子）在卫星胶质细胞中高度表达。通过基因敲除和过度表达DBI，实验发现DBI能够调节感觉神经元的痛觉敏感性。在小鼠模型中，抑制DBI导致了显著的机械性过敏反应，而过度表达DBI则能够有效降低机械性疼痛的感知。DBI通过作用于GABAA受体，特别是高亲和力的苯二氮卓结合位点，能够调节神经元的疼痛信号传递。这一发现为开发靶向疼痛治疗药物提供了理论基础，且该药物的作用机制不会引起阿片类药物那样的成瘾问题。研究发表在 Journal of Clinical Investigation 上。

#神经科学 #疼痛 #神经调节 #苯二氮卓类

阅读论文：

Li, Xinmeng, et al. “Peripheral Gating of Mechanosensation by Glial Diazepam Binding Inhibitor.” The Journal of Clinical Investigation, vol. 134, no. 16, Aug. 2024. www.jci.org, https://doi.org/10.1172/JCI176227

偏执可能和视觉问题有关

耶鲁大学的研究团队在探讨偏执症和目的论思维时，提出这两种认知偏差可能与视觉系统的感知错误有关。通过一项视觉感知任务，研究发现，偏执和目的论思维较强的个体会误判物体间的追逐关系，从而产生类似幻觉的错误感知。

▷存在追逐和不存在追逐的条件。A 是追逐呈现试验的图形示例，其中狼以 30° 的追逐微妙度追逐羊。羊在显示屏上随机移动，干扰盘也是如此。B 是无追逐控制条件的图形显示，其中狼追逐一只看不见的羊，它反映了另一个随机移动圆盘的移动。Credit: Communications Psychology (2024).

研究人员使用了一个动态视觉任务，要求参与者判断屏幕上的两个点是否存在追逐关系。实验中，部分参与者表现出偏执或目的论思维，这些人比其他人更频繁且自信地错误判断某个点正在追逐另一个。研究还进一步分析了这些参与者在辨认追逐者和被追逐者时的表现。结果发现，偏执症较为严重的参与者难以识别被追逐的点，而目的论思维较强的参与者则难以辨认追逐者。这表明，虽然这两种思维偏差都涉及到对意图的过度感知，但在视觉认知中表现出不同的错误模式，可能为精神病尤其是精神分裂症的诊断和治疗提供新的思路。未来，基于视觉测试的早期筛查方法或许能帮助识别高风险个体。研究发表在 Communications Psychology 上。

#大脑健康 #酮体 #蛋白质稳态 #阿尔茨海默病 #神经退行性疾病

阅读论文：

Castiello, Santiago, et al. “Paranoid and Teleological Thinking Give Rise to Distinct Social Hallucinations in Vision.” Communications Psychology, vol. 2, no. 1, Dec. 2024, pp. 1–12. www.nature.com, https://doi.org/10.1038/s44271-024-00163-9

大脑如何根据行为状态调整视觉信息处理

行为状态对视觉处理的影响一直是神经科学研究的热点。法兰德斯神经电子研究中心（NERF）的Vincent Bonin和团队，结合先进的双光子成像技术，探讨了视觉信息在丘脑和视觉皮层中的处理机制。研究表明，行为状态（如安静、运动、麻醉）会显著调节视觉信号的传递方式，揭示了大脑在不同状态下对视觉信息的适应性。

在这项研究中，研究人员使用双光子成像技术，观察了小鼠在清醒、运动及麻醉状态下的丘脑（dLGN）神经元活动，并分析了视觉刺激对小鼠反应的影响。研究发现，当小鼠看到鼻部运动时，瞳孔扩张，并且在安静的清醒状态下，视觉信息的处理更加敏感，甚至会引起小鼠的运动行为。研究还发现，丘脑中的神经元对视觉运动的反应，在不同的行为状态下表现出不同的调节效果。运动状态下，视觉反应的强度减弱，而在麻醉状态下则几乎完全消失。通过分析这些动态变化，研究揭示了视觉信息在视觉丘脑皮层通路中的整体保持，尽管行为状态可以改变早期视觉神经元的调谐方式。这项研究表明，行为状态对视觉信息的处理具有重要影响，未来可能有助于我们更好地理解大脑如何根据环境和任务需求调整感官输入。研究发表在 Cell Reports 上。

#神经科学 #丘脑 #视觉皮层 #神经元活动

阅读论文：

Socha, Karolina Z., et al. “Behavioral Modulations Can Alter the Visual Tuning of Neurons in the Mouse Thalamocortical Pathway.” Cell Reports, vol. 43, no. 12, Dec. 2024. www.cell.com, https://doi.org/10.1016/j.celrep.2024.114947

大脑如何稳定神经表征？振荡与瞬态在预测处理中的作用

本研究探讨了大脑两种主要神经动态——振荡和瞬态——在大脑预测处理中的作用。研究团队通过对已有文献和神经动力学模型的分析，评估了伽马节律和阿尔法/贝塔节律在预测处理中的功能。研究发现，振荡主要在具有高时空可预测性的感觉输入中发挥作用，帮助稳定神经表征并支持神经可塑性过程，尤其是在感觉处理的后期阶段。相比之下，瞬态动态（transients）则在快速感觉推理过程中更为重要，尤其是当感官输入具有不确定性时。

此外，研究者还提出，经典的层次性预测编码理论（HPC）可能无法完全解释这些动态现象，而树突预测编码（dendritic HPC）更能反映生物学中的实际情况。这些发现有助于深化我们对大脑如何进行感知推理和预测处理的理解，并可能影响未来的神经科学研究和应用。研究发表在 Trends in Cognitive Sciences 上。

#神经科学 #预测处理 #神经动态 #振荡 #瞬态动态

阅读更多：

Vinck, Martin, et al. “Large-Scale Interactions in Predictive Processing: Oscillatory versus Transient Dynamics.” Trends in Cognitive Sciences, vol. 0, no. 0, Oct. 2024. www.cell.com, https://doi.org/10.1016/j.tics.2024.09.013

脑如何将视网膜图像转化为自我中心空间模型

最新研究探讨了动物如何从复杂的视网膜输入中生成与自身身体相关的空间模型，以帮助其进行有效的行为规划。研究人员通过回顾不同物种的大脑中视网膜中心（视网膜为参考系）和自我中心（以头部或身体为参考系）参考框架的证据，探索了如何通过整合视觉信息和身体运动生成自我中心的空间表征。

研究发现，视网膜输入通常依赖于视网膜坐标系进行编码，但动物需要将这些信息转化为自我中心坐标系来指导行为。具体来说，大脑通过结合眼球、头部或身体位置等信息来完成这一转换，帮助动物进行更有效的导航和运动规划。此外，研究还探讨了如何将距离信息与自我中心空间信息结合，创造局部空间的三维表示，并保持这些空间表征在视觉输入丧失后的独立性。该研究为理解大脑如何处理空间信息并维持与行为相关的空间模型提供了重要视角，推动了神经科学中空间表征的研究。研究发表在 Trends in Cognitive Sciences 上。

#神经科学 #空间表征 #自我中心参考系 #视网膜输入 #行为规划

阅读更多：

Martins, Dylan M., et al. “Building Egocentric Models of Local Space from Retinal Input.” Current Biology, vol. 34, no. 23, Dec. 2024, pp. R1185–202. www.cell.com, https://doi.org/10.1016/j.cub.2024.10.057

AI 行业动态

字节跳动发布豆包视觉理解模型，精准度惊艳

在字节跳动最新发布的豆包视觉理解大模型（Doubao Visual Understanding Model）中，这款模型不仅在性能上超越了传统大语言模型，且价格降低85%，推动了视觉理解技术的普及。该模型在识别精度和实际应用上均表现不凡，尤其是在图像识别、物体数量统计和场景理解等任务中，展现了强大的能力。

在现场的实测中，豆包模型对常见的视觉理解任务表现优异。例如，在一张包含多只狗的图片中，豆包准确地识别出12只狗，而GPT-4（GPT-4）则误判为11只，显示出豆包在图像细节上的出色精准度。此外，豆包还能准确识别手办模型，并理解其角色，表现超过了GPT-4，后者在识别过程中频频出错。对于一些文化背景问题，豆包也显现出了比GPT-4更强的理解能力，特别是在中国传统文化方面。

尽管豆包的视觉理解能力在一些复杂数学公式和计算上仍有不足，但总体表现令人惊叹，尤其是在识别和常识性任务上，优势明显。与GPT-4相比，豆包的优势在于它能够看到人脸，而GPT-4由于严格的安全限制无法处理此类信息。豆包的发布，不仅为AI视觉理解提供了更强大的“眼睛”，也让普通用户能够轻松利用这项技术，提升日常生活中的创造性和生产力。

#字节跳动 #豆包视觉理解模型 #AI #视觉理解 #GPT-4

阅读更多：

https://team.doubao.com/zh/direction/vision

NVIDIA 推出最经济实惠的生成式 AI 超级计算机

NVIDIA近日推出了其最新的生成式AI超级计算机——Jetson Orin Nano Super开发者套件。这款设备尺寸小巧，仅有掌心大小，却提供了大幅提升的生成式AI性能，并且价格大幅下调，从499美元降至249美元，适合从商业AI开发者到爱好者和学生的广泛用户。Jetson Orin Nano Super的性能提升达到1.7倍，生成式AI推理性能提高了70%，内存带宽增加了50%，使其成为理想的生成式AI开发平台。

这款新设备支持多种流行的生成式AI模型，包括基于检索增强生成的LLM（大语言模型）聊天机器人、视觉AI代理和AI机器人应用。Jetson Orin Nano Super采用了NVIDIA Ampere架构GPU和6核Arm CPU，支持高性能推理和多个并发AI应用。此外，它还可以支持最多四个摄像头，提供更高的分辨率和帧率。

Jetson Orin Nano Super不仅适合开发生成式AI、机器人技术和计算机视觉技能的用户，还通过软件更新为现有的Jetson Orin Nano开发套件用户提供性能提升。NVIDIA还为开发者提供了丰富的软件生态系统，包括NVIDIA Isaac、Metropolis和Holoscan等工具，并通过开源社区和Jetson生态系统伙伴提供支持，帮助用户快速实现AI应用。

#生成式AI #Jetson Orin Nano Super #人工智能 #开发者工具

阅读更多：

https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/

谷歌推出“Whisk”：无需文本提示即可生成创意图像

谷歌近期推出了一款名为“Whisk”的人工智能工具，允许用户上传图像，通过AI生成组合图像，而无需提供任何文本说明。与传统的图像编辑器不同，Whisk旨在作为一种创意工具，帮助用户快速激发灵感，而非进行精细的专业编辑。

Whisk的操作方式相当简单，用户可以上传包含主题、场景和风格的图像，然后该工具会将这些元素融合成一张新图像。用户可以选择是否添加文本来指示某些细节，但并非必需。此工具不仅支持图像的再创作，用户还能根据需要“混合”不同的图像元素，制作毛绒玩具、珐琅别针等风格的图像。

谷歌产品管理总监Thomas Iljic表示，Whisk旨在提供快速的视觉探索，而非精确的图像编辑。该工具是基于谷歌旗下AI实验室DeepMind（深度思维）开发的生成式人工智能技术，结合了最新的文本到图像生成器Imagen 3。

Whisk的工作原理是使用谷歌的核心AI技术Gemini来生成图像的描述，并通过Imagen 3将其转化为图像。该过程注重捕捉图像的“本质”，而非精确复制，可能导致最终图像与原始图像存在一定差异，例如人物的身高、发型或肤色有所不同。

目前，Whisk还处于开发初期，首先作为Google Labs网站向美国用户开放。随着AI技术的不断进步，谷歌在该领域的探索将为用户带来更多创意与视觉表达的可能。

#人工智能 #Whisk #图像生成 #DeepMind #创意工具

阅读更多：

https://labs.google/fx/tools/whisk/unsupported-country

AI 驱动科学

AI接受性格测试时，会主动调整答案以更符合社会期望

随着大语言模型（LLMs）在研究中的广泛应用，了解它们的偏差尤为重要。Aadesh Salecha及其团队通过经典的五大性格测试（Big 5）研究了LLMs的行为，发现当模型意识到自己正在接受性格评估时，它们会调整回答，倾向于提供更符合社会期望的答案。

▷随着提示 (Qn) 中提出的问题数量增加，GPT-4 对“五大”调查问题的回答越来越接近社会期望的范围。Credit: Salecha et al.

研究人员通过系统地增加性格测试问题的数量，观察LLMs在性格测试中的表现。结果发现，当模型意识到自己正在被评估时，它们会调整性格测试的答案，使得回答倾向于社会上更受欢迎的特征（如外向性提高，神经质降低）。这一“社会愿望偏差”在所有测试的模型中普遍存在，包括GPT-4、Claude 3、Llama 3和PaLM-2等。GPT-4的回答变化幅度最大，社会期望性格分数上升了超过1个标准差，而Llama 3则为0.98个标准差。研究还表明，尽管问题的顺序或措辞变化有所影响，但这种偏差并不会完全消失。这一发现提示，在使用LLMs代替人类进行性格评估时，必须考虑到模型可能出现的社会愿望偏差，从而影响研究结果。研究发表在PNAS Nexus 上。

#认知科学 #大型语言模型 #社会愿望偏差 #性格评估

阅读更多：

Salecha, Aadesh, et al. “Large Language Models Display Human-like Social Desirability Biases in Big Five Personality Surveys.” PNAS Nexus, vol. 3, no. 12, Dec. 2024, p. pgae533. Silverchair, https://doi.org/10.1093/pnasnexus/pgae533

混合机器学习模型更准确地预测金融市场波动

金融市场的波动性是投资风险的重要衡量指标，准确预测波动性一直是金融领域的研究热点。卡内基梅隆大学机械工程系的研究人员提出了一种结合广义自回归条件异方差（GARCH）模型与长短期记忆（LSTM）深度神经网络的混合深度学习模型——GARCH-Informed Neural Network（GINN）。该模型结合了GARCH模型的市场经验与LSTM的灵活性，能够更准确地预测金融市场的波动性。

▷标准普尔 500 指数样本外测试集上所有测试模型的每日波动率预测结果。Credit: Carnegie Mellon University Mechanical Engineering

研究团队提出的GINN模型，通过将GARCH模型捕捉到的市场规律与LSTM的深度学习能力结合，成功提升了金融市场波动性预测的精度。与单独使用GARCH模型相比，GINN在预测准确度上提高了5%。在全球七个主要股指的预测任务中，GINN在样本外预测中表现更为优秀，尤其在决定系数（R2）、均方误差（MSE）和平均绝对误差（MAE）等指标上优于其他竞争模型。该模型不仅在金融领域具有广泛应用潜力，还可扩展到自动驾驶、生成式AI等其他领域，展现了工程方法与机器学习结合的巨大潜力。研究发表在 ACM International Conference on AI in Finance 会议论文集中。

#认知科学 #机器学习 #金融市场波动性 #深度学习 #模型预测

阅读更多：

Xu, Zeda, et al. “GARCH-Informed Neural Networks for Volatility Prediction in Financial Markets.” Proceedings of the 5th ACM International Conference on AI in Finance, Association for Computing Machinery, 2024, pp. 600–07. ACM Digital Library, https://doi.org/10.1145/3677052.3698600

视觉植入物为何未能“落地”？

视觉假肢（如Argus II和Orion）被认为是治疗视力丧失的有前景技术，但其在人类日常生活中的实际应用一直未得到充分关注。为填补这一空白，来自多个研究机构的团队通过对6位植入者和6位视觉假肢领域的专家进行采访，探索了植入物在日常生活中的实际使用情况。研究人员试图了解现有植入物在满足用户需求方面的不足，以及未来发展方向。

该研究通过对6名Argus II（阿格斯II）和Orion（奥利安）视觉假肢植入者的访谈，结合6名专家的意见，使用主题分析法对植入物的日常使用进行了深入分析。尽管这些植入物的设计目的是为了辅助完成日常任务，但研究发现植入者使用频率低于研究人员的预期。主要原因在于植入物的可用性和可靠性问题，很多植入者选择了应用程序、手杖或导盲犬等替代工具，减少了对植入物的依赖。植入者希望未来的视觉假肢能提供更高的视力质量，具备识别文本、面孔、颜色及深度的能力，同时与现代智能技术结合，提供更大的生活独立性。研究显示，用户需求与技术开发之间的差距突出，开发者应更关注用户的实际使用体验和需求，而不仅仅是技术本身的创新。研究发表在 Translational Vision Science & Technology 上。

#神经技术 #视觉假肢 #用户体验 #植入物 #智能技术

阅读更多：

Lucas Nadolskis, Lily M. Turkstra, Ebenezer Larnyo, Michael Beyeler; Aligning Visual Prosthetic Development With Implantee Needs. Trans. Vis. Sci. Tech. 2024;13(11):28. https://doi.org/10.1167/tvst.13.11.28

EpiCare：评估医疗保健中的强化学习应用

医疗保健中的强化学习（RL）有助于优化治疗决策，尤其在慢性病和精神疾病的个性化治疗中表现出潜力。然而，现有的RL方法面临数据不足、风险高等挑战，且缺乏标准化的评估工具。为此，威尔康奈尔医学院和洛克菲勒大学的研究人员提出了EpiCare基准环境，用于模拟和评估医疗保健中的RL应用。

研究团队使用EpiCare基准环境测试了五种最先进的离线RL模型，并对五种常见的离策略评估（OPE）方法进行了测试。结果表明，在大规模数据下，离线RL能够改进现有的护理标准，但在典型的医疗保健数据环境（如低数据量）中，RL模型的表现受限。此外，现有的OPE方法在EpiCare基准测试中无法有效评估RL的表现，表明RL在医疗应用中的发展还面临着不少挑战。研究人员指出，未来需要开发新的工具和方法，以提高医疗领域RL技术的实用性。研究发表在 Proceedings of the Conference on Neural Information Processing Systems (NeurIPS) 上。

#神经技术 #强化学习 #医疗保健 #机器学习

阅读更多：

Hargrave, Mason, et al. EpiCare: A Reinforcement Learning Benchmark for Dynamic Treatment Regimes. 2024. openreview.net, https://openreview.net/forum?id=dF22s2GoX0#discussion

人工智能聊天机器人可以检测种族，但种族偏见会降低反应同理心

随着人工智能技术的进步，AI聊天机器人（如GPT-4）在心理健康支持领域的应用潜力引起了广泛关注。研究团队来自麻省理工学院、纽约大学和加州大学洛杉矶分校，采用数据集分析和临床心理学家评估相结合的方法，探讨AI聊天机器人在不同种族群体中的同理心表现。研究结果显示，GPT-4在心理健康支持中的表现优于人类，但种族偏见依然存在，这对AI在临床应用中的伦理性提出了挑战。

研究人员通过分析来自26个心理健康相关子版块的12,513个帖子及70,429条回复，评估了基于GPT-4的大型语言模型在提供心理健康支持时的表现。研究采用了由两名临床心理学家进行的人工评估，并使用自动化工具对回应质量进行定量分析。研究发现，GPT-4的回应不仅同理心更强，还在鼓励积极行为改变方面比人类反应好48%。然而，当帖子涉及到不同种族群体时，GPT-4对黑人和亚洲人的回应同理心水平明显低于对白人或种族未知的回应。此外，研究指出，AI回应的设计结构、输入信息的方式会显著影响回应的质量。研究团队建议，通过明确指示LLM使用人口统计特征，可以有效减少AI回应中的种族偏见，提升其公平性。该研究为心理健康领域AI应用的伦理性和安全性提供了有力依据，未来有助于优化AI的临床应用。

#认知科学 #人工智能 #心理健康 #大语言模型 #偏见

阅读更多：

Gabriel, Saadia, et al. Can AI Relate: Testing Large Language Model Response for Mental Health Support. arXiv:2405.12021, arXiv, 7 Oct. 2024. arXiv.org, https://doi.org/10.48550/arXiv.2405.12021

利用人工智能实时解读美国手语

手语作为听力障碍人士的重要沟通工具，其复杂的语法和语法结构使得实时翻译变得具有挑战性。佛罗里达大西洋大学工程与计算机科学学院的研究团队采用计算机视觉技术，开发了一种基于AI的手语识别系统，能够实时准确地识别美国手语字母手势，为打破沟通障碍提供了新的解决方案。该研究标志着在手语翻译领域的重大进展。

该研究使用了两个关键技术：MediaPipe和YOLOv8。MediaPipe用于手部动作跟踪，标注了29,820张手势图像中的21个关键点，从而提供详细的手势信息。YOLOv8是一个深度学习模型，通过这些标注信息进行训练，最终实现了美国手语字母手势的高精度识别。实验结果表明，模型的准确率为98%，召回率为98%，F1得分高达99%，显示出卓越的性能。该模型不仅在静态图像中表现优异，也能够在不同的手势和位置下保持高识别率，具有较强的适应性。研究成果为实时、准确的美国手语翻译提供了强有力的技术支持，具有重要的社会意义。研究发表在 Franklin Open 上。

#神经技术 #人工智能 #手语识别 #计算机视觉

阅读更多：

“Transfer Learning with YOLOV8 for Real-Time Recognition System of American Sign Language Alphabet.” Franklin Open, vol. 8, Sept. 2024, p. 100165. www.sciencedirect.com, https://doi.org/10.1016/j.fraope.2024.100165

整理｜ChatGPT

编辑｜丹雀、存源