追问daily | AlphaFold 3 开源发布；精神疲劳将导致大脑局部睡眠；记忆不专属于大脑|实验|开源发布|神经网络|科学|算法|精神疲劳

█ 脑科学动态

高速3D生物打印技术革新，精准再现人体组织结构

记忆不再局限于大脑：非神经细胞中的记忆机制

人犬互动中的情感同步：心率变异性的共同调节现象

铁螯合剂加速阿尔茨海默病患者认知衰退

精神疲劳引发的大脑局部睡眠状态导致自我控制力下降

星形胶质细胞操控情绪记忆的形成与保持

免疫系统失衡与抑郁症的炎症机制新模型

静息态脑网络的电生理学不可见成分

█ AI行业动态

AlphaFold 3 开源发布：开启分子生物学与药物发现新纪元

李飞飞团队发布HourVideo，推动长视频理解新基准

Qwen2.5-Coder开源：强劲代码生成，支持六种模型尺寸

NVIDIA AI Blueprint：智能视频分析工具

微软Magentic-One：探索复杂任务的高效解决方案

苹果新框架App Intents，可智能读取屏幕内容并执行操作

█ AI研发动态

测试时训练提升语言模型复杂推理能力

大模型“才华横溢”但难以胜任日常任务

大语言模型在社会情境判断方面可以超越人类

大语言模型与知识图谱结合助力服务机器人意图识别

基于NLP与LLM的脊柱手术数据自动提取系统

SpeakFaster系统显著提升ALS患者的眼动打字效率

探索ChatGPT和Bard在教育道德困境写作中的优势

弥合神经形态计算与机器学习的差距：从理论到实践的新进展

脑科学动态

高速3D生物打印技术革新，精准再现人体组织结构

墨尔本大学柯林斯生物微系统实验室的生物医学工程团队研发了一种突破性的3D生物打印技术。该团队由 David Collins 副教授领导，此项技术为癌症研究和药物开发提供了重要的支持，尤其适合复制人体多种组织结构。

该团队利用声波振动气泡的方法，以超高速在数秒内完成3D生物打印，能够构建从脑组织到骨骼的多种人体组织结构。这种创新技术较传统逐层打印快约350倍，通过准确定位细胞并直接在实验室板中打印，显著提升了细胞存活率，减少了因物理操作造成的结构损伤。研究表明，该方法能够在细胞分辨率下实现组织结构的精确还原，为癌症研究提供了更高效且道德的研究手段。此外，研究发现该技术具有较强的通用性和生物相容性，适用于多种复杂的生物结构打印。这项研究成果发表在 Nature 上。

#神经技术 #3D生物打印 #组织工程 #动态界面打印 #癌症研究

阅读论文：

Vidler, Callum, et al. “Dynamic Interface Printing.” Nature, vol. 634, no. 8036, Oct. 2024, pp. 1096–102. www.nature.com, https://doi.org/10.1038/s41586-024-08077-6

人犬互动中的情感同步：心率变异性的共同调节现象

人与狗之间的关系建立在情感依恋之上，但其生理机制尚未明确。芬兰于韦斯屈莱大学心理学系和跨学科大脑研究中心的研究团队针对这个问题展开研究，旨在了解狗与主人之间的情感连接如何在生理层面上体现出来。

研究以29对狗主人组合为对象，采用伪随机交叉设计，通过测量静息基线期和积极互动任务期间的心率变异性（HRV）和体力活动，分析狗与主人的生理同步现象。结果表明，狗与主人的心率变异性在自由活动期（如基线前后）表现出显著相关性，而在互动任务（如抚摸和玩耍）中，两者的活动水平也会同步。更为重要的是，狗的心率变异性可以预测主人的心率变异性，而狗的身高、饲养时长、主人的负面情绪特质以及双方的互动强度均对狗的心率变异性有影响。研究表明，狗和主人之间的生理和情感状态在互动中呈现出共同调节的特征，反映出类似人类依恋关系中的情感连接。该研究发表在 Scientific Reports 上。

#认知科学 #人犬互动 #心率变异性 #情感同步 #生理调节

阅读论文：

Koskela, Aija, et al. “Behavioral and Emotional Co-Modulation during Dog–Owner Interaction Measured by Heart Rate Variability and Activity.” Scientific Reports, vol. 14, no. 1, Oct. 2024, p. 25201. www.nature.com, https://doi.org/10.1038/s41598-024-76831-x

记忆不再局限于大脑：非神经细胞中的记忆机制

记忆形成一直被认为是大脑的独特功能，但纽约大学的研究团队发现，非脑细胞也具备类似的记忆功能。研究由纽约大学的尼古拉·V·库库什金（Nikolay V. Kukushkin）和托马斯·卡鲁（Thomas Carew）教授联合指导。

研究团队在实验室中对两种非神经细胞系进行实验，以验证“集中间隔效应”在非神经细胞中的记忆功能。研究使用毛喉素（forskolin）和佛波酯（phorbol ester）的重复脉冲模拟记忆训练，并通过荧光素酶（luciferase）的表达检测细胞的“记忆反应”。结果显示，间隔性的四次脉冲比单次集中脉冲产生了更强和更持久的荧光素酶表达，并且显著激活了ERK和CREB（关键记忆分子因子）。此外，抑制ERK或CREB会阻断这一效应，表明这些记忆特征并不依赖于神经回路，而是可以存在于不同细胞类型的信号级联动态中。这项研究的发现为理解记忆的多样性开辟了新视角，并为未来的学习增强和记忆治疗提供了潜在的医学应用。这项研究发表在 Nature Communications 上。

#神经科学 #记忆机制 #非神经细胞 #集中间隔效应 #分子生物学

阅读论文：

Kukushkin, N. V., et al. “The Massed-Spaced Learning Effect in Non-Neural Human Cells.” Nature Communications, vol. 15, no. 1, Nov. 2024, p. 9635. www.nature.com, https://doi.org/10.1038/s41467-024-53922-x

铁螯合剂加速阿尔茨海默病患者认知衰退

由墨尔本大学主导的多机构研究团队，包括贾斯汀·杰克逊等26名研究人员，致力于探索铁螯合剂在阿尔茨海默病治疗中的效果。由于大脑铁含量升高与阿尔茨海默病病理的关系，去铁酮这种口服铁螯合剂被认为可能减缓神经退行性变化。

研究纳入了81名轻度认知障碍或早期阿尔茨海默病患者，使用随机双盲对照方法，2:1比例分配至去铁酮组和安慰剂组。去铁酮组患者每天两次服用15 mg/kg，持续12个月。主要结果通过神经心理学测试电池（NTB）评估，去铁酮组患者认知能力加速下降，尤其在执行功能测试中表现显著。次要结局包括QSM MRI测得的脑铁含量变化显示，去铁酮降低了海马区的铁含量，但并未减缓海马体积损失，反而在额叶区域增加了脑容量损失。中性粒细胞减少症发生率也有所上升（去铁酮组7.5%）。研究表明，铁螯合治疗对阿尔茨海默病的疗效不佳，甚至可能有害。研究发表在 JAMA Neurology 上。

#大脑健康 #阿尔茨海默病 #去铁酮 #铁螯合剂 #认知衰退

阅读论文：

Ayton, Scott, et al. “Deferiprone in Alzheimer Disease: A Randomized Clinical Trial.” JAMA Neurology, Nov. 2024. Silverchair, https://doi.org/10.1001/jamaneurol.2024.3733

精神疲劳引发的大脑局部睡眠状态，导致自我控制力下降

精神疲劳影响自我控制这一现象长期以来在心理学和经济学中广受关注。为验证这一现象背后的大脑机制，卢卡 IMT 高级研究学院的神经科学与经济学研究团队与佛罗伦萨大学的研究人员合作，设计并开展了该项实验。

研究人员将44名实验参与者分成“疲劳”和“非疲劳”两组，让疲劳组的参与者进行一小时的高强度认知任务，并在任务后进行经济博弈（如“鹰派与鸽派”博弈），观察其行为差异。结果表明，疲劳组的合作率仅为41%，而对照组则高达86%（p>0.001，总共447名被试）。脑电图显示，疲劳组的参与者在额叶皮层出现了类似睡眠的δ波，与研究团队的“局部睡眠”假设一致。这种神经活动的变化可能使个体在认知疲劳下无法维持自我控制，倾向于冲动和敌对行为。这项研究不仅为“自我耗竭”理论提供了神经科学证据，也表明在日常生活中，精神疲劳可能对决策质量产生深远影响。研究发表在 PNAS 上。

#认知科学 #精神疲劳 #自我控制 #局部睡眠 #经济博弈

阅读论文：

Ordali, Erica, et al. “Prolonged Exertion of Self-Control Causes Increased Sleep-like Frontal Brain Activity and Changes in Aggressivity and Punishment.” Proceedings of the National Academy of Sciences, vol. 121, no. 47, Nov. 2024, p. e2404213121. pnas.org (Atypon), https://doi.org/10.1073/pnas.2404213121

星形胶质细胞操控情绪记忆的形成与保持

记忆形成是大脑的一项重要功能，然而，哪些记忆会被长期保留，哪些会被遗忘仍然是未解之谜。由东北大学的 Ko Matsui 教授和 Hiroki Yamao 研究员领导的团队，通过操控小鼠杏仁核中的星形胶质细胞，研究了该细胞对记忆形成的影响。杏仁核被认为是情绪和恐惧调节的关键区域。

研究团队利用光遗传学技术操控星形胶质细胞的酸碱状态，从而选择性地影响恐惧记忆的形成过程。他们发现，通过激活 ChR2 蛋白酸化星形胶质细胞，可以在短期内增强小鼠的恐惧记忆，但阻碍其转化为长期记忆；而激活 ArchT 蛋白碱化星形胶质细胞则在经历创伤性事件后，抑制了短期记忆形成，同时在三周内阻止了记忆的自然遗忘。这些实验结果首次表明，星形胶质细胞不仅影响情绪感知，还对记忆的选择性巩固起到关键作用。研究团队认为，这一发现可能为未来治疗创伤后应激障碍（PTSD）等疾病提供新的干预途径。研究结果发表在 Glia 杂志上。

#神经科学 #记忆形成 #情绪调节 #星形胶质细胞 #光遗传学

阅读论文：

Yamao, Hiroki, and Ko Matsui. “Astrocytic Determinant of the Fate of Long-Term Memory.” Glia, Nov. 2024. onlinelibrary.wiley.com, https://doi.org/10.1002/glia.24636

免疫系统失衡与抑郁症的炎症机制新模型

抑郁症长期以来被认为主要是神经递质缺乏所致，但这一理论未能解释为何许多患者对常规抗抑郁药无效。耶路撒冷希伯来大学的Raz Yirmiya教授带领团队提出，抑郁症可能源于免疫系统的慢性炎症失调。他们的研究表明，抑郁症不仅与脑部的化学物质相关，还可能涉及体内和大脑中的免疫反应。

该综述分析了过去三十年间关于炎症与抑郁症关联的关键研究，指出炎症机制在抑郁症发生中的重要作用。Yirmiya团队通过对100篇被广泛引用的研究的系统性分析，构建了一个综合模型，展示了炎症-抑郁的复杂关系。研究发现，免疫系统失调可能导致特定的抑郁症状，尤其在老年人、患有慢性疾病者和经历早期逆境者中尤为明显。研究进一步指出，压力可激活大脑小胶质细胞的炎症反应，这种反应在初期可以引发抑郁症状，而长期压力则会导致小胶质细胞退化，加剧抑郁症状的恶化。这些发现提示，对于部分患者而言，抗炎治疗或小胶质细胞的支持性疗法可能比传统的抗抑郁治疗更为有效。综述结论认为，通过个性化的免疫调节治疗可以有效减轻抑郁症状。该研究发表在 Brain, Behavior, and Immunity 上。

#大脑健康 #抑郁症 #慢性炎症 #免疫调节 #个性化治疗

阅读论文：

“The Inflammatory Underpinning of Depression: An Historical Perspective.” Brain, Behavior, and Immunity, vol. 122, Nov. 2024, pp. 433–43. www.sciencedirect.com, https://doi.org/10.1016/j.bbi.2024.08.048

揭示静息态脑网络的电生理学不可见成分

静息态脑网络（RSN）已在健康和疾病研究中广泛应用，但其与大脑神经活动的关系尚不明朗。为探究该关系，宾夕法尼亚州立大学的Nanyin Zhang教授领导的团队开展了一项研究，在小鼠大脑中同时记录rsfMRI和电生理信号，试图揭示rsfMRI信号中未被直接观测的电生理学成分。

研究团队在两处大鼠大脑区域同时记录了rsfMRI和电生理信号。结果显示，基于局部场电位（LFP）频带功率生成的空间图可解释高达90%的RSN空间模式变异性，但时间维度上的解释力仅为35%。此外，从rsfMRI信号中去除LFP功率的时间序列几乎不影响RSN的空间模式，这表明rsfMRI信号中可能存在“电生理学不可见”的成分。这些结果表明，传统的基于电生理信号的rsfMRI信号解释可能不足以涵盖其生成机制。研究发表于 eLife。

#神经科学 #静息态网络 #rsfMRI #电生理信号 #脑成像

阅读论文：

Tu, Wenyu, et al. “Disparity in Temporal and Spatial Relationships between Resting-State Electrophysiological and fMRI Signals.” eLife, edited by Shella Keilholz and Tamar R Makin, vol. 13, Aug. 2024, p. RP95680. eLife, https://doi.org/10.7554/eLife.95680

AI 行业动态

AlphaFold 3 开源发布：开启分子生物学与药物发现新纪元

谷歌DeepMind团队近期宣布开放AlphaFold 3的源代码和模型权重供学术使用，此举不仅标志着人工智能在分子生物学领域的重大进步，更为药物研发带来了新的突破。AlphaFold 3相较于其前代版本有了质的飞跃，其不仅能够预测蛋白质的结构，还可模拟蛋白质、DNA、RNA及小分子之间复杂的相互作用，这一特性将推动现代药物发现及阿尔茨海默病等疾病的研究进展。

该系统的开源发布正值AlphaFold的开发者Demis Hassabis和John Jumper因其在蛋白质结构预测上的杰出贡献获得2024年诺贝尔化学奖的数周之后。此次发布强调了学术开放与商业利益之间的平衡。虽然代码可自由获取，但访问模型权重需获得谷歌的学术许可，试图在满足学术界需求的同时保留部分商业价值。

AlphaFold 3的独特之处在于其基于扩散的建模方法，直接操作原子坐标，使得对蛋白质-配体相互作用的预测超越了传统基于物理的方法。尽管该系统仍存在对无序区域结构预测的不足以及只能预测静态结构的局限，但其高效、可靠的分子建模能力为生物医学研究开辟了全新路径，尤其是在抗体药物的开发中展现了巨大潜力。

#AlphaFold3 #分子生物学 #药物发现 #谷歌DeepMind #蛋白质相互作用

阅读更多：

https://github.com/google-deepmind/alphafold3

李飞飞团队发布HourVideo，推动长视频理解新基准

斯坦福大学的李飞飞团队携手吴佳俊教授，发布了全新的HourVideo数据集，以评估多模态模型在长时间视频理解中的表现。这一数据集包含了来自Ego4D的500个第一人称视角视频，视频时长在20至120分钟之间，覆盖了77种日常活动。HourVideo旨在弥补现有数据集在长视频理解能力评估上的不足，通过比对现有模型和人类专家的表现，揭示了模型在长视频理解方面的差距。

HourVideo设计了18个子任务，涵盖总结、感知、视觉推理和导航等不同维度的任务类型。例如，感知任务要求模型回忆视频中人物的关键行为，推理任务则需判断物体之间的空间关系或活动的时间顺序。这些任务均需对视频多个时间片段的信息进行分析，以全面测试模型的长期理解能力。最终数据集涵盖约12976个五选一问题，通过复杂的人工和自动生成流程确保了题目质量。

在实验中，HourVideo采用人类专家与不同模型的对比评估。结果显示，专家准确率达85.0%，而现有最强多模态模型Gemini Pro 1.5的准确率仅为37.3%。即便是在多模态领域持续进步的背景下，当前模型在长视频理解中仍显劣势。

#多模态 #长视频理解 #李飞飞 #空间智能 #人工智能

阅读更多：

https://arxiv.org/abs/2411.04998v1

Qwen2.5-Coder开源：强劲代码生成，支持六种模型尺寸

Qwen团队近日宣布开源Qwen2.5-Coder全系列模型，涵盖六种不同尺寸，目标是推动开源代码大模型（Code LLMs）领域的发展，并为开发者提供多样化、实用性的工具。此次开源的Qwen2.5-Coder包括0.5B到32B不同尺寸，具有强大、多样和实用的特性。

在代码生成和修复方面，Qwen2.5-Coder-32B-Instruct作为旗舰型号，在EvalPlus、LiveCodeBench和BigCodeBench等主流基准中表现优异，显示出其在代码能力上追平GPT-4o的强劲实力。同时，该模型在代码修复基准Aider中取得73.7分，与GPT-4o相当，表现出卓越的代码修复和推理能力。针对40多种编程语言的支持，让Qwen2.5-Coder在McEval上取得了65.9分，并且在Racket等小众语言上表现出色，极大地拓展了其应用范围。

Qwen2.5-Coder还展示了在人类偏好对齐方面的优势，通过内置的Code Arena偏好评估基准，该模型在偏好对齐能力上超越了其他开源模型。此外，Qwen2.5-Coder提供了丰富的尺寸选择，从轻量级的0.5B到高性能的32B，适应从资源受限到高端计算环境的多种需求。

在实际应用方面，Qwen2.5-Coder被应用于智能代码助手和Artifacts（代码创作工具）场景中，不仅在Humaneval-Infilling和CrossCodeEval等基准测试中实现了SOTA（state-of-the-art，领先）表现，还支持通过简单指令生成网站、小游戏和数据图表等多种可视化作品。

#Qwen2.5-Coder #开源模型 #代码生成 #多编程语言 #代码助手

阅读更多：

https://mp.weixin.qq.com/s/_C1xweqRCxu4tRAmZo7c1w

NVIDIA AI Blueprint：智能视频分析工具，让长视频处理变得轻松

NVIDIA 推出了全新的视频分析框架“AI Blueprint”，这是一个专为开发者设计的工具，旨在简化视频内容的理解和处理。该框架整合了生成式AI、视觉语言模型（VLM）和大语言模型（LLM），能够对长视频进行片段化分析，实现摘要生成、问答以及实时事件检测等功能。通过 AI Blueprint，用户可以快速对监控视频、教育视频、会议录像等长视频内容生成概要，无需逐帧观看，极大地提升了工作效率。

在实际应用中，AI Blueprint 通过三步流程生成视频摘要：首先将长视频自动分割为小片段，随后每个片段由视觉语言模型分析生成文字描述，最终由大语言模型将所有片段内容汇总成简洁的摘要。这一过程适用于安防监控、教育内容回顾以及客户服务记录等多个领域。用户还可以自定义关注对象和事件，从而获得更精确的摘要。

此外，AI Blueprint 还支持互动式问答功能，通过构建知识图谱，用户可以直接通过自然语言提出问题，如“某物体何时出现？”，系统将快速定位相关信息。对于实时流视频，用户可以设置特定警报规则，如在森林监控中检测到动物或火灾时触发警报，从而实现更高效的实时监控。

技术上，AI Blueprint 包含 Stream Handler（流处理器）、CA-RAG（上下文感知检索增强生成）和 Graph-RAG（图关系增强生成）模块，依托 NVIDIA 的 GPU 提升了视频处理速度。开发者可以通过 REST API 轻松集成 Blueprint，为应用提供视频摘要、问答和警报等功能，帮助企业在工业监控、交通管理和安防等场景实现自动化监控和智能分析。

#NVIDIA #AIBlueprint #视频摘要 #实时监控 #智能分析

阅读更多：

https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint

Magentic-One：微软发布新一代通用多智能体系统，探索复杂任务的高效解决方案

Magentic-One是微软研发的新一代通用多智能体系统，专为解决复杂的开放式Web和文件任务而设计。该系统由多个智能代理组成，以Orchestrator（协调器）为首负责任务分解、规划与进度跟踪，并通过指挥其他智能代理，如WebSurfer（浏览器控制）、FileSurfer（文件导航）、Coder（代码编写）和ComputerTerminal（终端控制），实现高效执行。每个代理具有独特的功能，如浏览网页、读取文件、编写代码等，确保整个系统在动态多变的环境中灵活应对各类任务。

Magentic-One的设计具备高度模块化与灵活性，允许不同代理独立添加或移除，避免影响整体架构。这一特性使其在软件工程、数据分析等领域表现卓越，并在多个挑战性基准测试中展示了与前沿技术相当的表现。此外，微软还推出了AutoGenBench，用于严格评估系统性能，并在测试中发现潜在风险，例如多次登录尝试导致账户暂时封锁。微软采取了一系列风险管控措施，并为用户提供了安全使用指南，以最大限度减少不良操作的风险。

微软计划通过开源代码和发布技术报告，邀请研究人员共同推动通用智能代理系统的发展，并提出了一系列改进建议，包括在不可逆转操作前暂停并寻求人工干预。随着人工智能朝向代理性系统演进，Magentic-One的发布标志着一个重要的里程碑，为提升人们生产力和丰富日常应用带来新的可能性。

#Magentic-One #微软 #多智能体系统 #人工智能 #AutoGenBench

阅读更多：

https://www.microsoft.com/en-us/research/publication/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

苹果推出新框架App Intents，Siri可智能读取屏幕内容并执行操作

苹果公司近日正式发布了新的集成框架App Intents，结合Siri和Apple Intelligence的能力，使开发者能够在iOS 18.2及macOS 15.2以上版本中更深入地将应用功能与系统体验整合。借助这一框架，Siri不仅可以读取用户屏幕上的信息，还能够根据用户需求直接执行相应操作，实现人机交互的新高度。

App Intents通过App Intent（应用意图）和App Entity（应用实体）等构建模块，让应用的核心功能在Siri、Spotlight（聚焦搜索）和快捷指令（Shortcuts）中得到展现。例如，用户可以通过Siri实现“查找我的航班”或“添加待办事项”，Siri会直接与应用交互，完成任务。此外，Siri还可在Spotlight搜索中显示应用内容，让用户无需打开应用就能查找所需信息。

不仅如此，App Intents还支持硬件触发操作，用户可以在iPhone或Apple Watch上通过物理按钮启动特定功能。通过定义特定的应用意图，开发者可进一步增强用户体验，例如在旅行助手应用中，用户只需在Spotlight中输入航班号即可获取详细信息。

苹果为开发者提供了符合不同内容领域的助手架构（Assistant Schema），如浏览器、文件管理等。这一系列标准化“模板”帮助Siri理解和响应不同类型的内容请求，满足用户在文档阅读、照片查看等场景中的需求，使应用在Apple生态中更加智能和互动。

#苹果 #Siri #AppIntents #智能交互 #AppleIntelligence

阅读更多：

https://developer.apple.com/documentation/appintents

AI 研发动态

测试时训练，提升语言模型复杂推理能力

近年来，语言模型在已知任务上的表现显著提升，但在处理复杂推理问题上仍存在挑战。哥伦比亚大学的研究团队使用Abstraction and Reasoning Corpus（ARC）作为基准，通过“测试时训练”（test-time training，TTT）方法，研究如何在推理阶段增强模型的抽象推理能力，以应对全新任务的挑战。

研究团队首先在类似任务上对模型进行初步微调，然后使用输入数据进行TTT，以在推理阶段优化模型参数。通过对比多个模型设计，研究识别出提高TTT效果的三个关键要素：任务微调、辅助任务格式和逐实例训练。最终，TTT使模型在ARC验证集上的准确率提升了6倍，达到53%。进一步结合程序生成技术后，准确率升至61.9%，接近人类平均水平。这一结果表明，神经网络在不依赖符号化推理的情况下，也可以在复杂推理任务中获得显著提升。

#认知科学 #复杂推理 #测试时训练 #大规模语言模型 #抽象推理

阅读更多：

https://ekinakyurek.github.io/papers/ttt.pdf

大模型“才华横溢”但难以胜任日常任务——新基准揭示Moravec悖论

在最新的前沿数学评估中，大型语言模型（LLM）仅能解决2%的问题，这一结果引发了AI评估领域的广泛关注。此基准被提出的原因在于，尽管现有的数学评估基准不断被这些模型“攻克”，但其能力仍然存在明显的局限性。研究人员指出，尽管LLM在数学和编程等领域表现出接近顶级专家水平的能力，但其却无法胜任简单、连贯且长链的自主任务，这一点在日常工作中显得尤为明显。

这一现象揭示了著名的“Moravec悖论”（Moravec's paradox），即30多年前研究员Hans Moravec观察到的现象：计算机擅长处理复杂、封闭性的问题，如国际象棋，这类任务对人类来说极具挑战，但对计算机却较为简单。相反，人类日常完成的简单感知运动任务，例如系鞋带或叠衣服，却极大地挑战了计算机硬件和软件的极限。

此次前沿数学（FrontierMath）基准的发布，启发了研究人员思考如何构建适用于评估大模型日常任务能力的标准，例如：长上下文处理、一贯性、自主性、常识以及多模态输入输出能力。这些技能往往是人类轻松掌握的，但对AI而言却充满挑战。

#Moravec悖论 #大模型 #数学基准 #AI评估 #自动化任务

阅读更多：

https://epochai.org/frontiermath

大语言模型在社会情境判断方面可以超越人类

LLMs因在知识性任务上的出色表现而备受关注，但在社交情境中的表现尚不明确。本研究由德国柏林洪堡大学团队开展，旨在探讨LLMs在高风险冲突情境中的行为判断能力。

研究人员采用了一种不公开的情境判断测试（Situational Judgment Test，SJT），选用276名人类参与者和五款聊天机器人（包括Claude、Microsoft Copilot、ChatGPT、Google Gemini和you.com的智能助手）进行了比较。在SJT测试中，Claude、Copilot和you.com的智能助手表现出优于人类的社交行为建议能力，并且其行为选项的评分与专家评分高度一致，说明LLMs具备一定的社交判断能力。然而，研究也指出，LLMs在复杂社交情境中的稳定性和一致性仍存在挑战。这一发现为LLMs作为虚拟社交助理的潜力提供了支持，但广泛应用中仍需谨慎对待。该研究发表在 Scientific Reports 上。

#认知科学 #大语言模型 #情境判断测试 #社交能力 #虚拟社交助理

阅读更多：

Mittelstädt, Justin M., et al. “Large Language Models Can Outperform Humans in Social Situational Judgments.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 27449. www.nature.com, https://doi.org/10.1038/s41598-024-79048-0

大语言模型与知识图谱结合助力服务机器人意图识别

在人工智能和服务机器人技术快速发展的背景下，服务机器人在日常生活中扮演的角色逐步扩大。本研究由清华大学的研究人员完成，致力于通过结合大语言模型（LLM）和知识图谱（KG）优化服务机器人的意图识别和预测能力。

研究团队提出了LKIRF框架，以离线知识图谱（KG）和大语言模型（LLM）结合为基础，通过实时交互生成在线推理图。该方法首先构建离线知识图谱，包括人体运动数据和环境信息，并利用大语言模型在在线推理过程中进行动态解释。实验结果表明，LKIRF框架在多种复杂场景中相较于传统方法表现出更高的识别精度和推理透明度。研究特别强调，结合LLM的KG在服务机器人意图识别中提供了重要的解释路径，显著提高了识别的准确性和理解性。该研究成果发表在 Scientific Reports 上。

#认知科学 #服务机器人 #大语言模型 #知识图谱 #意图识别

阅读更多：

Zhou, Jincao, et al. “Enhancing Intention Prediction and Interpretability in Service Robots with LLM and KG.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 26999. www.nature.com, https://doi.org/10.1038/s41598-024-77916-3

基于NLP与LLM的脊柱手术数据自动提取系统

从电子健康记录（EHR）中提取手术数据是复杂且耗时的任务，传统的手动图表审查（MCR）方法存在显著效率问题。Mert Marcel Dagli领导的研究团队，联合来自宾夕法尼亚大学的Yohannes Ghenbot、Hasan S. Ahmad等研究人员，开发了一种整合NLP和LLM的AI框架，用于从EHR中自动提取脊柱手术相关数据，期望以此提升数据提取的精度和效率。

本研究首次利用结合GPT4-Turbo的大型语言模型（LLM）和基于规则的NLP算法来自动提取脊柱手术数据，算法分为两阶段。第一阶段中，基于规则的NLP框架筛选并分类EHR文本中的手术信息片段，第二阶段通过LLM验证这些片段的准确性。研究在两个验证数据库中评估了算法的性能，考察了准确性、敏感度、F1分数和精度等指标。最终结果显示，该算法显著减少了手动审查所需时间，提升了数据提取效率，同时在手术类型、手术层级、椎间盘移除数量以及术中意外硬脑膜切开等数据提取中取得了显著的精确度。这些结果表明，该技术在医疗数据标准化和提高EHR数据分析效率方面具备广泛的应用潜力。本研究成果发表在 Scientific Reports 上。

#神经技术 #电子健康记录 #自然语言处理 #大型语言模型 #自动化数据提取

阅读更多：

Dagli, Mert Marcel, et al. “Development and Validation of a Novel AI Framework Using NLP with LLM Integration for Relevant Clinical Data Extraction through Automated Chart Review.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 26783. www.nature.com, https://doi.org/10.1038/s41598-024-77535-y

SpeakFaster系统显著提升ALS患者的眼动打字效率

肌萎缩侧索硬化症（ALS）患者的沟通障碍使其在社交中面临巨大挑战，而传统的眼动打字速度远低于正常语速，导致交流效率低下。本研究由Stanford University的Shanqing Cai等人团队完成，探索利用大语言模型（LLM）提升ALS患者的眼动打字速度。

本研究开发的SpeakFaster系统基于大型语言模型（LLM），通过对简化文本的预测生成完整短语，有效减少了ALS患者的打字时间。研究使用了352名参与者的功能磁共振成像数据，通过分析面部、地点、身体部位和工具的视觉刺激，引发了视觉皮层的特定类别反应。首先，研究人员在实验室环境中模拟测试了SpeakFaster的准确性，证明其能够显著加速字符打字；接着，在两名ALS患者的眼动键盘中进行现场测试，结果表明该系统相较传统输入法提升了29-60%的输入速度，且减少了57%的操作次数。研究进一步表明，ALS患者在短时间的练习后便能适应该系统的操作，从而大大提升沟通效率。该研究发表在 Nature Communications 上。

#神经技术 #增强替代通信 #眼动打字 #大语言模型 #沟通障碍

阅读更多：

Cai, Shanqing, et al. “Using Large Language Models to Accelerate Communication for Eye Gaze Typing Users with ALS.” Nature Communications, vol. 15, no. 1, Nov. 2024, p. 9449. www.nature.com, https://doi.org/10.1038/s41467-024-53873-3

探索ChatGPT和Bard在教育道德困境写作中的优势

随着ChatGPT和Bard等大型语言模型的普及，其在教育中的应用引发了学术诚信的担忧。本研究由Mariano Kaliterna、Marija Franka Žuljević、Luka Ursić、Jakov Krka和Darko Duplančić等人领导，探讨了LLMs在模仿人类写作医学生道德困境方面的表现。

研究团队收集了47篇医学生撰写的道德困境个人经历论文，通过关键词提取为LLMs（ChatGPT和Bard）生成提示，并用这些提示生成相同数量的AI论文。使用语言查询和字数统计（LIWC 22）软件分析生成文本，关注其在社会和心理过程的语言特征。经过数据分析，发现AI撰写的论文在情感、真实性和分析思维方面的语言表现更强。虽然AI生成文本在语言特征上与学生撰写的有所不同，但两种LLMs在生成医学生面临的真实伦理困境个人经历方面显示出较高的能力。这项研究表明，大型语言模型在教育领域的应用潜力与挑战共存。研究发表在 Scientific Reports 上。

#认知科学 #人工智能 #道德困境 #学术诚信 #语言分析

阅读更多：

Kaliterna, Mariano, et al. “Testing the Capacity of Bard and ChatGPT for Writing Essays on Ethical Dilemmas: A Cross-Sectional Study.” Scientific Reports, vol. 14, no. 1, Oct. 2024, p. 26046. www.nature.com, https://doi.org/10.1038/s41598-024-77576-3

弥合神经形态计算与机器学习的差距：从理论到实践的新进展

神经形态计算（Neuromorphic Computing）与机器学习是实现智能化的两条重要技术路径，前者由神经科学驱动，通过尖峰神经网络（SNN）和神经形态芯片（Neuromorphic Chips）来模拟大脑信息处理模式，具备显著的能源效率优势，但在精确度与应用广度上仍逊色于成熟的机器学习生态。机器学习以人工神经网络（ANN）及其加速器为主，依靠计算机科学的快速发展取得了广泛的应用。

为进一步推动神经形态计算的发展，研究人员发起了一项名为“理解并弥合神经形态计算与机器学习之间的差距”的研究课题，并在2019年至2022年间发布了多篇论文，涵盖神经形态模型和算法、硬件实现及编程框架等领域。其中，几项关键研究尝试通过引入机器学习中的反向传播等先进算法，提升尖峰神经网络的精度。此外，新兴的三因素Hebbian更新规则、基于自注意力的时间-通道联合关注模型（STCA-SNN）等创新算法，使SNN能够在复杂任务中更加高效。

在硬件方面，为解决传统计算架构中SNN执行效率低下的问题，研究人员设计了特定的加速器和模型映射策略，以优化尖峰神经网络在FPGA等硬件中的表现；此外，MAC阵列及多核策略的应用显著提高了神经形态芯片的负载平衡与处理效率。

编程框架的进步也是该领域的核心内容之一。研究人员推出了一个名为BIDL的框架，为基于生物神经网络的深度学习提供了强大的工具，便于构建兼容不同数据类型的时空处理模型。

#神经形态计算 #机器学习 #尖峰神经网络 #能源效率 #类脑智能

阅读更多：

Deng, Lei, et al. “Editorial: Understanding and Bridging the Gap between Neuromorphic Computing and Machine Learning, Volume II.” Frontiers in Computational Neuroscience, vol. 18, Oct. 2024. Frontiers, https://doi.org/10.3389/fncom.2024.1455530

整理｜ChatGPT

编辑｜丹雀、1900、存源