追问weekly | 过去一周，AI领域有哪些新突破？Vol.41|ai领域|大模型|智能体|神经网络|突破|算法|编程

█政策法规与新闻

Google.org承诺2000万美元推动AI科学突破

用聊天机器人定义全球价值观，能否拯救未来？

KKR领投3700万美元投资酒店分析平台Lighthouse

Wordware融资3000万美元，用“英语编程”颠覆AI开发模式

█大模型与基础建设

企业拥抱混合计算，掌控自身智能未来

2025年商用量子计算机即将登场，千物理比特助力未来科技

微软Orca-AgentInstruct-1M数据集，挑战复杂推理与任务执行

PortLLM：让大模型进化不再是负担，轻松实现个性化定制

大语言模型能否成为符号推理者？——现状评述与未来展望

超稀疏记忆网络：大模型推理效率的革命性突破

Pyramid Vector Quantization助力大语言模型瘦身

大模型加持，个性化Web代理来了！

FeDEQ如何在数据异质性中突围

Mobility-LLM如何用人类出行数据“看穿”旅行意图

AgentSquare：模块化设计空间中的LLM智能体自动优化探索

Ripple：让你的手机也能跑大模型！

NeON框架：基于新闻实体交互提取的时序问答新范式

█技术与研发

Boltz-1：开源AI模型的巅峰，挑战AlphaFold3

专家混合模型：记忆力超群，推理力稍逊？

基于概念的记忆推理模型如何重塑深度学习的可解释性

RAG系统的速度与激情：如何在检索与生成之间找到平衡？

MADial-Bench“记忆升级”：让AI更懂你，也更温暖你！

KVSharer：用“反其道而行”压缩大模型内存，性能还杠杠的！

多跳推理中的语言模型可解释性研究：从记忆注入到注意力透镜

任务向量的魔法：aTLAS算法如何让AI模型更聪明、更高效

FrontierMath基准测试揭示AI数学能力的极限

谷歌AI加持的OSS-Fuzz：20年未解的OpenSSL漏洞终被攻克

深度记忆搜索：优化启发式搜索的“脑洞”大开之旅

█应用与实践

2025年：“隐形”AI代理人将全面融入企业架构

.NET 9发布：性能提升与AI集成，开发者的全新利器

Absci与阿斯利康合作，AI驱动抗体研发迈出关键一步

AI“尝”出新滋味：人工智能如何颠覆餐饮业的味觉测试

Selector：AI驱动的IT问题解决专家

Oura智能戒指获Dexcom投资，估值突破50亿美元

Coles引领澳大利亚零售革命：AI智能购物车试验

TinyTroupe：微软开源的多智能体模拟库，用LLM打造虚拟世界

神经进化助力股市预测：RNNs进化之路与投资回报的双重提升

Instagram即将推出推荐算法重置功能：一键刷新你的兴趣世界

ElevenLabs推出全新对话式AI代理构建功能

Spines如何用算法颠覆传统出版业，让你2周内成为作家

进入“Whisperverse”：AI语音助手如何重新定义我们的日常生活

Connecty AI推出实时上下文图谱，解决企业数据混乱

Magic Story推出AI驱动的儿童冒险创作平台

阿里巴巴推出AI驱动的全球B2B采购引擎

AI智能茶具：从朋友间的故事中编织叙事

GenSpark推出Claude驱动的按需财报生成

NVIDIA加速机器人学习与仿人机器人开发

苹果公司推出AI智能家居设备：J490带来智能化革命

微软携手行业巨头，将AI带入农田与工厂，推动智能化变革

Meta推出革命性AI工具，赋予机器人“人类触感”

Google DeepMind开源AlphaFold 3

ChatGPT桌面版强势来袭，直面Copilot

AI聊天机器人：老年人记忆训练的秘密武器？

Minecraft中的因果探索：如何成为开源世界的“钻石猎手”

█交叉与创新

Neuro-Symbolic Predicates如何重塑机器人规划的未来

神经场景：机器人领域的“全能选手”

社交网络中的“沉默螺旋”：意见动态背后的无声力量

从记忆墙到智能边缘：大语言模型与神经符号架构的融合之路

*如需定位对应内容，请使用微信的检索功能

（点击右上方三点，找到查找页面内容按钮）

政策法规与新闻

Google.org承诺2,000万美元推动AI科学突破：人工智能如何加速未来研究？

在全球科技巨头纷纷加码人工智能（AI）的背景下，Google的慈善部门Google.org宣布了一项重大资助计划，承诺提供2,000万美元现金和200万美元云服务，支持科学家和研究人员利用AI推动科学突破。这一举措旨在帮助非营利机构和学术组织，将AI应用于诸如罕见病研究、实验生物学、材料科学和可持续发展等前沿领域。

Google.org的这一计划由Google DeepMind联合创始人兼CEO Demis Hassabis在伦敦的“AI for Science Forum”上宣布。Hassabis表示，这笔资金专注于解决复杂跨学科问题的项目，旨在激发更多科学家使用AI工具推进科学研究。Google.org负责人Maggie Johnson补充道，这些资金将用于支持在交叉学科领域工作的团队，力求通过AI加速研究进程，为复杂问题提供创新解决方案。

与其他科技巨头的股权投资不同，Google.org采取非股权资助形式，受资助机构无需向Google提供所有权。这种方式不仅加强了Google在科研界的影响力，也帮助其与顶尖科学家建立联系，同时为潜在的AI计算客户奠定基础。Google希望通过此计划促进公共与私营部门的合作，并重燃对AI与科学结合的热情。预计到2026年，这笔资金将分配给大约15个组织，每个项目都将获得足够的支持以实现实质性突破。

同时，AI科研资助正成为科技巨头争夺人才和资源的重要策略。上周，AWS宣布了一项1.1亿美元的计划，以吸引AI研究人员加入其生态系统。Google自己也在多个领域推出类似资助，包括支持智库、非营利机构开发AI技术，以及生成式AI项目。科技巨头间的竞争表明，AI与科研的结合正成为下一场技术竞赛的焦点。

https://techcrunch.com/2024/11/18/google-org-commits-20m-to-researchers-using-ai-for-scientific-breakthroughs/

Sam Altman的AI“人性实验”：用聊天机器人定义全球价值观，能否拯救未来？

OpenAI首席执行官Sam Altman在哈佛商学院的一场访谈中提出一个大胆愿景：希望AI能够“爱人类”。这一愿景不仅突显了他对AI未来的核心期待，也揭示了其背后复杂的技术、伦理和监管挑战。

Altman认为，让AI“爱”人类并非天方夜谭。现有的大型语言模型（LLM）已具备一定的行为对齐能力，能够通过规则和算法避免生成有害内容。然而，要真正实现AI“爱”人类，还需要重新定义“爱”的内涵。他设想了一条技术路径：首先，通过行为对齐（Alignment），让AI在生成内容时符合既定目标；其次，通过全球范围的用户交互采集价值观数据，构建价值观共识；最后，引入多模型监督机制，以确保AI的行动安全和可靠。

然而，这一愿景在监管和安全层面面临巨大挑战。目前，各国AI立法进展缓慢。尽管有尝试推动开发者为AI灾难性后果负责的法律，但大多未能通过。此外，AI行业内部对于如何平衡创新与安全也存在分歧。前OpenAI首席科学官Jan Leike曾因对安全问题的关注离职，他警告称，构建超越人类智能的机器存在本质危险。

Altman提议，通过公众参与价值观采样，为监管提供更多依据，弥补政策盲点。这种方法虽可能缓解当前监管滞后的困境，但也因文化差异和利益冲突而面临困难。他希望，通过深度互动，AI能成为理解个体需求和协调全球性问题的工具，如气候变化和贫富差距。

https://fortune.com/2024/11/21/sam-altman-one-wish-for-ai-openai/

KKR领投3700万美元投资酒店分析平台Lighthouse，助力酒店业智能化升级

近日，伦敦初创公司Lighthouse Intelligence Ltd.宣布获得KKR领投的3700万美元投资，估值突破10亿美元。这笔资金将助力Lighthouse进一步扩展其产品线，推动酒店行业的智能化转型。

Lighthouse为酒店运营商提供了一套全面的分析工具，现已被超过7万今年家酒店公司采用，其数据覆盖全球30多万家酒店。核心产品包括： Rate Insight帮助酒店运营商实时追踪竞争对手的房价变动，分析市场动态，从而优化价格策略。该工具通过自动检测不同旅游预订平台上的价格不一致情况，节省了酒店营销团队的时间和精力。这一功能利用消费者搜索和预订数据，帮助酒店发现销售机会，并确定营销活动或回馈客户的最佳时机。专为小型酒店设计的Channel Manager自动管理多平台房间列表，有效避免双重预订问题。

Lighthouse计划利用这笔投资拓展产品线，推出更多基于人工智能的数据管理功能。例如，AI将进一步自动化分析流程，提供更深入的洞察、更流畅的用户体验，以及更多高级自动化功能。此外，公司将继续推动国际扩张，通过本地化解决方案和支持来增强全球影响力。

https://siliconangle.com/2024/11/21/kkr-leads-370m-investment-hotel-analytics-provider-lighthouse/

Wordware融资3000万美元，用“英语编程”颠覆AI开发模式

总部位于旧金山的初创公司Wordware宣布完成3000万美元种子轮融资，由Spark Capital领投，Felicis、Y-Combinator、Day One Ventures及多位天使投资人参与。本次融资将推动其开发目标的实现，即通过“英语编程”让AI开发变得像普通书写一样简单。

当前AI开发以复杂代码或提示工程为主，非技术领域专家因技术门槛无法直接参与开发，导致知识流失。同时，现有工具要么技术性过强，要么功能受限，难以兼顾灵活性与易用性。Wordware以自然语言为核心，通过英语编程简化AI开发流程，降低技术门槛，同时保留灵活性，满足从个人到企业用户的需求。

技术亮点包括：自然语言编程：用户只需用普通英语描述任务目标，系统即可生成复杂AI解决方案。高级功能支持：支持结构化语句、反思循环、多模态交互等高级特性，增强AI的自我优化能力。增强检索生成框架（RAG）：通过信息检索提升生成内容的准确性和实时性。企业级适配：已服务超过28.6万用户，包括Instacart和Uber等知名企业，适用于多种行业场景。

Wordware在无代码工具与传统框架间找到了平衡点，其普适性、灵活性与开发效率是其核心竞争力。CEO Filip Kozera表示：“我们重新定义了AI开发工具，让英语成为新的编程语言。”

https://siliconangle.com/2024/11/21/wordware-raises-30m-reimagine-ai-development-ordinary-writing/

大模型与基础建设

企业拥抱混合计算，掌控自身智能未来

随着人工智能技术的快速发展，越来越多的大型企业选择混合计算架构，以在享受云计算的灵活性与规模优势的同时，保持对数据和算法的掌控。这一趋势反映了企业对数据隐私与安全的重视，以及对复杂AI计算资源需求的探索。

传统云计算平台如AWS、Azure和谷歌云，为AI开发提供了弹性扩展的强大能力，但对于敏感数据行业（如金融和医疗），完全依赖云端并不理想。本地部署通过直接控制数据，显著降低了隐私泄露和滥用的风险。此外，混合计算架构减少了模型训练中的高昂数据传输成本，优化了效率和资源分配。

混合计算结合了边缘计算、私有云和公共云的优势。边缘计算能够在数据源附近处理信息，减少延迟并降低网络带宽消耗，尤其适用于自动驾驶和工业物联网等实时场景。而私有云的安全性与合规性为企业提供了与公共云类似的弹性能力，帮助企业在不同任务之间灵活调度资源。

在硬件层面，混合计算通过动态扩展云端算力，避免了昂贵设备的资源浪费，同时提升了AI模型训练的效率。算法技术也在助力这一架构，例如联邦学习通过分布式方法，在保护隐私的同时实现协同训练，适用于医疗数据共享或跨国公司内部协作等场景。

大规模语言模型和生成式AI的兴起进一步加剧了算力需求。混合架构可在初步数据预处理阶段利用本地集群，而将大规模参数优化任务交给公共云，既提升了效率，也降低了成本。

https://venturebeat.com/ai/large-enterprises-embrace-hybrid-compute-to-retain-control-of-their-own-intelligence/

微软与Atom Computing联手：2025年商用量子计算机即将登场，千物理比特助力未来科技

在量子计算领域，微软和Atom Computing正在引领一场技术革命。在2024年的微软Ignite大会上，他们宣布了一项突破性进展：利用中性原子技术成功纠缠了24个逻辑比特，这一成果创下了当前纪录。同时，他们计划在2025年推出首款商用量子计算机，配备超过1000个物理比特，标志着量子计算进入实用化的关键节点。

量子计算的核心在于比特（qubit），其能够实现同时处于0和1的叠加态，大幅提高计算效率。然而，创建稳定的逻辑比特一直是实现大规模量子计算的主要难题。此次，微软与Atom Computing通过激光将中性原子固定，并成功纠缠了24个逻辑比特，为未来的大规模量子计算奠定了技术基础。在测试中，他们运行了经典的Bernstein-Vazirani算法，通过量子比特一次查询找到特定秘密代码，相比经典计算机需要逐一尝试，展现了量子计算的潜力。

此外，两家公司开发了一套创新的纠错机制，有效解决了中性原子可能“消失”问题。这一系统能够通过实时监控和自动修复技术，确保计算过程不中断，为未来复杂的量子计算提供了稳定性保障。微软的虚拟化系统更是这一突破的核心。通过为不同量子处理器优化错误校正方案，他们成功实现了用80个物理比特创建20个逻辑比特，并在实验中超越了经典计算机的性能。

https://techcrunch.com/2024/11/19/microsoft-and-atom-computing-will-launch-a-commercial-quantum-computer-in-2025/

微软发布Orca-AgentInstruct-1M数据集，助力AI模型多能力训练，挑战复杂推理与任务执行

11月16日，微软AI研究团队发布了名为Orca-AgentInstruct-1M的数据集，包含100万条合成的指令对话，旨在推动AI模型在复杂推理、代码生成、数学推导和对话理解等多种能力上的训练。通过这一数据集，研究者希望提升大语言模型（LLM）的泛化能力，使其在应对现实世界的复杂任务时表现更优。

Orca-AgentInstruct-1M是微软团队设计的多能力训练基石，涵盖了从简单问题回答到复杂编程任务的广泛领域。数据集不仅包含代码生成和数学推理等技术性任务，还涉及知识问答和长对话推理等贴近日常应用的场景。这些指令对话均为合成生成，确保了数据的质量与规模，同时通过多步骤逻辑判断和复杂推理设计考验模型在高难度任务中的表现。

这一数据集的核心亮点包括：1. 合成数据生成技术：通过自动生成任务定制化数据，不仅降低了标注成本，还提升了数据的灵活性，确保能够涵盖多领域、多类型的任务需求。2. 复杂推理与多步骤任务：特别设计的数学推导和长对话任务，要求模型具备逐步推导和上下文记忆能力。3. 跨领域泛化能力：提供多样化数据以训练模型在跨领域任务中表现出色，如在编程、医学问答和法律咨询等场景中的适应能力。

实验表明，Orca-AgentInstruct-1M显著提升了大语言模型的性能。例如，在代码生成基准测试中，使用该数据集的模型准确率提升了15%；在长对话推理任务中，模型的上下文理解能力也得到了增强。这些成果表明，高质量、多样化的数据是推动AI模型在复杂多步骤任务中突破的重要因素。

https://huggingface.co/datasets/microsoft/orca-agentinstruct-1M-v1

PortLLM：让大模型进化不再是负担，轻松实现个性化定制

随着大语言模型（LLMs）不断更新，个性化定制的高昂成本成为了下游用户面临的一大挑战。然而，PortLLM的出现提供了一种无需训练的解决方案，通过“模型补丁”技术，轻松实现个性化迁移，显著降低了微调成本。

PortLLM的核心理念是利用“模型补丁”实现跨版本的知识迁移。当用户在旧版本的大模型上完成个性化微调后，PortLLM可以将这些特定知识打包为轻量级补丁，直接应用到新版本模型上，而无需重新进行微调。这种方法不仅节约了时间和计算资源，还能保持甚至提升个性化任务的表现。

PortLLM技术的核心在于Low-Rank Adaptation（LoRA）方法，通过低秩矩阵分解来减少需要训练的参数数量，降低微调的计算开销。在此基础上，PortLLM提取LoRA生成的任务特定补丁，应用到新版本模型中，既保留了原有的个性化知识，又能提升性能。例如，在BoolQ和SST-2任务上，PortLLM实现了高达13.19%的性能提升，而无需任何额外训练。

实验结果表明，PortLLM在多个任务和模型架构上均表现优异。从问答任务到推理任务，PortLLM不仅达到甚至超越了微调后的新版本大模型表现，还显著减少了GPU内存使用量，高达12.2倍。此外，从理论角度，PortLLM通过“残差矩阵”理论证明，迁移过程中仅需简单更新便能实现高效性能。这一理论分析进一步验证了模型补丁方法的有效性。

https://arxiv.org/pdf/2410.10870

大语言模型能否成为符号推理者？——现状评述与未来展望

近年来，大语言模型在自然语言处理领域的卓越表现引发了广泛关注。然而，其在符号推理能力上的表现仍存争议。符号推理是通用人工智能的重要组成部分，通过操控符号推导新知识或解决问题。本文评述了LLM在符号推理领域的现状、局限性及未来发展方向。

符号推理强调逻辑推导能力，而LLM基于统计学习，通过预测文本序列中的下一个词生成输出，更侧重模式识别而非逻辑推演。例如，Transformer架构的模型在语言模式学习上表现优异，但缺乏对因果关系和逻辑规则的深层理解，这种训练方式更像“记忆型工具”而非“思考型工具”。

为弥补这些不足，研究者提出了多种增强策略，包括提示工程、外部符号模块以及神经符号混合方法。提示工程通过设计链式思维（CoT）和树式思维（ToT）引导模型逐步生成推理路径，尽管提升了输出解释性，但仍依赖外部引导。外部符号模块则通过整合逻辑框架（如一阶逻辑）和推理机制，为LLM赋能，但也带来了系统复杂性的问题。此外，微调和知识注入技术通过高质量外部知识提升模型逻辑能力，尽管在特定任务中表现优异，但其通用性仍需进一步验证。

https://arxiv.org/pdf/2410.21490

超稀疏记忆网络：大模型推理效率的革命性突破

近年来，大模型（如GPT和LLaMA）在性能上的飞跃伴随着计算资源需求的激增，这一“性能换算力”模式给实际应用中的低延迟和高效率需求带来了挑战。为应对这一矛盾，字节跳动团队提出了一种新型架构——Ultra-Sparse Memory Network（UltraMem），通过引入超大规模稀疏记忆层，在保持性能的同时显著降低推理延迟。这一创新为更大规模模型的构建和高效部署提供了可能。

Transformer模型的性能通常随参数规模线性增长，但高昂的计算成本限制了其实时应用场景的可行性。现有优化方法如专家混合（MoE）和产品键值记忆（PKM）虽在一定程度上提升了效率，但仍存在推理延迟或性能不足的问题。UltraMem 的设计通过分布式记忆层、Tucker分解查询、隐式值扩展、多核评分等技术，成功突破了这一瓶颈。

UltraMem采用跳跃式分布的超大规模记忆层设计，使得多GPU协同工作成为可能，同时通过Tucker分解优化查询效率，隐式值扩展则在不增加显著计算量的情况下提升了模型容量。此外，多核评分机制和动态学习率调整策略确保了模型在复杂数据模式中的表现能力和训练过程的稳定性。

实验结果显示，UltraMem在推理速度上比MoE快6倍，并接近稠密模型的表现。在知识评估（Trivia-QA、ARC）、逻辑推断（BoolQ、HellaSwag）和阅读理解（DROP）等基准测试中，UltraMem展现出全面优越的能力。其扩展性和可调性使得用户可以通过调整激活值数量和虚拟扩展倍数灵活平衡性能与计算成本。

相比MoE和PKM，UltraMem在内存访问成本、检索精度和训练稳定性方面表现出色，为资源受限环境中的大模型部署提供了高效解决方案。这一架构的提出或将为未来低延迟、高性能的大模型开发开启全新篇章。

https://arxiv.org/pdf/2411.12364

量子压缩新突破：Pyramid Vector Quantization助力大语言模型瘦身

大语言模型（LLMs）虽然在性能上表现出色，但其庞大的体积和高昂的计算成本始终是一个难以忽视的瓶颈。最近，一项名为“Pyramid Vector Quantization”（PVQ）的新技术应运而生，为模型压缩带来了突破性解决方案。

量化（Quantization）是一种通过减少权重表示所需比特数来降低存储和计算成本的技术。然而，传统量化方法在处理权重分布不均时常受“离群值”影响，压缩效果不佳。PVQ通过利用球面几何，将权重视为球面上的点，并将其投影到一个隐式的整数网格上，避免了显式存储代码本的需求，同时提供了高效的编码和解码机制。

PVQ的核心在于向量量化，它能够同时处理多个权重，比传统的标量量化具有更高的信噪比（SNR）。通过将权重分解为单位球面上的形状向量和标量增益值，PVQ充分利用了球面几何的特性来提高压缩效率。此外，经典PVQ算法利用L1球上的递归格子投影，生成近似均匀分布的编码网格，在内存和计算资源上都更加节省。

PVQ在多方面展示了其优势。首先，它能以较低的比特数提供较高的信噪比，保留更多信息；其次，它无需构建庞大的代码本，使其在大规模模型处理上更加高效；此外，PVQ允许灵活调整压缩率与性能之间的平衡，并支持实时激活值压缩，为在线量化和低精度训练提供可能性。

在实验中，PVQ在Llama、Phi和Mistral等多个开源大模型上表现优异。例如，Llama-3 70B模型在仅使用3.25比特每个权重（BPW）的情况下，下游任务准确率仅下降不到2%。此外，PVQ在实时压缩激活值方面的潜力，也为未来在线训练和低精度计算开辟了新方向。

https://arxiv.org/pdf/2410.16926

大模型加持，个性化Web代理来了！——PUMA框架与PersonalWAB基准的技术揭秘

随着互联网的快速发展，Web代理逐渐成为帮助用户自动完成复杂任务的重要工具。然而，传统的Web代理在理解复杂指令和个性化需求方面表现欠佳。大语言模型（LLM）的出现，为Web代理带来了新的可能，凭借其强大的世界知识和推理能力，使代理能够更好地完成复杂任务。然而，目前的LLM驱动代理仍存在个性化数据利用不足的缺陷，难以满足用户的隐含需求。

针对这一问题，研究团队提出了PUMA（Personalized User Memory-enhanced Alignment）框架。PUMA通过引入用户记忆库和任务特定检索策略，将用户的历史行为与当前指令结合，显著提升了指令理解和执行能力。PUMA的核心包括四个步骤：构建用户记忆库、从记忆库中检索任务相关信息、将历史行为与当前指令对齐、优化生成的操作参数。通过监督微调（SFT）和直接偏好优化（DPO），PUMA实现了参数的高效调整。

为了验证PUMA的性能，研究团队还构建了首个个性化Web代理评测平台——PersonalWAB。这个基准平台专注于三类个性化任务：搜索、推荐和评论生成，支持单轮和多轮交互评估。PersonalWAB通过模拟用户行为，提供了丰富的用户数据和操作环境，从而在不同场景下测试代理的个性化表现。

实验结果表明，PUMA在PersonalWAB上的表现显著优于现有模型。在功能选择准确率、结果准确率以及多轮交互优化方面，PUMA都展现出色的能力，尤其是在复杂个性化需求的处理上。PersonalWAB的数据亮点还包括覆盖广泛的人口统计信息和行为偏好，为未来个性化Web代理的开发提供了坚实基础。

https://arxiv.org/pdf/2410.17236

深度平衡学习与联邦学习的完美结合：FeDEQ如何在数据异质性中突围

联邦学习（Federated Learning, FL）旨在让分布在全球各地的设备协同训练机器学习模型，同时保护隐私并减少带宽消耗。然而，FL仍面临通信瓶颈、数据异质性和设备内存限制等挑战。为此，研究者提出了一种新框架——FeDEQ（Federated Deep Equilibrium Learning），通过引入深度平衡学习（DEQ）和共识优化，成功应对这些问题。

FeDEQ的核心在于深度平衡模型（DEQ）的创新应用。传统深度学习依赖多层网络逐层计算，而DEQ通过固定点方程隐式定义模型，仅需一个隐式层模拟无限深度网络。这种方法具有以下优势：减少内存占用，仅需存储最终平衡状态；同时，凭借强大的非线性表达能力，捕捉复杂关系。此外，FeDEQ采用个性化层与全局表示层结合的方式，通过共享紧凑的全局表示捕捉通用模式，并利用本地数据微调个性化参数，从而解决数据异质性问题。

技术上，FeDEQ引入了以下亮点：1) 采用交替方向乘子法（ADMM）实现参数一致性，缓解“客户端漂移”；2) 利用安德森加速（Anderson Acceleration）加快DEQ固定点迭代过程；3) 结合隐式微分与雅可比矩阵的零阶近似法，在降低计算复杂度的同时节约内存。

实验结果表明，FeDEQ在多个基准测试中性能优越，不仅通信量减少2-4倍，内存占用降低1.5倍，还表现出良好的泛化能力，尤其适合带宽和资源受限的设备。这一框架为联邦学习在复杂场景中的应用提供了新思路。

https://arxiv.org/pdf/2309.15659

大模型出马，出行偏好全掌握：Mobility-LLM如何用人类出行数据“看穿”旅行意图

Mobility-LLM是一种基于大语言模型（LLM）的创新框架，能够从人类的移动数据中精准挖掘访问意图和旅行偏好。它不仅可以预测用户的下一个目的地，还能估算到达时间，甚至识别出生成这些签到记录的用户身份。通过解码人类移动行为，Mobility-LLM展示了强大的语义理解与预测能力。

签到序列的语义信息挖掘是Mobility-LLM的核心优势。用户的签到记录通常包含地点类别、经纬度和访问时间等信息，背后隐藏着丰富的短期访问意图与长期旅行偏好。传统模型多专注于单一任务，Mobility-LLM则借助大语言模型，全面解析签到数据的“潜台词”，实现更精准的预测。

Mobility-LLM的性能源于其三个关键组件：1. POI逐点嵌入层（PPEL）：将每个兴趣点（POI）转化为语义嵌入向量，结合地点类别与地理信息，揭示地点间的关系。2. 访问意图记忆网络（VIMN）：通过分析签到间隔与顺序，聚焦相关记录，精准捕捉用户的访问意图。3. 人类旅行偏好提示池（HTPP）：为模型提供职业、活动类型等领域的提示词，帮助解码用户的长期偏好。

实验结果表明，Mobility-LLM在多个任务上全面超越现有模型。在下一个位置预测任务中，其准确率提升高达18.29%；在轨迹用户链接任务中，准确率达83.18%；在时间预测任务中，以28.28分钟的平均绝对误差（MAE）领先群雄。更为显著的是，在少样本学习场景下，它依然保持出色性能，展现了强大的泛化能力。

https://arxiv.org/pdf/2411.00823

AgentSquare：模块化设计空间中的LLM智能体自动优化探索

近年来，大语言模型（LLMs）的快速发展催生了许多智能体系统，但多数依赖人工设计的任务特定智能体，适应性和通用性不足。清华大学团队提出了一种创新框架——AgentSquare，利用模块化设计空间（MoLAS）实现LLM智能体的自动优化与搜索。其核心是将LLM智能体的功能抽象为四大基础模块：规划、推理、工具使用和记忆，通过标准化接口实现兼容性与扩展性。

规划模块负责将复杂任务分解为子任务，适用于需要长期规划的场景。推理模块结合链式思考和树式思考技术，逐步解决子任务。工具使用模块弥补LLM知识局限，调用外部工具获取实时信息。记忆模块动态存储和检索经验，支持复杂推理过程。这种模块化设计既简化了智能体开发流程，又为后续自动化搜索提供了基础。

AgentSquare的优化通过模块进化和模块重组双机制实现。模块进化利用进化型元提示优化模块代码，例如改进规划模块的任务分解算法以提升效率；模块重组则通过LLM提出新的模块组合，扩大搜索空间。此外，性能预测器通过上下文推理快速筛选候选方案，降低真实环境评估成本，大幅提升搜索效率。

实验结果表明，AgentSquare在六个典型任务上的平均性能比人工设计智能体提升17.2%，在ALFWorld任务中更是达到26.1%。其优化速度也远超随机搜索和贝叶斯优化，五轮迭代后即显著优于初始方案。同时，性能预测器减少了评估次数，使整个系统更经济高效。

这一框架展示了模块化设计和自动化搜索在LLM智能体开发中的潜力。通过标准化接口和自动优化，AgentSquare降低了开发门槛，提升了性能和效率，为未来智能体系统的研究和开发提供了新思路。

https://arxiv.org/pdf/2410.06153

Ripple：让你的手机也能跑大模型！

来自清华大学和微软研究院的研究团队提出了一项名为Ripple的技术，为智能手机运行大型语言模型（LLM）带来了革命性的突破。通过神经元共激活管理的创新方法，Ripple大幅减少了智能手机运行LLM时的I/O瓶颈，使得在资源有限的设备上也能实现强大的模型推理。

目前，LLM通常需要庞大的计算和内存资源，这让它们几乎成为数据中心的专属。即便有一些轻量化模型专为移动设备设计，它们的性能往往有所牺牲。而Ripple通过利用LLM的稀疏性，智能地管理模型中的神经元，使手机也能够高效运行大模型。

Ripple的关键创新在于神经元共激活管理，分为两个阶段：1. 离线阶段：分析神经元的激活模式，找出经常一起被激活的神经元，并优化它们在闪存中的存储布局，类似于解决旅行商问题（TSP），以最优路径组织关键数据。

2. 在线阶段：在推理过程中，通过优化后的数据布局进行高效读取，同时利用“访问折叠”技术合并不连续的读取请求，进一步减少I/O操作次数。

实验表明，Ripple技术在实际测试中表现出色，能够将I/O延迟降低最多5.93倍，带宽提升高达4.32倍。这一突破使得智能手机可以运行性能更强的LLM，而无需对模型大幅“减肥”。

此外，Ripple利用ReLU等激活函数的稀疏性降低内存占用，同时通过优化UFS存储的I/O操作，克服了智能手机在小规模读写时的性能瓶颈。研究团队还采用基于图论的优化算法重新组织神经元数据布局，显著提高了读取效率。

https://arxiv.org/pdf/2410.19274

NeON框架：基于新闻实体交互提取的时序问答新范式

面对动态变化的信息需求，传统的大型语言模型（LLMs）由于参数记忆的固化性，难以有效应对时间敏感性强、实体交互复杂的查询。为了解决这些问题，研究者提出了NeON框架（News Entity-Interaction Extraction for Enhanced Question Answering），通过构建实体中心的时间戳知识图谱，为时序问答提供了全新的解决方案。

NeON框架的核心在于从新闻流中提取实体间的交互信息，利用开放信息抽取（OpenIE）技术，将这些信息转化为结构化的三元组形式（主语、谓语、宾语），并结合时间维度存储和检索。其知识图谱构建流程包括实体识别与消歧、句子分割与文本分块、重复内容过滤以及基于时间戳的交互提取。框架的两种变体（NeON(₁)和NeON(₂)）分别适用于单一主体和主客体实体关系的场景，以应对不同复杂度的交互问题。

在时序问答中，NeON通过时间和语义检索策略，从知识图谱中提取与用户查询最相关的三元组，并整合进LLM提示生成上下文丰富的回答。实验结果表明，NeON在有用性、相关性和可信性方面表现出色，尤其在时间敏感的复杂查询中优势明显。研究选取了50个代表性实体，从90,000篇新闻中构建知识图谱，并验证其在多个维度上的性能。

NeON的技术亮点包括开放信息抽取与LLM结合、时间感知检索策略以及基于三元组的重复数据去重方法。这些创新不仅提升了时序问答的效率，还确保了数据的时效性与高质量。研究为从非结构化新闻数据到结构化知识图谱的构建提供了细致思路，为处理动态信息需求开辟了新路径。

https://arxiv.org/pdf/2411.12449

技术与研发

Boltz-1：开源AI模型的巅峰，挑战AlphaFold3，助力生物分子结构预测的未来

在生物分子结构预测领域，人工智能正发挥越来越重要的作用。继DeepMind推出AlphaFold系列后，麻省理工学院（MIT）Jameel Clinic团队发布了开源模型Boltz-1。这款模型不仅匹敌AlphaFold3，还在多个基准测试中展现了卓越性能，为药物设计、结构生物学等领域提供了全新工具，标志着AI在生物分子建模领域迈入新阶段。

Boltz-1是首个达到AlphaFold3级别精度并公开可用的开源模型。它支持蛋白质三维结构预测，同时可处理RNA、DNA、小分子等复杂生物分子，涵盖范围之广使其成为当前最全面的建模工具。在性能上，Boltz-1不仅优于闭源模型Chai-1，还在蛋白质-配体和蛋白质-蛋白质相互作用等任务中展现出更高的准确度。例如，其LDDT-PLI得分达到65%，显著超过Chai-1的40%。

Boltz-1的卓越表现源于多项技术创新。首先，多模态输入与条件生成技术允许模型处理多种输入格式，并支持基于活性位点的三维结构生成，为靶向药物设计提供关键支持。其次，通过硬件加速和并行计算框架，Boltz-1能够高效处理大规模任务，显著缩短运行时间。此外，作为开源项目，Boltz-1免费提供训练代码、模型权重和数据，鼓励全球研究者参与改进和扩展。

在多项公开测试中，Boltz-1不仅在精确度上超过现有开源模型，还保持了高效的推理速度，尤其适用于需要快速迭代的药物设计领域。随着模型的持续优化，Boltz-1有望应对更加复杂的生物分子建模任务，为整个领域带来深远影响。

https://jclinic.mit.edu/boltz-1/

专家混合模型：记忆力超群，推理力稍逊？

来自哈佛大学等机构的论文《Mixture of Parrots: Experts Improve Memorization More Than Reasoning》探讨了专家混合模型（Mixture of Experts, MoE）在记忆和推理任务中的表现。研究发现，MoE在记忆任务中表现突出，但在推理任务上却逊色于密集Transformer。

MoE架构通过引入多个“专家”（即多个MLP模块）来扩展模型参数，同时保持较低的计算成本。在记忆密集型任务中，MoE展现了强大的能力。例如，在电话簿记忆实验中，MoE能够有效记住成千上万个名字与电话号码的对应关系，其性能甚至超过了同样参数规模的密集Transformer。这得益于MoE中巧妙的路由机制，它能将输入数据分配给最适合处理的专家，从而最大化利用存储信息的效率。

然而，在复杂推理任务中，MoE的表现却不如密集Transformer。例如，在最短路径等图论问题和数学推理任务中，研究发现，单靠增加专家数量不足以弥补MoE的劣势，而密集Transformer则通过增加隐藏层宽度显著提升了推理性能。理论分析表明，推理任务需要更强的表示能力，而这种能力更多依赖于模型的隐藏层宽度而非专家数量。

实验进一步验证了这一结论。在图论推理任务中，无论如何调整MoE的参数，其性能始终落后于密集Transformer；而在电话簿记忆任务中，MoE以较少的计算资源完成了密集Transformer的相同任务。此外，研究人员在实际数据集上测试发现，MoE在知识存储类任务（如百科问答）中表现优异，但在逻辑推理任务（如数学题或常识推理）中，密集Transformer仍是首选。

https://arxiv.org/abs/2410.19034

从黑盒到透明：基于概念的记忆推理模型如何重塑深度学习的可解释性

深度学习模型因其强大的预测能力广受欢迎，但其“黑箱”特性始终是阻碍高风险领域部署的难题。为应对这一挑战，可解释人工智能（XAI）成为研究热点，其中基于概念的模型（CBMs）通过引入人类可理解的中间概念，试图让深度学习更透明。然而，现有CBMs模型常因任务预测器过于简单、依赖不可微分决策树或仍然缺乏全局可解释性，而无法彻底解决问题。对此，研究团队提出了一种新方法——基于概念的记忆推理器（CMR），以透明、可验证的逻辑规则选择机制实现准确性与可解释性的平衡。

CMR通过两个步骤实现预测：（1）选择最相关的逻辑规则；（2）对选定规则进行符号化评估。其架构包含概念编码器（将数据映射为“红色”“圆形”等高层次概念）、规则选择器（动态选择相关规则）和任务预测器（基于规则和概念完成任务预测），避免了传统CBMs中“概念瓶颈”问题。CMR使用布尔关系表示逻辑规则，并将每个概念的角色定义为正相关、负相关或无关，从而以透明的符号形式表达模型行为。

实验显示，CMR在多个数据集（如MNIST+、C-MNIST和CELEBA）上表现优异。其任务预测精度与黑箱模型相当，甚至更优，尤其是在不完整概念集的情况下表现出较强鲁棒性。此外，CMR能够自动生成与任务相关的逻辑规则，并允许通过专家干预优化性能，从而提高模型的公平性和适应性。研究还证明，CMR的行为可通过形式化验证工具检查，确保模型在高风险应用中安全可靠。

CMR通过结合神经网络与符号推理，既保留了神经网络建模复杂分布的能力，又提供了符号推理的透明性和验证性。其创新之处在于突破了传统CBMs的“概念瓶颈”，并采用原型驱动的学习方式提升规则的泛化能力。这一方法有望推动深度学习模型从“黑盒”向透明、可解释的方向迈进。

https://arxiv.org/pdf/2407.15527

RAG系统的“速度与激情”：如何在检索与生成之间找到最佳平衡？

RAG（Retrieval-Augmented Generation）系统结合了外部知识库的检索与生成模型的回答，显著提升了问答任务的准确性与可信度。然而，在检索速度与生成准确性之间寻求最佳平衡仍是一个关键挑战。

RAG系统的核心由检索器（Retriever）和阅读器（Reader）组成。检索器负责从知识库中获取与查询相关的文档，而阅读器则利用这些文档生成答案。这种模式既能减轻模型“闭卷考试”的幻觉问题，又使其能够动态地利用最新信息。然而，以往的研究更多关注阅读器部分，检索器的作用相对被忽视。最近的一项研究《Toward Optimal Search and Retrieval for RAG》填补了这一空白，探索了不同检索策略对问答性能的影响。

实验中，研究团队使用了两种高性能开源密集检索模型：BGE-base（单向量嵌入）和ColBERTv2（多向量嵌入）。BGE-base以计算简单为优势，但难以捕捉细粒度信息；而ColBERTv2则通过词间交互提升了复杂查询的性能，但计算成本较高。为提升检索效率，团队还引入了近似最近邻搜索（ANN），在速度与精度之间找到折衷点。实验得出了以下关键发现：

1. 降低搜索精度对性能影响有限。将ANN精度从100%降低至70%，只导致不到3%的性能下降，却显著提升了检索速度。这表明可以通过适当牺牲精度换取更快响应和更低内存占用。

2. 适量文档提升回答质量。阅读器处理5至10个相关文档时表现最佳，超过此范围反而会因信息过载导致性能下降。

3. 避免噪声文档干扰。无关或低相关性的文档会显著降低问答正确率，因此应尽量避免在检索结果中引入这些文档。

为了验证研究结果的广泛适用性，团队选择了ASQA、QAMPARI和Natural Questions等多个公开数据集进行测试，并通过EM召回率、引用召回率和引用精确率等指标进行评估。研究表明，在实际应用中，通过优化检索精度、控制文档数量以及过滤噪声文档，可以显著提升RAG系统的性能。

https://arxiv.org/html/2411.07396v1

对话系统的“记忆升级”：让AI更懂你，也更温暖你！——MADial-Bench的技术解读与未来展望

在AI对话系统中，如何让机器既能记住用户需求又能提供情感支持，是近年来的研究热点。MADial-Bench（Memory-Augmented Dialogue Benchmark）的提出，为记忆增强对话系统（MADS）的评价和发展提供了全新视角，聚焦于主动记忆回忆和情感支持的关键能力。

MADial-Bench的核心创新在于它引入了基于认知科学的双阶段记忆回忆模型，包括记忆搜索和记忆识别两部分。通过分析对话上下文，系统搜索相关记忆，再识别出最相关的部分，将其融入回复中。这种机制不仅提升了对话的连贯性，还能根据用户情绪调节对话内容，为用户提供贴心的情感支持。

MADial-Bench还建立了多维度的评估标准，涵盖记忆注入能力、情感支持熟练度和亲密度等方面。实验结果显示，即便是先进的LLM如GPT-4 Turbo，在复杂场景下的表现仍不及人类。而在情感改善任务中，一些模型如GPT-4 Turbo和Qwen2，甚至超越了人类参考答案，能够以积极、温暖的语气安抚用户情绪。

然而，研究也揭示了当前技术的局限性，如嵌入模型在复杂对话场景中的检索效率偏低，以及AI在深层次情感理解上的不足。这些问题限制了记忆增强对话系统的应用广度，但也为未来研究指明了方向。随着认知科学和心理学理论的不断融合，AI对话系统有望从工具进化为用户的“情感知己”。

MADial-Bench不仅是技术发展的新标杆，更是推动AI温暖化的重要工具，它为构建更加人性化的智能对话系统奠定了基础。

https://arxiv.org/pdf/2409.15240

KVSharer：用“反其道而行”压缩大模型内存，性能还杠杠的！

随着大语言模型（LLMs）的规模不断扩大，其推理过程中对GPU内存的需求也日益增长，尤其是占据超过80%内存消耗的KV缓存成为优化重点。现有的KV缓存压缩方法多集中在单层内的优化，而忽略了跨层的潜在可能。近期提出的KVSharer方法打破了传统思维，通过共享不同层之间“不相似”的KV缓存，大幅减少内存占用，同时保持卓越性能。

KVSharer的核心原理是共享不同层中不相似的KV缓存。通过在校准数据集上的推理分析，它利用欧氏距离评估各层KV缓存向量的不相似性，并按距离排序。在确保替换后输出的一致性基础上，逐步替换不相似层的KV缓存，最终确定最佳共享策略。与以往强调相似性共享的思路相反，这种“反直觉”方法展现了显著的内存节省效果，同时对模型性能的影响极小。

实验结果表明，KVSharer能够在保持95%以上性能的情况下，将内存消耗减少至原来的70%，并加速生成过程，平均提速1.3倍。更为重要的是，这一方法无需对LLM进行额外训练，具备“即插即用”的优势。论文中的实验数据展示了KVSharer在多种模型（如Llama2-7B、InternLM2-7B等）上的卓越表现。例如，在Llama2-7B上进行12.5%压缩后，性能不降反升，展现了适度压缩对模型优化的潜力。

此外，KVSharer与现有的层内压缩方法完全兼容，如H2O和PyramidInfer等。结合使用时，能够进一步将内存消耗减少至原来的60%，生成速度提升至1.8倍。具体测试显示，Llama2-13BChat在输入长度为1024、输出长度为4096的情况下，KVSharer在25%压缩率下将内存占用从58GB降低至37GB，生成速度提高至原来的1.53倍；结合其他技术后速度提升至1.79倍。

https://arxiv.org/pdf/2410.18517

多跳推理中的语言模型可解释性研究：从记忆注入到注意力透镜

随着深度学习的快速发展，语言模型（LMs）在自然语言处理领域展现了非凡能力。然而，在多跳推理任务中，这些模型往往表现不稳定，甚至出现错误或偏差。这不仅限制了其应用范围，也对其安全性和可靠性提出了挑战。多跳推理任务要求模型跨越多个信息片段整合答案，例如回答“爱因斯坦的出生地距离巴黎有多远？”需要依次识别“乌尔姆”为爱因斯坦出生地并计算与巴黎的距离。这对模型的知识检索、逻辑整合能力提出了更高要求。

为解决多跳推理的不足，作者提出了“记忆注入”（Memory Injections）方法。该方法通过直接在模型的激活状态中动态插入外部信息，避免了修改模型权重导致的灾难性遗忘问题。实现步骤包括定位关键注意力头、注入外部记忆，并动态调整注入强度（参数τ\tauτ）。实验显示，记忆注入大幅提升了多跳推理任务的准确性，正确答案生成概率最高提高424%。尤其是针对名词的记忆注入效果显著。此外，“手工注入”优于随机注入，表明注入内容的质量至关重要。

为进一步揭示注意力机制的运行逻辑，作者开发了“注意力透镜”（Attention Lens）工具，将注意力头的输出映射为可人类理解的词汇形式。该工具显著增强了透明性，便于研究者定位多跳推理中的错误来源。实验表明，特定注意力头对特定信息（如地名、时间）高度敏感，而错误往往与某些“噪声”头分散注意力有关。

相比其他技术（如微调、参数高效微调、模型编辑），记忆注入不仅高效且无需修改模型权重，也不会对其他任务造成负面影响。通过这项研究，作者为提升语言模型在复杂推理任务中的可靠性和解释性提供了有力支持。

https://arxiv.org/pdf/2411.05037

任务向量的魔法：aTLAS算法如何让AI模型更聪明、更高效

在当今AI领域，预训练模型通过大规模数据学习提供了强大的通用知识，但微调这一过程在多任务学习或数据稀缺场景中面临挑战。为了解决这一难题，aTLAS算法引入了“任务向量”（Task Vectors）和“各向异性缩放”（Anisotropic Scaling），为知识组合与迁移提供了一种高效而灵活的新方法。

任务向量是描述模型从预训练到微调过程中权重变化的向量，它能够捕捉任务学习的方向与幅度。通过简单的向量加减，aTLAS能够有效组合不同领域的知识，打造出无需重新训练的多任务模型。这一技术的核心在于“各向异性缩放”，即对模型中不同参数块单独调整贡献，而非统一比例缩放。这种精细控制不仅减少了参数学习量，还提高了模型在低维子空间中的表现。

aTLAS的主要创新包括：

1. 低维优化：利用深度神经网络在低维子空间中解决问题的特性，aTLAS通过学习少量缩放系数优化任务向量组合。

2. 模块化学习：aTLAS允许灵活选择任务向量中最有信息量的参数块，实现高效知识迁移，特别适用于内存受限的场景。

3. 广泛适用性：无论是监督还是无监督学习，aTLAS都能通过任务向量的线性组合，显著优化多种应用场景。

实验结果显示，aTLAS在少数据场景和任务算术中表现突出。例如，在少样本识别实验中（如每类仅1张图像），aTLAS显著优于现有方法（Tip-Adapter、LP++等），并在22个数据集上的测试中展现了出色的泛化能力。同时，在任务算术实验中，其在图像分类任务的准确率相比传统方法提升了16个百分点（从70.12%到84.98%）。

展望未来，aTLAS算法为多任务学习和知识迁移提供了新的解决思路。通过任务向量的灵活组合，研究者们可以在内存受限或任务复杂度高的情况下，开发更加高效智能的AI系统。

https://arxiv.org/pdf/2407.02880

FrontierMath基准测试揭示AI数学能力的极限：从高分到低通过率的反差

尽管人工智能（AI）在多个领域取得了显著进展，但在复杂数学问题上的表现仍不尽如人意。由Epoch AI推出的全新基准测试FrontierMath，旨在评估当前大型语言模型（LLMs）在数学推理和问题解决方面的真实能力。测试结果表明，即使是最先进的AI模型，如GPT-4、Claude 3.5和Gemini 1.5 Pro，在这一基准测试中的通过率也不到2%，而它们在传统数学评估中的得分超过90%。这一结果突显了AI在复杂推理任务中的局限性，为未来AI的发展提供了重要启示。

FrontierMath通过数百个全新且未公开的问题超越了传统基准测试。这些问题涵盖数论、代数几何、组合学和集合论等现代数学领域，要求模型具备多步推理和严谨的逻辑能力，远超传统基准如GSM8K和MATH的测试范围。此外，这些问题设计精巧，需要模型结合创造性思维与精确计算，成为对当前AI技术的一项真正考验。

FrontierMath揭示了AI模型在多层次推理中的弱点。测试中的问题经过严格审查，其难度足以让人类专家花费数小时甚至数天才能解决。这些问题需要模型整合跨学科知识，例如结合代数几何分析高阶多项式的几何属性，或利用优化技术解决复杂的组合任务。这种设计暴露了AI在连续推理任务中的不足，印证了“Moravec悖论”：AI擅长复杂规则问题，但在人类直觉相关的任务上表现不佳。

为避免数据污染，FrontierMath确保所有问题均为全新且未曾公开，并采取了“猜测防护”措施，杜绝模型通过模式匹配或随机猜测得分。这种严格的设计凸显了模型推理能力的真实水平，也推动行业制定更高的评估标准。正如OpenAI研究员Noam Brown所言，这一通过率极低的基准测试为AI能力评估提供了全新视角，同时也证明了AI在复杂问题上仍有巨大提升空间。

https://venturebeat.com/ai/ais-math-problem-frontiermath-benchmark-shows-how-far-technology-still-has-to-go/

谷歌AI加持的OSS-Fuzz：20年未解的OpenSSL漏洞终被攻克，AI安全测试进入新纪元

谷歌的开源模糊测试工具OSS-Fuzz通过引入人工智能（AI），取得了显著的成果。最近，OSS-Fuzz成功发现了26个此前未被检测出的开源项目漏洞，其中包括一个隐藏了20年的OpenSSL关键漏洞（CVE-2024-9143）。这一突破标志着AI在软件安全领域的潜力得到了进一步释放，尤其是在模糊测试技术的智能化应用上。

OSS-Fuzz自2016年推出以来，一直致力于通过模糊测试技术发现开源项目中的潜在漏洞。传统模糊测试通常需要大量的人工操作，尤其在开发“模糊目标”时，人工干预占据了重要位置。2023年，谷歌将大型语言模型（LLM）引入OSS-Fuzz，通过AI提升了测试效率，自动化了模糊目标生成、编译错误修复、问题检测及漏洞分类等多个环节。

AI的加入使得OSS-Fuzz能够自动生成精确的模糊目标，提升了代码覆盖率，并通过实时分析和修复编译错误，大大缩短了测试准备时间。更重要的是，AI能够在运行过程中识别并修复可能导致崩溃的问题，从而提高了测试的稳定性。

最为引人注目的是，在这次测试中，AI成功发现了OpenSSL中的CVE-2024-9143漏洞。这个越界读写问题导致的内存泄漏或程序崩溃，居然在过去20年中未被传统模糊测试所发现。谷歌及时向OpenSSL团队报告并在短时间内完成了漏洞修复。

随着AI技术的不断优化，谷歌计划将OSS-Fuzz发展为更加自主的安全研究工具，未来可能会配备调试器等工具，进一步提升漏洞发现与分析能力。这一技术不仅有助于提高开源项目的安全性，还可能为更多商业应用和关键基础设施提供更强大的防护。

https://www.scworld.com/news/googles-ai-powered-fuzzing-tool-discovers-26-new-vulnerabilities

深度记忆搜索：优化启发式搜索的“脑洞”大开之旅

传统启发式算法在面对复杂问题时，常因陷入局部最优解而受限。为解决这一难题，研究人员提出了深度记忆搜索（Deep Heuristic Search, DHS），这是一种结合多层次记忆结构的元启发式搜索方法。通过引入动态、多维度的记忆机制，DHS在大规模动态搜索空间中展现了卓越性能。

DHS的三大核心组件奠定了其独特优势。首先是集成搜索策略，通过强化、分散、混合和重启策略平衡局部与全局探索。其次，多层次操作模式（扩展、正常、压缩模式）帮助算法适应不同阶段的搜索需求。最后，DHS构建了深层和浅层记忆结构，用于记录全局和局部搜索数据，从而实现历史数据的灵活运用，避免局部最优解。

DHS的搜索流程包括初始搜索、探索性搜索、混合搜索、强化搜索和最终搜索五大阶段。其核心在于动态记忆系统，既记录最佳解决方案，也保存访问频率和特征等多维信息，支持全局和局部间的灵活切换。相比传统元启发式算法（如遗传算法和粒子群优化），DHS通过多层次记忆机制，大幅提升了搜索效率和结果精度。同时，DHS摒弃了对显式状态转换模型的依赖，使其在处理复杂动态问题时更具灵活性。

近年来，DHS与深度学习技术的结合进一步凸显其潜力。例如，在卷积神经网络的优化中，DHS利用记忆机制加速训练，提升性能。其“即搜即结构”特性与对搜索分类及分层的深入研究，为算法开辟了新方向。然而，复杂的记忆结构在实际应用中是否始终高效，仍需进一步验证。

https://arxiv.org/pdf/2410.17042

应用与实践

2025年：“隐形”AI代理人将全面融入企业架构，开启智能协作新时代

随着AI技术的飞速发展，2025年将成为“隐形”AI代理人融入企业架构的关键节点。这些自主执行任务并做出决策的AI系统不仅能提升企业运营效率，还将彻底改变工作流程与组织结构。

“隐形”AI代理人区别于传统聊天机器人或自动化工具，具备更高的自主性与智能化。它们能够根据环境变化和任务需求动态调整行为，不仅生成文本或代码，还能规划、推理并执行复杂任务。Gartner预测，到2028年，至少15%的日常工作决策将由这类AI自主完成，而这一趋势在2024年几乎未出现。未来，重复性和数据驱动型决策将主要由AI负责，而人类则专注于创造性与战略性工作。

这些代理人在企业架构中的应用场景丰富多样。例如，在财务领域，它们可实时生成报告、自动处理账目并根据市场变化调整预算；在供应链中，它们可监控库存、预测需求并自动补货。这一切得益于深度学习、自然语言处理（NLP）和强化学习等技术的支持。这些AI系统还能自我学习，通过分析历史数据和实时反馈优化决策模型，从而不断提高效率与准确性。

推动这场变革的关键技术之一是生成式AI。以Anthropic推出的Claude 3.5为例，这一系统不仅能生成内容，还能直接与软件交互、动态完成复杂任务，而无需预设流程。这种灵活性大幅提升了企业对复杂场景的适应能力。

然而，广泛应用“隐形”AI代理人也伴随着挑战。首先是信息安全问题，特别是在处理金融或医疗等敏感数据时。企业需建立强大的AI治理平台以确保安全与伦理合规。其次是透明性，每项AI决策都需具备可追溯性记录以增强信任。此外，员工角色将从执行者转变为监督者，需要掌握数据分析和战略思维技能，与智能系统协作。这些转变虽然具有挑战，但从长远看将创造更多高价值机会。

https://venturebeat.com/ai/2025-the-year-invisible-ai-agents-will-integrate-into-enterprise-hierarchies/

.NET 9发布：性能提升与AI集成，开发者的全新利器

微软正式发布了.NET 9，这一版本带来了超过1000项性能优化和新功能，为开发者提供了更强大的工具，尤其在AI集成方面表现突出。这次更新不仅提升了整体性能，还为构建AI驱动的应用程序提供了更多可能性，标志着.NET生态系统的新里程碑。

性能提升方面，Server GC（垃圾回收器）的优化显著增强了内存管理能力，使高核心数环境中的应用表现更优。与.NET 8相比，每秒请求处理能力提升15%，内存使用量减少93%。同时，JIT编译器针对Arm64架构、循环优化和PGO（基于配置的优化）等进行了改进，为开发者提供更高效的开发和运行体验。

在数据处理上，.NET 9对System.Text.Json库的优化带来了50%以上的性能提升，使大规模JSON数据处理更高效。同时，动态PGO的增强以及对LINQ操作的优化（如`Take`和`DefaultIfEmpty`性能提升10倍）显著加快了数据查询和处理速度。

AI集成是.NET 9的一大亮点。与Semantic Kernel的合作让开发者能更轻松地将AI服务集成到应用中。Microsoft.ML.Tokenizers库新增对多种分词算法的支持，并优化了流行AI模型的性能。此外，Tensor类型的更新简化了多维数据的处理和互操作性，为AI驱动应用铺平道路。

同时，.NET 9强化了开发者工具。与GitHub Copilot的集成升级，新增智能变量检查、IEnumerable可视化工具等特性，让C#代码编写更加高效。这些改进减少了重复性工作，助力开发者专注于核心问题。

框架更新方面，ASP.NET Core引入静态资源优化、自动文件名指纹和预压缩机制，显著提升网页加载速度和安全性。Blazor框架则增强了动态组件渲染功能，并改善了用户交互体验。此外，跨平台框架MAUI也进行了更新，为开发者提供更多灵活性。

https://sdtimes.com/msft/net-9-is-now-available-with-several-performance-improvements/

Absci与阿斯利康合作取得里程碑进展：AI驱动抗体研发迈出关键一步

总部位于温哥华的生物技术公司Absci近日宣布，其与制药巨头阿斯利康（AstraZeneca）的合作项目达成首个重大技术里程碑。这一合作旨在利用人工智能（AI）平台开发针对癌细胞特定靶点的抗体。从2023年12月宣布价值2.47亿美元的合作协议到实现这一突破，Absci仅用了六个月时间，彰显了其AI平台在生物制药领域的强大潜力。

Absci的核心技术是其AI驱动的生物药物设计平台，通过机器学习和深度学习算法，快速筛选并生成特定靶点的抗体。传统药物研发过程通常耗时数年且成本高昂，而Absci的AI平台显著缩短了研发周期，减少了试错环节。在此次合作中，Absci成功生成了针对癌细胞特定靶点的初步抗体，为后续研发奠定了重要基础。

技术上，Absci的平台以数据驱动为核心，通过分析大量生物数据，识别潜在抗体结构。其快速迭代能力使抗体筛选更加高效精准，同时AI还能识别靶点特异性，提高抗体与癌细胞靶点结合的可能性。这些技术特性，使AI平台在本次合作中展现了传统方法无法比拟的效率和精确度。

此次合作是Absci技术能力的重要验证，同时也展现了AI在抗体研发中的巨大潜力。阿斯利康作为全球领先的制药公司，在癌症治疗领域经验丰富，与Absci的合作不仅推动了新型抗体药物的开发，还为生物制药行业提供了可复制的创新模式。

https://www.columbian.com/news/2024/nov/12/vancouver-based-absci-marks-major-milestone-in-partnership-with-astrazeneca-on-artificial-intelligence-generated-antibody/

AI“尝”出新滋味：人工智能如何颠覆餐饮业的味觉测试与数据分析

人工智能（AI）正在深刻改变餐饮业，从数据分析到食品安全，再到气味再现，展现了跨领域的颠覆性创新。

首先，Paytronix推出的“PX Assistant”是一款专为餐厅和便利店设计的AI助手。它通过自然语言查询，简化了顾客消费数据和忠诚度计划的分析流程。例如，只需问一句“本周最畅销的菜品是什么？”AI助手即可在几秒内提供关键数据总结，并提出营销建议。这让没有专门数据团队的小型餐饮企业，也能像大型连锁店一样制定精准的营销策略。据Legal Seafoods市场总监Christine Cocce所说，这款工具有效提升了数据访问的便利性和决策效率。

其次，宾夕法尼亚州立大学开发了一种“电子舌头”，通过石墨烯传感器和神经网络对食品质量进行检测，准确率高达95%。与人类逐一检查参数的方法不同，AI采用整体分析方式，不仅显著提升检测效率，还展现了超越传统方法的潜力。这一技术目前已应用于食品安全检测，未来可能拓展至医疗诊断等领域。

最后，AI还涉足气味再现领域。Osmo公司开发的系统结合分子分析和人工智能技术，通过气相色谱-质谱联用（GCMS）解析气味分子，并利用AI指导机器人重现香气。研究团队已成功重现椰子香气，并建立了全球最大的AI兼容气味数据库。然而，捕捉某些复杂化合物仍是挑战。尽管如此，该技术已展现出巨大应用潜力，有望在香水制造、食品科学等领域带来革命性变化。

https://www.pymnts.com/news/artificial-intelligence/2024/ai-takes-over-taste-testing-and-restaurant-analytics/

Selector：AI驱动的IT问题解决专家，如何简化复杂网络运维并抢占AIOps市场

随着企业数字化转型的加速，IT基础设施的复杂性和数据量的增长让运维团队面临巨大的挑战。在这种背景下，AIOps（人工智能运维）技术成为众多企业的选择，用以自动化处理IT任务并提高效率。然而，尽管市场前景广阔，许多企业仍处于AIOps的探索阶段。根据IDC调查，约50%的企业刚刚开始使用AIOps技术，另有三分之一正在制定相关规划但仍面临大量实施工作。

初创公司Selector由两位前Juniper Networks高管Kannan Kothandaraman和Nitin Kumar创立，自2019年起专注于通过AI技术简化IT运维流程。该公司以AI驱动的聊天界面为核心，通过自然语言交互降低技术门槛，帮助用户快速定位并解决IT问题。用户可以用简单的问题如“故障发生在哪里？”获得直观的数据分析和修复建议，从而显著提升运维效率。

Selector的技术平台依赖于实时数据分析、自然语言处理（NLP）和自动化修复建议三大核心能力。通过机器学习模型，Selector能够实时检测异常行为或潜在故障，并生成修复建议，有时甚至可以自动执行部分修复任务。这种高效的流程减少了人为错误，并缩短了故障恢复时间。

尽管面临BigPanda、New Relic等行业巨头的竞争，Selector已经吸引了包括AT&T、Bell Canada和Singtel等知名客户。2024年，该公司完成了3300万美元的B轮融资，总融资额达到6600万美元，并计划将团队规模从115人扩展至150人，同时拓展美国、加拿大、欧洲、新加坡、印度和日本等市场。

https://techcrunch.com/2024/11/19/selector-automatically-spots-it-issues-and-recommends-fixes/

Oura智能戒指获Dexcom投资，估值突破50亿美元：健康科技的未来已来

近日，智能戒指制造商Oura宣布完成7500万美元的D轮融资，由血糖监测设备制造商Dexcom领投，使其公司估值突破50亿美元。这一合作开启了智能戒指与连续血糖监测技术融合的新时代，预示着健康科技领域的进一步创新与扩展。

此次合作的核心在于Oura智能戒指与Dexcom连续血糖监测设备的数据整合。未来，用户将能够通过Oura戒指更直观地了解血糖水平及其与日常活动、睡眠和饮食的关联。根据Oura首席执行官Tom Hale的介绍，大多数Oura用户对饮食与健康的关系非常关注，这正是与Dexcom合作的切入点。Dexcom则致力于通过其先进的血糖监测技术，为用户提供实时健康反馈。这种结合将为用户提供全面的健康管理工具，从预防慢性病到改善日常健康管理，都有显著帮助。

Oura戒指一向以精准的生物数据监测和AI驱动的健康建议著称，其功能涵盖心率、体温和睡眠等多维度数据分析。与Dexcom合作后，Oura将进一步拓展其能力，不仅能监测常规健康指标，还能实时追踪用户的血糖波动。通过AI算法整合心率、体温、血糖等数据，这种跨平台技术将为用户提供更个性化的健康建议。例如，某用户晚餐后血糖升高且运动不足，系统可能建议其增加运动或调整饮食结构。这种基于大数据的趋势分析还能提前预警潜在健康问题。

值得关注的是，这一领域竞争日益激烈。Apple等科技巨头也在研发非侵入式血糖监测技术，预计将在未来数年推出相关产品。然而，Oura与Dexcom通过此次合作抢占了先机，依托成熟的硬件和跨设备数据整合，已具备快速推出新功能的能力。这一进展不仅推动了健康科技的发展，也为消费者带来了更多智能化、精准化的健康管理选择。

https://techcrunch.com/2024/11/19/oura-valued-at-5b-following-deal-with-medical-device-firm-dexcom/

Coles引领澳大利亚零售革命：AI智能购物车试验

澳大利亚零售巨头Coles即将在墨尔本Richmond店铺试验AI智能购物车，这一创新技术有望彻底革新购物体验。作为澳大利亚首家引入AI智能购物车的零售商，Coles的目标是让顾客能够实时追踪商品价格、自动识别商品并省去排队结账的繁琐过程。

这款AI智能购物车由美国科技公司Instacart开发，具备多项尖端技术：内置AI识别系统能够自动识别购物车内的商品；摄像头和传感器实时追踪商品数量和价格；内置秤精准测量商品重量；配备的屏幕可显示当前商品价格和周刊特价信息。此外，购物车还能与Coles的Flybuys积分计划同步，为顾客提供积分累积功能。这些技术的结合，将显著提升顾客的购物效率和体验。

试验计划将在2025年1月启动，首家试点店铺位于墨尔本Richmond地区。Coles计划根据试验结果优化技术方案，并在全国范围内逐步推广这项技术。作为一项零售革命性的创新，AI智能购物车不仅能为顾客节省时间，还将改变传统零售行业的运作模式，提升顾客满意度并推动行业数字化转型。

https://www.dailymail.co.uk/femail/article-14074995/Coles-Australia-AI-trolleys-shoppers-budgets-save-time.html

TinyTroupe：微软开源的多智能体模拟库，用LLM打造虚拟世界

微软AI团队最近推出了一个全新的开源Python库——TinyTroupe，为基于大语言模型（LLM）的多智能体模拟提供了创新平台。通过该工具，开发者可以创建具有独特个性、兴趣和目标的虚拟人物（TinyPerson），并将他们放入模拟环境（TinyWorld）中进行互动。这一技术的应用不仅为研究人类行为提供了新的实验手段，还为广告评估、产品优化和软件测试等商业场景带来了全新的视角。核心功能：

1. 个性化虚拟人物：TinyTroupe允许用户通过编程方式定义角色的年龄、职业、兴趣等，从而生成高度个性化的虚拟人物。这些人物能够在模拟环境中扮演各种角色，并表现出独立的行为模式。

2. 多智能体互动：多个虚拟人物可以在TinyWorld中交流、协作，甚至进行复杂的决策。例如，一个模拟的产品头脑风暴会议中，虚拟人物可以提出真实的改进建议，帮助企业获得洞察。

3. 基于LLM的行为生成：通过调用大语言模型（如GPT-4），TinyTroupe能够生成自然流畅的对话和真实行为模式，提升模拟的真实性和可扩展性。

4. 商业应用场景：该工具特别适用于广告评估、产品设计和用户测试等领域。例如，企业可以通过模拟虚拟观众的反馈来优化广告策略，从而提升效率和效果。

技术亮点：TinyTroupe的创新在于其虚拟人物生成与管理、模拟环境创建以及成本优化。每个虚拟人物都能根据环境刺激和个性特点作出反应，而TinyWorld提供了一个托管环境，支持多智能体互动。通过丰富的实用工具（如角色工厂和结果分析器），开发者能够轻松创建复杂的模拟场景。同时，内置的缓存机制有效降低了LLM API调用成本，提高了模拟效率。

https://github.com/microsoft/TinyTroupe?tab=readme-ov-file

神经进化助力股市预测：RNNs的进化之路与投资回报的双重提升

股票回报预测在金融市场中至关重要，尤其在高频交易和算法交易盛行的背景下。最新研究通过结合神经进化（Neuroevolution）和神经网络架构搜索（NAS）技术，演化递归神经网络（RNNs）来预测股票回报，并结合简单的投资策略，成功实现了超越市场的投资回报。

研究的核心是Evolutionary eXploration of Augmenting Memory Models（EXAMM）算法。EXAMM通过节点和边级别的突变及跨岛屿基因交换优化RNN结构，使得不同股票可拥有定制化模型。其关键特性包括保持基因多样性、权重继承以减少训练时间，以及结合记忆单元和递归连接，显著提升了模型处理时序数据的能力，尤其适合股票回报预测。

为了验证性能，研究设计了两种投资策略：长仓策略（预测回报为正则买入）适合牛市；日内长短仓策略（买入看涨股票，做空看跌股票）则通过对冲波动降低风险，能在牛熊市中均表现优异。实验采用CRSP数据库和道琼斯工业指数30家公司的数据，训练阶段使用1992-2020年的数据，测试阶段分别覆盖了2022年熊市和2023年牛市。

结果表明，EXAMM模型结合日内长短仓策略，不仅在牛市（2023年实现39.05%的收益率）表现出色，还在2022年全球经济低迷的熊市中实现了39.05%的正收益，远超道琼斯指数的-8.78%。相比传统模型（如LSTM、GRU、ARIMA等），EXAMM模型在回报率和抗风险能力上表现卓越，尤其在熊市中优势显著。

交易成本虽对实际收益有一定影响，但由于道琼斯成分股流动性高，其影响较小。例如，苹果公司2023年的平均交易成本仅为0.08美元。研究表明，这些进化的RNNs结合简单策略具备高实用性，为金融投资开辟了新路径。

https://arxiv.org/pdf/2410.17212

Instagram即将推出推荐算法重置功能：一键刷新你的兴趣世界

Instagram正在测试一项全新功能，允许用户重置推荐算法，从头开始训练平台的内容推荐系统。这一功能旨在解决用户因兴趣变化而导致推荐内容不再相关的问题，为用户提供更加贴合当前需求的个性化体验。

Instagram的推荐算法通过分析用户的互动行为（如点赞、评论、关注等）生成个性化内容。然而，随着时间推移，用户的兴趣可能会发生改变，例如曾偏好美食视频的用户可能开始更关注旅行或健身内容。然而，现有算法可能仍然过度推荐过时内容，导致用户体验下降。即将推出的推荐重置功能能够解决这一问题，通过清零内容偏好，让平台重新学习用户兴趣。Instagram负责人Adam Mosseri指出，重置算法后，系统会将用户视为新用户，逐步生成新的个性化推荐。

这一工具操作简单却极为强大。用户可以在重置算法后审查关注列表，取消关注已不感兴趣的账号，从而避免基于过时数据进行推荐。随后，推荐内容将根据新的互动行为逐渐优化更新。这一功能类似于TikTok推出的“重置For You页面”功能，显然这种“从头开始”的设计日益受到欢迎，为用户提供了更多控制权。

值得注意的是，Instagram目前已提供多种内容管理工具，如标记帖子为“感兴趣”或“不感兴趣”、隐藏特定词语等，这些功能主要用于日常微调。而即将推出的重置功能，则为希望彻底刷新体验的用户设计，为他们提供了完全重塑平台内容体验的能力。

https://techcrunch.com/2024/11/19/instagram-will-soon-let-you-reset-your-recommendation-algorithm/

ElevenLabs推出全新对话式AI代理构建功能：语音定制与模型灵活切换的未来

ElevenLabs近期发布了一项全新功能，允许用户通过其平台构建对话式AI代理。这家以AI语音克隆和文本转语音（TTS）技术闻名的公司，正积极向更复杂的对话式AI场景迈进。新平台提供了丰富的自定义选项，包括语音语调、响应长度、语言模型选择等，旨在帮助企业和开发者打造个性化的虚拟助手。

ElevenLabs从文本转语音技术起步，随着市场需求的变化，逐步扩展至对话式AI领域。公司增长主管Sam Sklar透露，用户在使用其服务时，面临如集成知识库和处理用户打断等难题。为此，ElevenLabs推出了一个端到端解决方案，简化构建和管理对话式AI系统的流程。开发者可以通过模板或全新项目创建虚拟助手，选择语言、初始消息、系统提示，以及不同的大型语言模型（如Gemini、GPT或Claude）。此外，响应温度和令牌使用限制的灵活调整，进一步提升了代理...

追问weekly | 过去一周，AI领域有哪些新突破？Vol.41

热搜

热门跟贴

热搜

热门跟贴

相关推荐

国产率100%！中国啃下AI领域最后一根“硬骨头”，美国这波输惨了

技术破局与商业突围：阶跃星辰开启中国多模态AI的DeepSeek时刻

深度求索（DeepSeek）与多维度技术融合：解锁AI价值的创新路径

DeepSeek智能AI提问技巧，让你的AI助手成长的越来越精准

LeCun：人类智能不是通用智能，下一代AI可能基于非生成式

Deepseek：AI时代为什么更要读纸质书？我给出这4个理由

刚刚，AI破解50年未解数学难题！南大校友用OpenAI模型完成首个非平凡数学证明

留学还可以“本硕连读”？还是AI人工智能方向！

广东青少年科技创新都在关注什么？AI、老年化社会、隐私！

投资小知识：AI芯片全球博弈——技术霸权、贸易壁垒与未来格局

遇到不懂的事，完全可以问问AI啊，为啥有些人非要放弃独立思考？

AI 绘出“披着羊皮的狼混羊群”，技术惊艳还是可怕？

关于AI发展与人类未来

AI技术越来越强大，这么丝滑的转场，完全看不出什么瑕疵！

当人工智能叩问存在：人是否还为万物灵长?

这就是主角吗，关键时刻突破

刚刚，ICLR 2025时间检验奖颁给Adam之父！Bengio「注意力机制」摘亚军

针对三河市“广告牌匾禁用红蓝黑底色”等问题， 廊坊发布情况通报

OpenAI发布GPT-4.1！全系支持百万token上下文，超越4o且价格更低

人刚毕业，代码一点不会，他纯靠ChatGPT写APP，年入千万美金

针对三河市“广告牌匾禁用红蓝黑底色”等问题，廊坊发布情况通报