大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。
企业动态
OpenAI 计划从非营利组织向营利组织转型
日前,路透社报道称,OpenAI 正在制定一项计划,将其核心业务重组为一家营利性公司,摆脱非营利性董事会的控制。营利性公司是一种法律结构,允许公司同时追求财务利润和社会或环境目标,表面上是在股东利益和造福社会的更广泛使命之间取得平衡。根据新计划,OpenAI 首席执行官 Sam Altman 将首次获得营利性公司的股权。
传奇电影制片人詹姆斯·卡梅隆加入 Stability AI 董事会
日前,生成式人工智能公司 Stability AI 宣布,传奇电影制片人、技术创新者和视觉特效先驱 James Cameron 已加入其董事会。James Cameron 一直是将尖端技术与富有远见的故事讲述相结合的推动力。作为导演、编剧和制片人,他突破了电影的界限,将一些最具标志性、技术最先进的电影呈现在观众面前,其中包括《终结者》、《异形》、《泰坦尼克号》和《阿凡达》等电影。Cameron 的加盟标志着 Stability AI 在改变视觉媒体方面迈出了重要一步。
Google DeepMind 发布两款更新 Gemini模型
日前,Google DeepMind 发布了两款更新的可用于生产的 Gemini 模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002,相较 1.5 Pro 降价超 50%,提高了费率限制,且更新了默认过滤器设置。这些新模型以最新发布的实验模型为基础,并对 5 月份发布的 Gemini 1.5 模型进行了重大改进。开发人员可通过 Google AI Studio 和 Gemini API 免费访问最新模型。
OpenAI 学院启动中:利用 AI 解决困难问题,促进经济增长
OpenAI 正在启动 OpenAI 学院,该学院将投资于利用人工智能帮助解决棘手问题并促进社区经济增长的开发人员和组织。该学院将确保人工智能的变革潜力能够为全球不同社区所利用和受益,首先从中低收入国家开始。获得人工智能等尖端技术有助于加强推动可持续发展的努力。投资培养当地的人工智能人才,可以推动医疗、农业、教育和金融等领域的经济增长和创新。
收购传闻四起,英特尔推出全新 AI 芯片
日前,英特尔发布了两款人工智能芯片,试图改善其数据中心业务,并从竞争对手 AMD 和英伟达手中抢夺市场份额。这两款新芯片——Xeon 6 CPU 和 Gaudi 3 人工智能加速器——有望提高性能和能效,英特尔正试图证明自己有能力成为人工智能领域的主要参与者。此前,《华尔街日报》报道称,高通公司(QCOM)可能收购英特尔,以加强自己的芯片业务。
Meta 发布全新开放模型系列 Llama 3.2
日前,Meta 发布了 Llama 3.2,其中包括适用于边缘和移动设备的中小型视觉 LLM(11B 和 90B)以及轻量级纯文本模型(1B 和 3B),包括预训练和指令微调版本。Llama 3.2 1B 和 3B 模型支持 128K token 的上下文长度,在边缘本地运行的设备用例(如摘要、指令跟随和改写任务)中处于同类产品的领先水平。
OpenAI 对 ChatGPT Plus 和 Team 用户开放高级语音功能
日前,OpenAI 官宣,正式对 ChatGPT Plus 和 Team 用户开放高级语音功能,并在一周内逐步全量推送。同时,高级语音功能还新增了自定义指令、记忆、五种新语音和改进的口音。据介绍,用户可以通过自定义指令让模型以某种口音发音、记住事件以及如何被称呼等。
技术前瞻
Meta 团队推出个性化图像生成模型 Imagine Yourself
在这项工作中,Meta 团队推出了 Imagine Yourself ——一种专为个性化图像生成而设计的 SOTA 模型。与传统的基于微调的个性化技术不同,Imagine Yourself 是一种无需额外微调模型,它使所有用户都能利用共享框架,而无需进行个性化微调。
之前的工作在平衡身份保护、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型具有很强的参考图像复制粘贴效果,很难根据需要对参考图像进行重大改变的提示生成图像,如改变面部表情、头部和身体姿势,而且生成图像的多样性很低。
为了解决这些局限性,他们提出的方法引入了:
1)一种新的合成配对数据生成机制,以鼓励图像多样性;
2)一种完全并行的注意力架构,包含三个文本编码器和一个完全可训练的视觉编码器,以提高文本的忠实度;
3)一种新颖的从粗到细的多级微调方法,逐步推进视觉质量的边界。
研究表明,Imagine Yourself 超越了其他 SOTA 的个性化模型,在身份保护、视觉质量和文本对齐方面表现出卓越的能力。该模型为各种个性化应用奠定了坚实的基础。与之前的个性化模型相比,人类评估结果验证了该模型在身份保持、文本忠实性和视觉吸引力都达到了 SOTA。
清华团队推出多模态科学推理能力评估基准 VisScience
来自清华大学、北京航空航天大学和智谱的研究团队提出了 VisScience 综合基准,用于评估数学、物理和化学三大学科的多模态科学推理能力。该基准由 3000 个问题组成,从小学到高中,平均分布在三个学科中,每个学科有 1000 个问题,涵盖 21 个不同的学科,分为五个难度级别。他们对 25 种具有代表性的 MLLM 在科学推理中的表现进行了详细评估,结果表明,闭源 MLLM 通常优于开源模型,并凸显了 MLLM 的优势和局限性,提出了未来需要改进的地方,强调了开发能有效处理多模态科学推理的各种需求的模型的重要性。
OpenAI o1 医学初步研究:我们离 AI 医生更近了吗?
来自加州大学圣克鲁斯分校的研究团队及其合作者对 o1 在不同医疗场景中的表现进行了全面探索,考察了三个关键方面:理解、推理和多语言性。具体来说,他们使用 37 个医学数据集的数据对 6 个任务进行了评估,其中包括两个基于《新英格兰医学杂志》和《柳叶刀》的专业医学问答而新构建的更具挑战性的问答(QA)任务。与 MedQA 等标准医学问答基准相比,这些数据集具有更强的临床相关性,能更有效地转化为现实世界中的临床实用性。他们对 o1 的分析表明,LLM 增强的推理能力可能(显著)有利于他们理解各种医疗指示和推理复杂临床场景的能力。但与此同时,他们也发现了模型能力和现有评估协议中的几个弱点,包括幻觉、多语言能力不一致以及评估指标不一致。
Time-MoE:十亿级规模时间序列基础模型
来自普林斯顿大学、松鼠AI 和格里菲斯大学的研究团队推出了 Time-MoE,这是一种可扩展的统一架构,旨在预训练规模更大、能力更强的预测基础模型,同时降低推理成本。通过利用稀疏混合专家模型(MoE)设计,Time-MoE 在每次预测中只激活网络的一个子集,从而提高了计算效率,在保持高模型容量的同时减少了计算负荷。这使得 Time-MoE 能够有效扩展,而推理成本不会相应增加。他们首次将时间序列基础模型的参数扩展到 24 亿个,显著提高了预测精度。结果验证了时间序列预测中训练 token 和模型大小的 Scaling Law 的适用性。
视觉大语言模型的视觉提示新技术
新加坡国立大学团队提出了一项新提示技术——Attention Prompting on Image,该技术只需在原始输入图像上简单叠加一个文本查询引导的注意力热图,就能有效增强视觉大语言模型(LVLM)在各种任务中的能力。在各种视觉语言基准上进行的大量实验验证了该技术的有效性。例如,在 MM-Vet 和 LLaVA-Wild 基准测试中,图像注意力提示技术分别将 LLaVA-1.5 提高了 3.8% 和 2.9%。
Google DeepMind 推出鲁棒奖励模型 RRM
来自 Google DeepMind 的研究团队及其合作者揭示了当前奖励模型(RM)训练方法的一个局限,即 RM 在确定偏好时无法有效区分上下文信号和无关人工痕迹。为了解决这个问题,他们提出了一个因果框架,该框架可以学习独立于这些人工痕迹的偏好,并提出了一种新颖的数据增强技术,旨在消除这些人工痕迹。
他们的方法成功地过滤了不需要的人工痕迹,产生了一个鲁棒奖励模型(RRM)。在 RewardBench 上,RRM 提高了在 Gemma-2-9b-it 上训练的成对奖励模型的性能,准确率从 80.61% 提高到 84.15%。此外,他们还使用 RM 和 RRM 训练了两种 DPO 策略,结果表明 RRM 显著提高了 DPO 对齐策略的性能,将 MT-Bench 分数从 7.27 提高到 8.31,将 AlpacaEval-2 中的长度控制胜率从 33.46% 提高到 52.49%。
HyperAgent:解决大规模编码任务的通用软件工程智能体
FPT Software 推出了一种新型通用多智能体系统 HyperAgent,旨在通过模仿人类开发人员的工作流程,解决不同编程语言的各种 SE 任务。该系统由 Planner、Navigator、Code Editor 和 Executor 四个智能体组成,可管理 SE 任务从最初构思到最终验证的整个生命周期。
HyperAgent 在各种 SE 任务中实现了 SOTA 性能:在 GitHub 问题解决方面,HyperAgent 在 SWE-Bench-Lite 上的成功率为 25.01%,在 SWE-Bench-Verified 上的成功率为 31.40%,超过了现有方法。此外,HyperAgent 还在版本库级代码生成(RepoExec)、故障定位和程序修复(Defects4J)方面展示了 SOTA 性能,表现往往优于专业系统。
语言智能体帮助大语言模型更好、更便宜地“思考”
圣路易斯华盛顿大学团队通过建立一个自主智能体来指导 LLM 的推理过程,提供了一种成本效益更高的大语言模型思维器供大众使用。该智能体可为每项任务生成一组指令,而这些指令对于改善不同语言模型在所有任务实例中的推理过程非常有效。给定基本任务信息(如数据集名称)和一些纯输入示例后,智能体就会生成高质量的分步任务指令。这些指令将指导小型 LLM 对某些任务进行推理。这是一种更经济实惠的方法,因为他们只需对每个数据集使用一次大型 LLM,然后将指令交给可以接手的小型 LLM。
政策法规
好莱坞大力支持加州人工智能安全法案
在加州首部人工智能安全法案 SB 1047 的争斗中,好莱坞与硅谷势均力敌。在州长 Gavin Newsom 是否会签署该法案的疑虑中,一大波明星的支持标志着首次有组织的名人努力推动人工智能法规超越娱乐业的直接利益。日前,超过 125 位好莱坞大牌明星发表了一封公开信,敦促 Newsom 签署人工智能安全法案。信中写道,“我们完全相信人工智能在造福人类方面的巨大潜力。但我们也必须面对现实的风险。”
美国劳工部发布人工智能和包容性招聘框架,避免招聘歧视
日前,美国劳工部推出了一个新网站,指导雇主和工人如何确保人工智能技术不会导致歧视或限制残疾求职者的无障碍环境。该指南是与拜登总统关于人工智能安全发展的行政命令相关的最新发布。劳工部表示,新的自愿性 “人工智能与包容性招聘框架 ”将 “帮助各组织推进其包容性招聘政策和计划,特别是针对残疾人的政策和计划,同时管理与部署人工智能招聘技术相关的风险”。该指南建议雇主在工作场所 “负责任地 ”实施人工智能,具体做法包括确定法律要求、制定人工监督流程、对技术进行分类等。
OpenAI、微软、谷歌等签署欧盟《人工智能公约》
据财联社报道,欧盟委员会当地时间 9 月 25 日公布了《人工智能公约》(AI Pact)的首批 100 多家签署方名单,该协议旨在促使企业就如何处理和部署人工智能发布“自愿承诺”。虽然欧盟《人工智能法案》(the AI Act)已于上月生效,但所有合规期限还需数年才能实施。这就造成了一个不合规的真空地带,欧盟希望通过《人工智能公约》来填补这一真空。目前欧盟委员会公布的签署方名单包括 OpenAI、微软、谷歌等,但不包括苹果和 Meta。
专家观点
苏姿丰:芯片行业不能只盯着 GPU
据《科创板日报》报道,AMD 首席执行官苏姿丰日前表示,GPU 目前是大语言模型的首选架构,因为它们在并行处理方面非常高效,但它们在可编程性方面有所欠缺。她预计,未来 5 年或 7 年时间内 GPU 还不会“失势”,但会出现 GPU 以外的新势力。她表示,未来的 AI 模型将使用不同类型芯片的组合,包括当前占主导地位的 GPU 以及仍有待开发的更专门化的芯片,从而实现各种功能。
贝恩公司:AI 相关产品市场有望在 2027 年达到 9900 亿美元
日前,贝恩公司表示,全球人工智能(AI)相关产品市场持续增长,规模有望在 2027 年达到 9900 亿美元,这项技术的快速应用正在改变企业和经济。该咨询公司在发布的第五次年度全球科技报告中表示,包括 AI 相关服务和硬件在内的市场将在去年 1850 亿美元的基础上每年增长 40%-55%,这将带来 7800 亿至 9900 亿美元的收入。
Gartner 发布 2024 年新兴技术成熟度曲线:GenAI 即将越过期望膨胀期
日前,Gartner 发布了 2024 年新兴技术成熟度曲线,此次收录的 25 项颠覆性技术分为四大领域:自主 AI、开发者生产力、全面体验以及以人为本的安全和隐私计划。
Gartner 杰出研究副总裁 Arun Chandrasekaran 表示:“随着企业的关注重点继续从基础模型转向可提高投资回报率的用例,生成式人工智能(GenAI)即将越过期望膨胀期。这一趋势正在加速自主AI的发展。虽然目前的AI模型缺乏自主行动能力,但各AI研究实验室正在快速推出智能体,借助智能体与环境之间的动态交互来实现目标,不过这将是一个循序渐进的过程。”
其他
Hugging Face 上诞生了 100 万个人工智能模型
日前,人工智能(AI)托管平台 Hugging Face 上的人工智能模型数量首次突破 100 万个,这标志着快速扩张的机器学习领域的一个里程碑。人工智能模型是一种计算机程序(通常使用神经网络),通过数据训练来执行特定任务或进行预测。该平台在2016年以聊天机器人应用起步,2020年转向成为人工智能模型的开源中心,现在为开发人员和研究人员提供了大量工具。机器学习领域所代表的世界远不止 ChatGPT 所支持的大型语言模型(LLM)。
微软亚洲研究院牵手“600号”,用 AI 干预阿尔茨海默症治疗
据财联社报道,微软研究院与上海市精神卫生中心(俗称“600号”)携手展开联合研究,基于微软 Azure OpenAI 服务中的多模态大模型,开发了个性化认知训练框架“忆我”(ReMe),扩展了自动化认知训练的训练范围,为数字化认知训练提供了新方法,有望帮助延缓认知下降。
AI 模型会比人类研究员产生更多原创性想法吗?
本月在 arXiv 上发表的一篇预发表论文显示,由大语言模型(LLM)驱动的创意生成器比 50 位独立工作的科学家提出了更多的原创研究创意。结果表明,LLM 可能能够产生比现有文献中的创意更具有原创性的创意。但它们能否击败人类最具突破性的想法,这还是个未知数。
黑客在 ChatGPT 中植入虚假记忆,永久窃取用户数据
安全研究员 Johann Rehberger 最近报告了 ChatGPT 中的一个漏洞,允许攻击者在用户的长期记忆设置中存储虚假信息和恶意指令,OpenAI 立即关闭了该调查,并将该漏洞标注为安全问题,而非技术上的安全问题。于是,Rehberger 创建了一个概念验证漏洞,利用该漏洞永久窃取所有用户输入。目前,OpenAI 工程师已经注意到了这一点,并于本月早些时候发布了部分修复程序。
罕见基因变异如何影响健康?人工智能提供更准确的预测
我们是否容易患上特定疾病,在很大程度上取决于我们基因组中的无数变异。然而,特别是在人群中极少出现的基因变异,对某些病理特征表现的影响至今难以确定。科学家推出了一种基于深度学习的算法,可以预测罕见基因变异的影响。通过这种方法,可以更精确地分辨出疾病高危人群,并有助于识别与疾病发生有关的基因。
AI 可以更好地预测乳腺癌风险
来自哥本哈根大学团队的研究表明,一项新的人工智能(AI)技术可以被用来更准确地预测患乳腺癌的风险,从而为全球妇女提供更好的治疗。乳腺癌是最常见的癌症之一。2022 年,这种疾病导致全球 67 万人死亡。据介绍,人工智能可以通过扫描外观不规则的细胞来帮助妇女改善治疗,从而提供更好的风险评估。该技术在预测癌症风险方面远远优于目前的乳腺癌风险评估临床基准。
AI 帮助考古学家发现 303 个未知地画
来自日本山形大学和 IBM Research 的研究团队,借助人工智能(AI)在秘鲁纳斯卡线条附近发现了数百个新的地画,这些地画描绘了鹦鹉、猫、猴子和虎鲸等,这一发现使这个有着 2000 年历史的神秘考古遗址的已知图形数量增加了近一倍。他们发现了 303 个以前未知的人类和动物地画——所有这些地画的尺寸都小于巨大的几何图案,这些图案可以追溯到公元 200-700 年,横跨纳斯卡高原 400 多平方公里的土地。这些新的雕像可以追溯到公元前 200 年,让人们对帕拉卡斯文化向纳斯卡文化的过渡有了新的认识。
热门跟贴