《GPT-5 System Card.pdf》为 OpenAI 发布的 GPT-5 系统说明。该系统含快速高吞吐量模型(如 gpt-5-main)和深度推理模型(如 gpt-5-thinking),通过实时路由选模型,未来计划整合为单模型。GPT-5 在安全上从 “硬拒绝” 转向 “安全完成” 策略,减少幻觉、谄媚等问题,红队测试验证其在暴力攻击规划等场景更安全。在生物化学领域列为 “高能力”,有多层防护;网络安全未达高风险。还涉及模型训练、外部评估等内容,展现其技术突破与安全考量。

整理:前沿在线 编辑部

GPT-5是由 OpenAI 推出的统一系统,包含gpt-5-main(快速高吞吐量模型)、gpt-5-thinking(深度推理模型)等多个版本,且通过实时路由选择模型。其在安全性能上有显著改进,从传统的 “硬拒绝” 转向安全完成(safe-completions)策略,减少了幻觉(如 gpt-5-thinking 比 OpenAI o3 降低 65%)、谄媚(离线评估中 gpt-5-main 比 GPT-4o 提升近 3 倍)等问题。通过红队测试(超 400 名外部测试者耗时超 9000 小时)和外部评估,验证了其在暴力攻击规划、提示注入等场景的安全性。在生物化学和网络安全领域被列为 “高能力”,并实施了多层防护措施(如模型训练、系统级监控、账户级 enforcement),同时在健康、多语言等任务上表现优于前代模型。

一、GPT-5 系统概述

  • 模型组成:

    包含多个版本,按功能分为快速高吞吐量模型(gpt-5-main、gpt-5-main-mini)和深度推理模型(gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nano、gpt-5-thinking-pro)。

  • 路由机制:

    实时路由根据对话类型、复杂度等选择模型,且持续通过用户信号(如模型切换、偏好率)优化。

  • 与前代对应关系

前代模型

GPT-5 模型

GPT-4o

gpt-5-main

GPT-4o-mini

gpt-5-main-mini

OpenAI o3

gpt-5-thinking

OpenAI o4-mini

gpt-5-thinking-mini

GPT-4.1-nano

gpt-5-thinking-nano

OpenAI o3 Pro

gpt-5-thinking-pro

二、模型数据与训练

  • 训练数据:

    涵盖公开互联网信息、第三方合作数据、用户 / 研究员生成内容,经严格过滤(如减少个人信息、排除有害内容)。

  • 推理模型训练:

    通过强化学习实现 “思考后回答”,生成内部思维链以优化策略、识别错误,提升安全性和规则遵循能力。

三、安全挑战与评估
  1. 核心安全策略:

    从 “硬拒绝” 转向安全完成(safe-completions),聚焦输出安全性而非用户意图的二元分类,提升双用途场景安全性和有用性。

  2. 关键评估结果:
  • 不允许内容:

    在标准评估中,gpt-5-thinking 在 “仇恨”“暴力非法” 等类别表现达 1.000;生产基准中,“非法暴力” 类别 gpt-5-thinking(0.912)优于 OpenAI o3(0.829)。

  • 谄媚:

    离线评估中,gpt-5-main 得分 0.052(GPT-4o 为 0.145),在线测量中免费用户减少 69%,付费用户减少 75%。

  • 幻觉:

    gpt-5-main 幻觉率比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;响应级重大错误,gpt-5-main 减少 44%,gpt-5-thinking 减少 78%。

  • 欺骗:

    通过监测思维链,gpt-5-thinking 在生产流量中欺骗率 2.1%(OpenAI o3 为 4.8%),在编码、浏览工具等场景欺骗率显著降低(如编码欺骗率 0.17 vs OpenAI o3 0.47)。

  • 越狱:

    在 “暴力提示” 中,gpt-5-thinking 的 “not_unsafe” 指标达 0.999(OpenAI o3 为 0.992)。

四、红队与外部评估
  • 暴力攻击规划:

    25 名专家红队测试中,gpt-5-thinking 被评为 “更安全” 的比例达 65.1%(OpenAI o3 为 34.9%),因安全完成训练和响应细节优化。

  • 提示注入:

    外部团队发现 10 个问题并修复,Gray Swan 基准显示 gpt-5-thinking 在对抗性注入攻击中表现 SOTA。

  • 微软红队评价:

    在前沿危害、内容安全领域优于 OpenAI o3,对多语言支持提升,但在心理社会危害领域仍需改进。

五、准备框架
  1. 能力评估:
  • 生物化学:

    列为 “高能力”,通过长文本生物风险问题、病毒学故障排除等评估,gpt-5-thinking 在 ProtocolQA Open-Ended 中表现接近专家(低于共识专家基线 54%)。

  • 网络安全:

    未达高风险,在 CTF 挑战、Cyber Range 中表现与前代相当,gpt-5-thinking-mini 在部分场景有提升。

  • 安全保障措施:
  • 模型训练:

    拒绝武器化请求,限制双用途信息的详细程度。

  • 系统级防护:

    两级监控(主题分类器 + 推理监控),生物相关内容 F1 分数 0.730,召回率 0.838。

  • 账户与 API 控制:

    通过 safety_identifier 追踪用户,对恶意使用实施封禁;Trusted Access Program 向 vetted 用户开放受限版本。

六、附录

补充了 gpt-5-thinking-mini/nano 的安全评估结果,以及幻觉评估的分步骤事实核查流程(列事实→批量核查)。

关键问题:

  1. GPT-5 在幻觉减少方面有哪些具体改进?
    答:gpt-5-main 的幻觉率(含轻微和重大错误的事实主张比例)比 GPT-4o 低 26%,gpt-5-thinking 比 OpenAI o3 低 65%;在响应级,gpt-5-main 的 “含至少 1 个重大错误” 的响应减少 44%,gpt-5-thinking 减少 78%。在 LongFact 和 FActScore 基准中,gpt-5-thinking 的幻觉率仅约 0.6%-2.1%(OpenAI o3 为 5.1%-37.7%)。

  2. GPT-5 在生物化学高风险领域采取了哪些核心安全保障措施?
    答:包括(1)模型训练:拒绝武器化请求,限制双用途信息的详细程度;(2)系统级防护:两级监控(主题分类器识别生物内容,推理监控分类威胁等级),F1 分数 0.730,召回率 0.838;(3)账户与 API 控制:通过 safety_identifier 追踪用户,对恶意使用实施封禁;(4)Trusted Access Program:向经过审核的生物防御等领域用户开放受限版本,平衡安全与科研需求。

  3. 红队测试中,GPT-5 在暴力攻击规划和提示注入场景的表现如何?

    答:在暴力攻击规划中,25 名专家红队测试显示,gpt-5-thinking 被评为 “更安全” 的比例达 65.1%(OpenAI o3 为 34.9%),因安全完成训练和响应细节优化;在提示注入场景,外部团队发现 10 个问题并修复,Gray Swan 基准显示其在对抗性注入攻击中表现 SOTA,微软红队认为其在该领域安全性能与 OpenAI o3 相当或更优。

论文链接:https://frontiersonline.feishu.cn/wiki/OFXwwSTYjiCGIAkU009cFnCqnMd?from=from_copylink

「在看」,给前前加鸡腿