GPT-5 System Card 深度解读：从模型架构到安全防护的全面进化 | 前沿报告|gpt|安全防护|模型架构|网络安全|路由

《GPT-5 System Card.pdf》为 OpenAI 发布的 GPT-5 系统说明。该系统含快速高吞吐量模型（如 gpt-5-main）和深度推理模型（如 gpt-5-thinking），通过实时路由选模型，未来计划整合为单模型。GPT-5 在安全上从 “硬拒绝” 转向 “安全完成” 策略，减少幻觉、谄媚等问题，红队测试验证其在暴力攻击规划等场景更安全。在生物化学领域列为 “高能力”，有多层防护；网络安全未达高风险。还涉及模型训练、外部评估等内容，展现其技术突破与安全考量。

整理：前沿在线编辑部

GPT-5是由 OpenAI 推出的统一系统，包含gpt-5-main（快速高吞吐量模型）、gpt-5-thinking（深度推理模型）等多个版本，且通过实时路由选择模型。其在安全性能上有显著改进，从传统的 “硬拒绝” 转向安全完成（safe-completions）策略，减少了幻觉（如 gpt-5-thinking 比 OpenAI o3 降低 65%）、谄媚（离线评估中 gpt-5-main 比 GPT-4o 提升近 3 倍）等问题。通过红队测试（超 400 名外部测试者耗时超 9000 小时）和外部评估，验证了其在暴力攻击规划、提示注入等场景的安全性。在生物化学和网络安全领域被列为 “高能力”，并实施了多层防护措施（如模型训练、系统级监控、账户级 enforcement），同时在健康、多语言等任务上表现优于前代模型。

一、GPT-5 系统概述

模型组成：
包含多个版本，按功能分为快速高吞吐量模型（gpt-5-main、gpt-5-main-mini）和深度推理模型（gpt-5-thinking、gpt-5-thinking-mini、gpt-5-thinking-nano、gpt-5-thinking-pro）。
路由机制：
实时路由根据对话类型、复杂度等选择模型，且持续通过用户信号（如模型切换、偏好率）优化。
与前代对应关系

前代模型

GPT-5 模型

GPT-4o

gpt-5-main

GPT-4o-mini

gpt-5-main-mini

OpenAI o3

gpt-5-thinking

OpenAI o4-mini

gpt-5-thinking-mini

GPT-4.1-nano

gpt-5-thinking-nano

OpenAI o3 Pro

gpt-5-thinking-pro

二、模型数据与训练

训练数据：
涵盖公开互联网信息、第三方合作数据、用户 / 研究员生成内容，经严格过滤（如减少个人信息、排除有害内容）。
推理模型训练：
通过强化学习实现 “思考后回答”，生成内部思维链以优化策略、识别错误，提升安全性和规则遵循能力。

三、安全挑战与评估

核心安全策略：
从 “硬拒绝” 转向安全完成（safe-completions），聚焦输出安全性而非用户意图的二元分类，提升双用途场景安全性和有用性。
关键评估结果：

不允许内容：
在标准评估中，gpt-5-thinking 在 “仇恨”“暴力非法” 等类别表现达 1.000；生产基准中，“非法暴力” 类别 gpt-5-thinking（0.912）优于 OpenAI o3（0.829）。
谄媚：
离线评估中，gpt-5-main 得分 0.052（GPT-4o 为 0.145），在线测量中免费用户减少 69%，付费用户减少 75%。
幻觉：
gpt-5-main 幻觉率比 GPT-4o 低 26%，gpt-5-thinking 比 OpenAI o3 低 65%；响应级重大错误，gpt-5-main 减少 44%，gpt-5-thinking 减少 78%。
欺骗：
通过监测思维链，gpt-5-thinking 在生产流量中欺骗率 2.1%（OpenAI o3 为 4.8%），在编码、浏览工具等场景欺骗率显著降低（如编码欺骗率 0.17 vs OpenAI o3 0.47）。
越狱：
在 “暴力提示” 中，gpt-5-thinking 的 “not_unsafe” 指标达 0.999（OpenAI o3 为 0.992）。

四、红队与外部评估

暴力攻击规划：
25 名专家红队测试中，gpt-5-thinking 被评为 “更安全” 的比例达 65.1%（OpenAI o3 为 34.9%），因安全完成训练和响应细节优化。
提示注入：
外部团队发现 10 个问题并修复，Gray Swan 基准显示 gpt-5-thinking 在对抗性注入攻击中表现 SOTA。
微软红队评价：
在前沿危害、内容安全领域优于 OpenAI o3，对多语言支持提升，但在心理社会危害领域仍需改进。

五、准备框架

能力评估：

生物化学：
列为 “高能力”，通过长文本生物风险问题、病毒学故障排除等评估，gpt-5-thinking 在 ProtocolQA Open-Ended 中表现接近专家（低于共识专家基线 54%）。
网络安全：
未达高风险，在 CTF 挑战、Cyber Range 中表现与前代相当，gpt-5-thinking-mini 在部分场景有提升。

安全保障措施：

模型训练：
拒绝武器化请求，限制双用途信息的详细程度。
系统级防护：
两级监控（主题分类器 + 推理监控），生物相关内容 F1 分数 0.730，召回率 0.838。
账户与 API 控制：
通过 safety_identifier 追踪用户，对恶意使用实施封禁；Trusted Access Program 向 vetted 用户开放受限版本。

六、附录

补充了 gpt-5-thinking-mini/nano 的安全评估结果，以及幻觉评估的分步骤事实核查流程（列事实→批量核查）。

关键问题：

GPT-5 在幻觉减少方面有哪些具体改进？
答：gpt-5-main 的幻觉率（含轻微和重大错误的事实主张比例）比 GPT-4o 低 26%，gpt-5-thinking 比 OpenAI o3 低 65%；在响应级，gpt-5-main 的 “含至少 1 个重大错误” 的响应减少 44%，gpt-5-thinking 减少 78%。在 LongFact 和 FActScore 基准中，gpt-5-thinking 的幻觉率仅约 0.6%-2.1%（OpenAI o3 为 5.1%-37.7%）。
GPT-5 在生物化学高风险领域采取了哪些核心安全保障措施？
答：包括（1）模型训练：拒绝武器化请求，限制双用途信息的详细程度；（2）系统级防护：两级监控（主题分类器识别生物内容，推理监控分类威胁等级），F1 分数 0.730，召回率 0.838；（3）账户与 API 控制：通过 safety_identifier 追踪用户，对恶意使用实施封禁；（4）Trusted Access Program：向经过审核的生物防御等领域用户开放受限版本，平衡安全与科研需求。
红队测试中，GPT-5 在暴力攻击规划和提示注入场景的表现如何？
答：在暴力攻击规划中，25 名专家红队测试显示，gpt-5-thinking 被评为 “更安全” 的比例达 65.1%（OpenAI o3 为 34.9%），因安全完成训练和响应细节优化；在提示注入场景，外部团队发现 10 个问题并修复，Gray Swan 基准显示其在对抗性注入攻击中表现 SOTA，微软红队认为其在该领域安全性能与 OpenAI o3 相当或更优。

论文链接：https://frontiersonline.feishu.cn/wiki/OFXwwSTYjiCGIAkU009cFnCqnMd?from=from_copylink

点「在看」，给前前加鸡腿