北时间 2024 年 9 月 13 日凌晨,OpenAI 发布新模型 o1。该模型包括两个版本,即 o1-preview 和 o1-mini。o1 最大的特点是具有更强的推理能力。

打开网易新闻 查看精彩图片

外媒公布了该模型推理能力的具体表现:在参加美国数学邀请赛中,GPT-4o 得分 13.4 分,o1-preview得分 56.7 分,o1 得分 83.3 分。其中 o1-preview 的能力是 GPT-4o 的 4.2 倍,o1是 GPT-4o 的 6.2 倍,提升明显

编码竞赛中,GPT-4o得分 11 分,o1-preview 得分 62 分,o1 得分 89 分。o1-preview 的能力是 GPT-4o 的 5.6 倍,o1 是 GPT-4o 的 8.1 倍,提升幅度比数学竞赛更显著。在博士水平的科学问题测试中,GPT-4o 得分 56.1 分,o1-preview得分 78.3 分,o1 得分 78 分,人类专家得分 69.7 分。o1 模型的两个版本得分均超过人类专家水平,这也是大模型首次在推理能力方面超过人类专家。

据媒体报道,o1 具备更强推理能力的原因主要是采取了优化的算法和专门定制的训练数据集进行训练。优化算法主要是通过强化学习的方法训练大模型,并在用户输入问题后增加推理标记(Reasoning Tokens),以便更好地拆解复杂问题,以试错方式得到最佳策略,得出深思熟虑的结果

针对此事件,快递100 作为大模型的应用服务商,有三点观察:

一、由于 o1 具有更强的推理能力,在体感上反应速度会比 GPT-4 更慢一些。这符合人类思考的特征,正如卡尼曼在《思考,快与慢》中提到的,人类思考包括快系统和慢系统。慢系统通过逻辑推理和分析,更符合人类特征,如中国古话 “深思熟虑,三思而后言,三思而后行”。

二、就应用潜力和价值方面,o1 潜力主要体现在科研方面,但后续版本很快会进行泛化,向通用领域拓展,人们很快能体验到其全新的大模型能力。

三、o1 为国内大模型提供了新的对标标杆和能力基准,期待国内大模型尽快对标 o1,提升基础大模型能力。

快递 100 作为大模型应用服务商,将大模型通用能力与快递物流具体场景相结合,开发了百递云 GPT,这是一个混合智能架构的大模型应用开发平台。通过该平台整合闭源公有云大模型和开源私有云大模型,结合自身领域知识库和专有 API,将大模型应用到具体商业场景中,推出了 AI 查快递、AI 寄快递、AI 管快递以及 AI 客服等服务。在 AI 查快递方面,可实现一句话查快递;在 AI 寄快递方面,可实现一句话寄快递和一张图寄快递,时间从原来手工填写的 3 分 40 秒降低到 19 秒;在AI 管快递方面,可实现一句话生成对账单和快递费用分析报告;在 AI 客服方面,利用大模型的意图理解和问题分发能力,解决了 90% 的客诉反馈,一次性问题解决率达到 99.4%

o1 的推出让人们对大模型未来潜能充满希望,期待基础大模型能力不断升级,为与行业场景结合提供更强技术支撑。相信随着 o1 的推出,将引发全球大模型能力的新升级,中国大模型也将不甘落后。人们对未来大模型的发展前景充满期待,同时对大模型与具体应用场景的结合以及未来创新更多应用场景充满信心。

打开网易新闻 查看精彩图片