GPT-4,下周就要来了。

3 月 9 日,微软德国 CTO Andreas Braun 在一场名为 “AI in Focus - Digital Kickoff” 的活动中表示,GPT-4 将在下周发布,将提供多模态模型。

自 3 月初发布 Kosmos-1 以来,微软正在与 OpenAI 微调多模态这一事实应该不再是一个秘密。

01

GPT-4来了

《财富》杂志曾报道,OpenAI 对 beta 测试版GPT-4使用了功能更加强大的大语言模型,与上一代相比,GPT-4或许没有参数量的大幅增加,反而是从其他方向寻求提高,“OpenAI 也确实在开发一款通过文字能生成视频的 AI 模型”。

今年 1 月,OpenAI CEO Sam Altman 在回应 “GPT-4 可能拥有 100 万亿参数” 的说法时,称其为“完全是胡说”。这也暗示了,即将到来的 GPT-4 不会一味地扩大参数量,而可能向其他方向寻求提升。

此次 GPT4 转向多模态,未来的输入输出将出现图像、视频等形态,或将在业内产生更具颠覆性的影响。OpenAI 此前推出的 DALL-E 2 和 CLIP 便是一次很好的尝试。

02

微软动作频频

近期,微软在多模态方向也动作频频,其推出了全能型人工智能模型——Kosmos-1。

与局限于文本内容( LLM)的 ChatGPT 相比,Kosmos-1 属于多模态大型语言模型(MLLM),目前可以同时理解文本和图像内容,未来将集成更多的音频、视频等输入模式。

此外,微软也于 3 月 8 日提出了 Visual ChatGPT,其包含不同的视觉基础模型,可以使用户通过以下方式与 ChatGPT 互动:

◆ 不仅发送和接收语言,而且发送和接收图像;

◆ 提供复杂的视觉问题或视觉编辑指令,这需要多个人工智能模型的协作和多步骤;

◆ 提供反馈并要求纠正结果。

03

人工智能对公司的颠覆

微软研究人员在发表于预印本网站 arXiv 上的论文中写道:

“ChatGPT 正在吸引跨领域的兴趣,因为它提供的语言界面具有强大的对话能力和在许多领域的推理能力。然而,由于 ChatGPT 是用语言数据来训练的,它目前还不能处理或生成图像。

与此同时,像视觉基础模型,如 Visual Transformers 或 Stable Diffusion,尽管表现出很强的视觉理解与生成能力,但是它们仅仅是某一具体任务的“专家”而已,具有一轮次固定的输入和输出。”

在此次活动中,Braun 和微软德国 CEO Marianne Janik 一起,全面谈到了人工智能对公司的颠覆。Janik 强调了人工智能创造价值的潜力,并谈到了一个时间的转折点——目前的人工智能发展和 ChatGPT 是 “一个 iPhone 时刻”。

她说,这并不是要取代工作,而是要以不同于以往的方式完成重复性任务。

颠覆不一定意味着工作的损失。Janik 强调说,“需要许多专家来使人工智能的使用产生价值”。传统工作在不断变化,令人兴奋的新职业也在不断涌现,因为有了新的和充实的可能。

她建议,企业应在内部组建一个“能力中心”,可以培训员工使用人工智能并形成捆绑式项目创意。在这样做时,“应该考虑到旧宠的迁移”。

Janik 还强调,微软不使用客户的数据来训练模型(然而,根据其 ChatGPT 政策,这一点至少在过去和现在不适用于他们的研究伙伴 OpenAI)。

Janik 谈到了 “民主化”——她承认这只是指这些模型在微软产品范围内的直接可用性,特别是通过在 Azure 平台、Outlook 和 Teams 中整合人工智能而广泛使用。

GPT-4 究竟会展现出怎样的能力?值得期待。

来源:学术头条,如侵联删!

关注我们 了解更多