打开网易新闻 查看精彩图片

近日,OpenAI 在 ChatGPT 网页端悄悄推出了独立的翻译功能 ——ChatGPT Translate。

从界面设计来看,ChatGPT Translate 与谷歌翻译颇为相似,都采用双文本框设计,上方输入原文,下方显示译文,并提供语言选择的下拉菜单。目前,该功能支持超过 50 种语言之间的互译,并具备自动语种识别功能。

苹果推出Manzano 多模态模型,核心突破在于近乎无损地融合图像理解与图像生成能力,打破了传统模型在 "看图" 与 "绘图" 之间的性能冲突瓶颈

过去一天,国内外AI行业还有更多热点可以关注,硅基君带你一起看看。

大模型

1)智谱华为联合开源图像生成模型

智谱AI 与华为联合宣布开源新一代图像生成模型 GLM-Image,这是首个完全基于国产芯片完成全程训练并达到业界领先水平的 SOTA 多模态模型。

GLM-Image 模型基于华为昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架,完成了从数据预处理到大规模训练的全流程构建。

在技术架构方面,GLM-Image 采用了创新的 "自回归 + 扩散解码器" 混合架构,融合了 9B 参数量的自回归模型与 7B 参数量的 DiT 扩散解码器。这种设计有效解决了传统模型在 "理解复杂指令" 与 "精准绘制文字" 上难以兼顾的痛点,显著改善了 AI 生成图片时常见的 "提笔忘字" 现象。

2)苹果推出 Manzano 多模态模型

苹果推出Manzano 多模态模型,核心突破在于近乎无损地融合图像理解与图像生成能力,打破了传统模型在 "看图" 与 "绘图" 之间的性能冲突瓶颈。

该模型通过创新的混合视觉分词器(Hybrid Vision Tokenizer) 和三段式架构,实现了单模型同时高效处理两类任务,性能对标 GPT-4o 和 Gemini 2.5 Flash 等顶级模型。

AI应用

1)ChatGPT推出翻译功能

OpenAI 在 ChatGPT 网页端悄悄推出了独立的翻译功能 ——ChatGPT Translate。

界面设计来看,ChatGPT Translate 与谷歌翻译颇为相似,都采用双文本框设计,上方输入原文,下方显示译文,并提供语言选择的下拉菜单。

目前,该功能支持超过 50 种语言之间的互译,并具备自动语种识别功能。

与传统翻译工具最大的不同在于,ChatGPT Translate 在完成初步翻译后,还提供多种一键提示选项,用户可以直接点选让系统对译文进行再加工,包括让译文更地道流畅、改为商务正式语气、简化到适合儿童理解的程度,或改为更适合学术场景的表述等。

从翻译质量角度来看,ChatGPT Translate 与谷歌翻译的差距并不明显,"机翻" 的味道虽然弱了一些,但仍然可以感知。值得注意的是,与 ChatGPT 相比,ChatGPT Translate 的翻译速度更快,但质量稍逊,这可能意味着二者使用的并非同一模型。

投融资情报

1)由前Snap高管创立的AI视频初创公司Higgsfield估值达13亿美元

人工智能视频生成初创公司Higgsfield 在 9 月份完成的5000 万美元A 轮融资基础上,又增发了价值 8000 万美元的股票,使其 A 轮融资总额达到 1.3 亿美元。该公司表示,其估值目前已达到 13 亿美元。

Higgsfield 提供一款工具,让消费者、内容创作者和社交媒体团队能够创建和编辑人工智能生成的视频。该公司由 Alex Mashrabov 创立,他曾是 Snap 生成式人工智能部门的负责人。2020 年,Snap 以 1.66 亿美元收购了他之前的创业公司 AI Factory, Mashrabov 也因此加入 Higgsfield。Mashrabov 是 AI Factory 的联合创始人之一。

Higgsfield推出其工具五个月后,宣称拥有1100万用户,并称其为内容创作者的首选平台。九个月后,用户数量已超过1500万,年收入达到2亿美元,该公司表示,这一数字在短短两个月内就从1亿美元翻了一番。

PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。