《科创板日报》5月31日讯(记者 朱凌) 直至五月尾声,AI应用市场的火热态势依旧不减。30日,基于混元大模型的AI助手App“腾讯元宝”上线,标志着BAT终于在AI消费C端应用领域聚首。

据介绍,自2023年9月首次亮相以来,腾讯混元大模型的参数规模已从千亿升级至万亿,预训练语料从万亿升级至7万亿tokens,并率先升级为多专家模型结构(MoE),整体性能相比Dense版本提升超50%。

元宝面向工作效率场景,提供AI搜索、AI总结、AI写作能力;面向日常生活场景,玩法也更加丰富,提供口语陪练、超能翻译官、百变AI头像等多个特色AI应用。同时,还新增了创建个人智能体等玩法。

《科创板日报》记者将腾讯元宝与OpenAI最新的GPT-4o以及字节的个人助手豆包App做了一场能力大PK。

▍AI效率工具测试:腾讯元宝的信息抓取和链接读取能力突出

数据显示,当前人们使用大模型相关产品时,有超过 65%的需求,集中在工作/学习效率场景。针对效率场景的三大核心需求分别为信息获取、处理和生产,腾讯元宝均进行了产品化探索。

首先,AI搜索能力比拼。

腾讯元宝和GPT-4o在回答“最近全球AI大模型领域的大事件有哪些”这一问题时,都采用了分类的方式来组织答案。但腾讯元宝提供了24篇时效性强、大多发布于近一周内的参考文献,方便用户快速溯源及延伸阅读。

据介绍,背靠腾讯生态的强大支持,腾讯元宝有效整合了微信搜一搜、搜狗搜索等多个平台资源,超越了传统搜索模式。记者点进回答里的参考文献链接查看,验证了其内容主要源自微信公众号等腾讯生态内的高质量资源,以及互联网上的权威信息源。

打开网易新闻 查看精彩图片

腾讯元宝回复结果

GPT-4o虽然也进行了信息分类,但仅提供了6篇参考资料,远远少于元宝,且包括了年初的资料,信息的时效性差。因而,腾讯元宝在AI搜索方面具有更强的能力,能够为用户提供更加准确、全面和及时的信息,有效提升内容生成效果。

打开网易新闻 查看精彩图片

GPT-4o回复结果

其次,AI总结能力比拼。

从输入方式来看,元宝可上传最多10个PDF、word、txt等多种格式的文档,并能够一次性解析多个微信公众号链接、网址,支持256K的原生窗口上下文,而GPT-4o虽然也能总结链接内容,但是不支持生成国内链接的摘要。

打开网易新闻 查看精彩图片

GPT-4o回复结果

记者提交了四个微信公众号文章的链接,元宝对每篇文章内容进行了解析,不仅准确区分了各文章的主题要点,还细致地揭示了文章之间的逻辑联系,展现出对复杂信息的整合能力。

打开网易新闻 查看精彩图片

腾讯元宝AI总结结果

元宝还展现了其敏锐的产品细节,记者上传了《斯坦福大学:2024年人工智能指数报告》的文件,元宝首先对文档有一个识别大小和字数进行解析,还贴心地自动填写了默认提示词,这是GPT-4o所不具备的功能。值得一提的是,即使是40万字的文档,元宝解析的速度也是在几秒之内,比GPT-4o快。

打开网易新闻 查看精彩图片

腾讯元宝总结界面

然而,记者在比较GPT-4o和元宝对文档的解析答案时,观察到GPT-4o在提供信息的深度和可靠性方面表现得更为出色。GPT-4o的回复更为详尽和系统化,它不仅在每个主题下提供了分点解答,还引入了具体的数据作为支撑,使论点更具说服力。相反,元宝的回复中,观点拆分得不够细致,也缺乏数据信息。

打开网易新闻 查看精彩图片

腾讯元宝、GPT-4o回复结果

此外,记者还准备了经济类、医学类、逻辑推理类和谜语类题目来比较腾讯元宝和GPT-4o回答问题的准确率和速度。

记者观察到,尽管元宝和GPT-4o的正确率相同,正确率都是75%,但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案,使用数学公式清晰地展示计算过程,迅速传达结果;而腾讯元宝则侧重于解题思路的引导和逻辑性,提供详尽的步骤和分析,但在效率和直观性方面可能稍逊一筹。

打开网易新闻 查看精彩图片

腾讯元宝、GPT-4o回复结果

最后,文生图能力比拼。

腾讯元宝和GPT-4o根据古诗“小荷才露尖尖角,早有蜻蜓立上头”生成的图片,都包含了诗句中的关键元素,如荷花和蜻蜓,较为准确地捕捉并传达了诗中的意境。记者发现,元宝的图片呈现出现代摄影的色彩鲜明特点,而GPT-4o的图片则更贴近古典画风,强调了柔和的色彩和意境的表达,更符合古诗所蕴含的古风韵味。

打开网易新闻 查看精彩图片

腾讯元宝、GPT-4o回复结果

▍AI应用测试:日常场景下腾讯元宝的趣味与实用性升级

除了满足效率需要,腾讯元宝的“发现”栏目上线了百变AI头像、口语陪练、超能翻译官、AI智能体等多个日常生活场景中特色应用,均免费开放。

打开网易新闻 查看精彩图片

豆包、文心一言、Kimi等大模型目前均属于国内第一阵营。2023年9月推出的混元大模型此次卷土重来会带来惊喜吗?恐怕还是靠实力说话。

第一,口语陪练服务测试。

记者发现,腾讯元宝通过模拟1V1真实的对话场景,为用户的语法和发音打分。更像是一位专属的私人外教,用户点击“怎样优化”便能收获个性化的口语指导和改进建议,比较适合那些寻求细致语法和表达改进的学习用户,如将“what's”改为“who's”优化句子语法结构、增加“and why?”使对话更加详细。

打开网易新闻 查看精彩图片

元宝口语陪练对话结果

相比之下,豆包通过虚拟卡通外教进行对话练习,界面简洁有趣,互动性强,能够提供详细的信息和背景知识,使对话内容自然且贴近实际生活,不足之处是并没有明确指出用户的口语改进意见。

打开网易新闻 查看精彩图片

豆包口语陪练对话结果

第二,超能翻译官功能测试。

从输入方式来看,相比于豆包仅支持文件、语音和文字三种输入方式,腾讯元宝就比较给力了,不仅支持文件、语音、文字、图片、链接五种输入方式,还能够识别十五种主流语言。

记者测试了一篇英语论文的文档,发现元宝的超级翻译官功能不仅能高效总结论文中的要点,还有全文翻译服务,比较适用于学术研究、专业文献等高要求的翻译任务。此外,元宝专门设计了沉浸式的阅读模式,进一步保障了用户的阅读体验,使翻译内容更加清晰易读。

打开网易新闻 查看精彩图片

元宝超能翻译官对话结果

豆包的翻译结果与元宝相比显得逊色,答案冗余且主旨提炼不够精练,同时在翻译速度上不尽如人意,甚至在测试中出现了明显的延迟问题,影响了用户体验的连贯性。

打开网易新闻 查看精彩图片

豆包翻译对话结果

第三,百变AI头像功能测试。

腾讯元宝该功能提供了包括芭比、多巴胺、复古繁花、白领精英等在内的12种独特风格,用户可以根据个人喜好选择不同的风格进行尝试。

《科创板日报》记者注意到,与垂直AI相机赛道的App相比,腾讯元宝在用户上传自拍照片时有限制,仅允许上传一张图片,而妙鸭相机允许用户上传多光线、多背景、多视角、多表情的自拍照片。此外,元宝的AI头像功能并未包含近期广受用户欢迎的黏土滤镜、图生视频等玩法。

记者测试发现,虽然元宝生成的AI头像虽然在风格上有所不同,但在细节精细度上未能达到期望水平,显得相对粗糙。尽管提供了不同的风格选项,这些头像在个性化塑造上略显平淡,缺乏独特辨识元素,面部表情趋于单一,缺乏生动变化。此外,背景设计显得较为简易且重复性高,缺少丰富多样的细节处理。

打开网易新闻 查看精彩图片

元宝AI头像生成结果

字节豆包的头像创作功能位于发现页面的绘画板块,也采用了多风格生成的概念,采用的文生图而不是上传照片。记者输入“王家卫风格的头像”关键词后,生成了四幅作品。虽然这些作品尝试捕捉独特的文艺氛围,但是与腾讯元宝出现的问题类似,人物头像在细节生动性、表情多样性和背景复杂度上有待加强。而且,生成结果中出现了与关键词如“头发长度”“地点”不符的偏差。

打开网易新闻 查看精彩图片

豆包AI头像生成结果

最后,AI智能体测试。

腾讯元宝上线了AI智能体的功能,赋予角色设定,智能体可以是让AI扮演特定角色陪你聊天,也可以是擅长完成特定任务的专家。用户只要点击“创建智能体”,然后按照提示输入名称、角色设定、简介、开场白、预置指令,并选择音色、上传 logo 即可。或让AI自动生成智能体相关信息,并复刻自己的音色。

打开网易新闻 查看精彩图片

元宝AI智能体功能

豆包的智能体功能与文心言相似,也允许创建专属声音,同时在声音选择方面比元宝更加多元,包括自动推荐、女声、男声、角色和口音。

打开网易新闻 查看精彩图片

豆包AI智能体功能

总的来说,从效率场景工具来看,腾讯元宝擅长快速抓取信息、高效解析链接,在处理速度及多格式输入支持方面具有明显优势。更重要的是,通过深度融合公众号的海量数据资源,比GPT-4o能够提供时效性更强、更全面的搜索结果,称得上是一款搜索功能强大、易于使用的AI助手产品。

从日常生活场景工具来看,腾讯元宝在口语陪练、文档翻译方面的能力表现略优于字节豆包;共同点是两者的智能体功能十分相似,并且都在AI图像的细腻度和创新性方面有明显的提升空间。

大模型应用市场仍在快速发展期,伴随着国内外AI产品更多玩家“参战”,消费端市场将迎来更多智能化、高效率的产品和服务,未来大模型App竞争或将进入一个更加激烈的新阶段。

长江证券研报称,建议持续关注AI在广告、电商、影视、游戏和教育等各领域的商业化落地。