打开网易新闻 查看精彩图片

新智元报道

编辑:编辑部

【新智元导读】时隔4个月,百川智能的基座大模型又双叒升级了!新一代Baichuan 4出世直接登顶国内第一。不仅如此,首款最懂搜索、会提问的AI助手「百小应」正式杀入移动APP战场。

近半个月,国外科技大厂们连番轰炸,GPT-4o、Project Astra、Copilot+ PC的诞生让人目不暇接。

而国内大模型这边也是毫不示弱,不断地推陈出新、迭代升级。

就在今天,历时4个月打磨,百川智能发布了新一代基座大模型Baichuan 4。

不仅如此,他们还带着自家首款AI助手「百小应」杀入移动APP战场。

打开网易新闻 查看精彩图片

试玩地址:ying.ai

与吊人胃口的OpenAI不同,iOS和安卓版应用程序今天一并推出,并且免费使用。

毋庸置疑,「百小应」已经用上了升级后Baichuan 4基座大模型的能力,与其他的AI助手一样,读文件、获取最新信息、整理资料、辅助创作等各种问题,「百小应」通通可以解决。

但与众不同的是,「百小应」将Baichuan 4的能力与其天然的搜索技术优势进行了深度融合。

它不仅具备多轮搜索的能力,甚至还可以定向搜索,可以被看作是最懂搜索的AI助手。

说这么多,不如来一波深度体验。

懂搜索、会提问的AI「伙伴」

在试用过程中,小编深深地体会到,「百小应」绝不仅是连接信息的工具,而是真正成为了一个提供知识和服务的AI助手,甚至有了一点伙伴的味道。

打开网易新闻 查看精彩图片

百小应的名称源自「一呼百应」

多轮搜索

在以往的搜索产品中,我们通常只会得到一个搜索结果。推一步才能走一步,非常被动。

但百小应不同,在得到搜索结果后,它还会结合用户的问题开启「自我反思」。

比如,它会自主判断当前提供的资料是否足够详实,从而来自主决策,是否需要进行更多轮次的搜索。

当我们问「含能材料的行业前景」,它就自己去进行了2轮搜索,然后给出了高度概括的介绍。

打开网易新闻 查看精彩图片

再问一个问题:中美两国在大模型行业的差距,究竟有多大?

百小应同样自动完成了2轮搜索,在技术积累、算力支持、产业应用、创新生态等方面,给出了客观中肯的分析。

打开网易新闻 查看精彩图片

可以看出,如果遇到市场调研、产业分析这类复杂场景,多轮搜索就能发挥最大的效力,更有效地获取更专业、更有深度的信息。

打开网易新闻 查看精彩图片

而在搜索结果的呈现上也可以看出,百小应相比其他搜索产品的独特之处。

它不是简单的总结网页信息,而是会将搜索结果嵌入回答中,成为回答的支撑或者创作的一部分,这样我们就有了参考资料来源,不必担心结果是无本之木、无源之水了。

除此之外,百小应在结果的结构化上,也做得非常优秀。

打开网易新闻 查看精彩图片

作为市场研究,上面这份输出的格式很标准,可以为行业分析、调研工作提供强大的助力。

定向搜索

很多时候,我们需要精准定位问题领域,直接访问权威站点。

百小应的「定向搜索」,此时就显示出了强大的功能。

我们可以直接问它:人机交互领域有哪些经典著作和最新研究成果?

通过2轮搜索,它精准地找到了知乎上的参考资料,详细给出了领域内的经典著作和最新论文。

打开网易新闻 查看精彩图片

从它给出的论文链接中,我们直接就可以查阅arXiv上对应的论文。

相比之下,其他智能助手仅仅是针对搜索结果做了大致的总结。

打开网易新闻 查看精彩图片

下面,我们试着让百小应在arXiv上找出关于RAG的最新研究成果。

果然,它会选择直接访问arXiv,让我们更高效地链接到想要的结果,不必在多余的繁杂信息中浪费时间。

打开网易新闻 查看精彩图片

会提问

一次流利的搜索体验,是由产品和用户共同完成的。

一方面,模型需要掌握专业的搜索技能,懂得什么是搜索;而另一方面,用户也必须会表达,才能真正通过AI来寻找到自己想要的信息。

虽然以上是最理想的情况,然而现实中,表达清楚自身需求,对很多用户是个困难的事儿,或者说懒得费那个脑子。

这种情况下,就需要让模型来引导用户「表达」了。

遇到引擎盖打不开的情况,可以直接问百小应。

不过这个问题的答案,取决于车辆的品牌、型号、出厂年份。一般人去提问,应该是不太可能一开始就提问得这么周全的。

不用担心,百小应会通过提问来指导你。

打开网易新闻 查看精彩图片

在它的引导下,我们给出了车型的关键信息:比亚迪元。

这下百小应给出的信息,就更精准了,在提问了我们所在地区这个信息之后,它甚至给出了北京4S店的联系方式和地址。

打开网易新闻 查看精彩图片

想要策划一场浪漫的草坪婚礼,不如让「百小应」当你的婚礼的私人订制策划师。

打开网易新闻 查看精彩图片

这时,「百小应」并没有根据笼统的问题,一通乱答,而是继续引导我们给出明确的细节。

「为了更好地帮您规划,我需要了解包括预算,参加人数等一些额外的信息」。

打开网易新闻 查看精彩图片

在提供了预算20万左右,50人参加的信息之后,「百小应」立即给出了非常细致的定制方案。

从场地选择推荐、婚礼布置装饰、婚宴餐饮,再到音乐草坪游戏,摄影录像,都为你一并规划好了。

打开网易新闻 查看精彩图片

更惊喜的是,它最后还贴心地为我们做了所有的预算分配。

打开网易新闻 查看精彩图片

再来看一个演示,当你想要写一个「天津之眼」的种草文案,「百小应」同样先去提问,了解真正需求。

- 您希望这篇文案吸引读者哪类读者?(诸如旅游爱好者、情侣推荐,还是家庭旅游)

- 您希望通过这篇文案传达哪些主要内容和情感?(比如,浪漫氛围、历史文化、刺激体验等)

打开网易新闻 查看精彩图片

然后,你就可以从这些给定的选择中进行挑选,或提出自己的想法皆可。

接下来,「百小应」便会根据要求生成文案,简短的文字着重体现了「天津之眼」独特魅力所在。

打开网易新闻 查看精彩图片

综上演示,「百小应」之所以能够输出精确的结果,主要归功于「会提问」,通过提问引导、激发用户清晰表达自身具体需求,为每个人构建出个性化的解决方案。

打开网易新闻 查看精彩图片

多模态

在Baichuan 4多模态能力的支持下,「百小应」还可以对图片内容进行解读。

又或者,将图片作为补充材料,获取更精准的回答。

最近比较火的AI开瓜,看看「百小应」能不能挑出,哪颗是最甜的瓜。

打开网易新闻 查看精彩图片

根据「百小应」的判断,一般西瓜表面条纹越清晰、颜色越深绿,可能代表着西瓜更成熟。

从图中看,推测得出,6和7看着条纹非常清晰。

不过,它还是提醒我们,仅从外观上判断西瓜甜度并不准确。

打开网易新闻 查看精彩图片

小编这就去开瓜了。

打开网易新闻 查看精彩图片

再来一张经典的重庆地标夜景图,不知「百小应」能否认得出?

打开网易新闻 查看精彩图片

显然,这个问题根本难不倒它。

打开网易新闻 查看精彩图片

你甚至,可以让它就这张图片,生成一份朋友圈文案。

「百小应」真的很会,生成的文案内容非常吸睛,同时还体现出了小众但不矫情的风格。

打开网易新闻 查看精彩图片

文档速读

除了以上提到的能力之外,「百小应」还支持上传PDF、Word文档,网页链接皆可行。

这就非常适合,需要大量阅读长篇幅文献、报告等内容的科研者,或是解析复杂数据表格的金融分析师等。

「百小应」可以做到,仅用1分钟的时间,读完上市公司财报。

比如,上传一份长达31页的特斯拉2024年第一季度财报文件。

然后要求「百小应」去解读财报,总结出值得关注的信息,并给出相对应的原文。

打开网易新闻 查看精彩图片

没想到,眨眼的功夫,「百小应」总结出了十个要点,并配上原报告highlights的内容。

打开网易新闻 查看精彩图片

再给它po一个链接,总结GPT-4o发布会的一些关键要点。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

「百小应」的输出结果,基本上覆盖了全部的要点。

打开网易新闻 查看精彩图片

此外,「百小应」还可以支持通过语音的方式进行交互,简直是「手癌」患者的福音。

打开网易新闻 查看精彩图片

大模型时代新物种,AI不再是「工具」

经过一番实测之后,「百小应」已经在长文本阅读、多模态理解、提问搜索等多方面任务上,表现出强大的能力。

百川智能认为,让AI从工具变为伙伴,基于大模型打造的AI助手更像是在「造人」。

就像人类能够利用工具,听说读写看,甚至会思考一样,AI助手随着基座模型迭代,也将具备相应的能力。

虽然当下的AI助手还不具有情感、记忆、决策等高阶能力,距离「伙伴」还有很长的路要走,但是AI助手已经具备了部分伙伴所需要的能力,比如会思考,会用工具。

而搜索正是当下AI助手最重要的工具。

打开网易新闻 查看精彩图片

只有将大模型与搜索相结合,才能发挥出巨大的优势。甚至,人们普遍认为大模型的第一波应用,就是在搜索。

为什么这么说?

大模型饱受诟病的「幻觉」问题,是无法避免的,而植入搜索可以提升LLM回答准确性,早已成为行业共识。

其实,国内外大部分企业,早已给自家AI助手类应用增加了搜索功能。

但同样的搜索,却有着不一样的思路。

一种普遍的做法是收到用户的指令后,搜索相关信息,然后总结搜索结果进行输出。

而百川智能认为,大模型+搜索应该是在回答中嵌入搜索结果,用搜索赋能大模型,提高模型回答的鲜活性,让大模型言之有物,而不是用大模型赋能搜索。

由此,我们所看到的「百小应」,才是APP中懂搜索、会提问的那个应用。

打开网易新闻 查看精彩图片

百小应之所以能将大模型与搜索的能力很好地融为一体,是因为搜索一直是百川智能探索LLM的重点方向之一。

这家公司创始人和研发团队有着多年的前沿搜索经验,在去年发布首款闭源模型Baichuan 53B时就采用了「搜索增强技术」,大大提升了基座模型的输出结果的性能。

首款AI助手「百小应」能够表现不凡,当然也离不开此次基座模型Baichuan 4能力的大升级。

Baichuan 4登顶国内第一

Baichuan 4相较于上一代Baichuan 3,在通用能力上有着显著提升。

打开网易新闻 查看精彩图片

在刚刚发布的SuperCLUE权威中文评测中,Baichuan 4以80.64分成绩,登顶国内第一。

打开网易新闻 查看精彩图片

SuperCLUE总榜

具体来看,在理科任务中,Baichuan 4表现不俗,以 76.90 分的成绩排名国内第一。

然而,与GPT-4-Turbo-0125相比,相差4.23分,仍有一定的提升空间。

其中,逻辑推理(74.4分)、工具使用(80.8分)这两项均刷新国内最好成绩。

打开网易新闻 查看精彩图片

在文科任务中,Baichuan 4取得了83.12高分,文科能力全球第一,比GPT-4-Turbo-0125高出5.33分。

其中,知识百科(89.8分)、长文本(80.8分)、生成创作(83.4分)、传统安全(90.2分)均刷新国内最好成绩。

打开网易新闻 查看精彩图片

在与国内大模型平均得分相较下,Baichuan 4在所有能力上均高于平均线,展现了均衡的综合能力。

尤其是,在逻辑推理(+18.64)、代码(+18.89)、长文本(+20.77)能力上远高出平均线15分以上。

打开网易新闻 查看精彩图片

而与国外主流大模型对比,Baichuan 4在文科类任务取得领先优势。

特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面,表现突出。

这使得Baichuan 4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。

然而,它在代码能力方面仍有提升的潜力。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

多模态能力仅次于GPT-4V

此外,在各大基准测试中,Baichuan 4还具备了行业领先的多模态能力,表现更加亮眼。

具体在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准上,新模型实力仅次于GPT-4V,完全碾压Gemini Pro、Claude 3 Sonnet等模型。

打开网易新闻 查看精彩图片

技术创新

为什么Baichuan 4,能够在4个月这么短的时间取得突破?

一切都源于,其在训练过程中引入了很多业界领先的技术优化手段。

在预训练阶段,为了有效提升LLM对数据的利用,新模型采用了基于Model-based+Human-based的协同数据筛选优化,并对长文本建模位置编码科学的Scaling Law。

打开网易新闻 查看精彩图片

在对齐阶段,还重点优化了模型推理、规划、指令跟随的能力,通过「损失」驱动数据选取与训练,阶段爬坡,多模型参数融合等方式,有效提升LLM关键指标和稳定性。

同时,团队还采用了RLHF和RLAIF融合后的「RLxF」,强化学习对齐技术,大幅提升模型的指令跟随等能力。

打开网易新闻 查看精彩图片

此外,Baichuan 4另一项的技术创新便是为LLM推理提速,提出了全新的投机采样方案clover。

通过将序列知识与并行解码结合,使得投机采样的命中率提升至60% ,同时成本降低30%以上。

打开网易新闻 查看精彩图片

1000万token免费薅,零代码Agent即将上线

发布会现场,百川智能推出了全新的MaaS+AaaS服务。

对于企业来说,需要的并不是大模型,而是生产力、生产效率的提升。

百川智能认为,拥有MaaS+ AaaS(Agent as a service)双重能力,企业才能构建出智能化的最佳方案。

MaaS版块由基座模型组成,分为旗舰版和专业版。

旗舰版将全量开放Baichuan 4的各项能力,Baichuan 4不仅拥有国内第一的中文能力,并且具备行业领先的金融知识和问答能力,在SuperCLUE的金融知识百科能力上,Baichuan 3曾取得了A+的最高评级。

专业版,则包含Baichuan3-Turbo和Baichuan3-Turbo-128K两款模型,在价格方面相比旗舰版Baichuan 4更实惠。

而且,这些模型均针对企业用的高频场景进行了针对性优化,综合测试相比GPT3.5整体效果提升8.9%。

百川智能表示,即日起,MaaS的新用户可以获得1000万免费token!

在Baichuan 4基础上,百川智能针对Agent构建,推出了Assistan API接口。

它不仅支持Code interpreter、RAG内建工具,还支持自定义工具调用,方便企业接入各种丰富复杂的API。

评测结果显示,Assistant API的工具调用能力,已经接近了Open AI assistant API的水平。现在,Assistant API已经正式开启内测邀请,试用免费!

打开网易新闻 查看精彩图片

接下来,百川智能还将推出零代码Agent创建平台产品。

任何业务人员,都可以通过自然语言创建Agent,更好地赋能企业智能化发展。

在生态方面,百川智能的「朋友圈」可以说范围之广。

目前已经服务了了数千家客户,包括完美世界游戏、爱奇艺、 创梦、什么值得买等各行业的领军企业。

同时,还与与信雅达、用友、软通动力、新致软件、达观数据等多家行业生态伙伴,以及华为、曙光等硬件厂商和中国移动、电信、联通等运营商达成合作,携手构建百川大模型生态。

顺便提一句,百川智能在成立1年多的时间里,以超乎想象的研发速度,共发布了12款大模型。

打开网易新闻 查看精彩图片

Baichuan 4之后,不知还有什么样的惊喜等着我们。

参考资料:

https://ying.baichuan-ai.com/chat

打开网易新闻 查看精彩图片