12月18日,火山引擎Force冬季大会在上海举行,字节跳动正式发布豆包视觉理解模型,千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠。

豆包战略研究负责人周昊发表演讲,分享豆包在生活、学习和工作等各类场景中的广泛应用。

他表示,作为一款通用型AI产品,豆包致力于去满足不同用户具体且真实的需求,让用户像开口问身边的朋友一样快捷方便地和豆包沟通,真正做到什么都问问豆包。

周昊在大会现场

以下是周昊演讲全文:

大家好,我是周昊。

过往公司做App在早期阶段的心得是把最关键的用户需求解决到非常好。比如抖音是视频创作和分享、头条是看新闻、飞书是协同办公等等。

但对于大模型产品,好像很难定义哪一个是“最关键的用户需求”。因为它天生就是一个通用型产品,每个用户打开它时,想要解决的问题都不一样。因此,我们要做的是满足好不同用户在不同场景下的需求。

在豆包发展过程中,我们做了很多用户访谈,也发现了各种不同的下载理由及使用场景。AI 产品很神奇的地方是,它真的能够同时满足这些看上去非常不同的需求。

日常生活“问问豆包”

比如,日常生活里各种知识和经验问答,豆包总能快速为用户答疑解惑。最近上海到了银杏季节,一位用户说,他问豆包“上海哪里可以看银杏?”,豆包很快就列出了市中心和郊区的观赏地及特点,并配上了银杏树的照片和路线视频攻略,非常方便。

今年,黑神话悟空特别火,带动了山西旅游,很多人去山西看佛像。用户访谈中大家提到,在山西逛博物馆时,就会请豆包介绍一下北魏的佛像风格;讲讲中国佛像艺术在历史中的演化过程。借助豆包,旅游时对历史文物的了解就不再局限于展牌上的简短介绍,可以深入展品背后的历史故事与文化内涵。

也有朋友尝试把体检报告拍给豆包。他说心电图报告里不少专业术语和符号,他尝试豆包拍图解读,把医学术语翻译成浅显易懂的语言,更方便自己理解。

教育学习“问问豆包”

生活之外,很多用户反馈,豆包也能很快很好的满足学习和教育的各种需求。身边有不少朋友近几年成为了新手爸妈,他们尝试用豆包解决新的家庭教育难题。

比如一些奥数题,小朋友没什么思路,家长也不太知道该怎么讲解,就请豆包给小朋友解答。豆包还能提供详尽的解题步骤,引导小朋友理解题目解法。如果小朋友对某类题目掌握的不太牢固,家长还会请豆包再给小朋友出几道同类知识点题目巩固练习。

英语口语练习也是大家很喜欢的教育场景。用户反馈说,豆包的发音、词汇量、句型都远远超过他自己。通过豆包实时语音通话功能,和豆包一来一回练英语,毫不尴尬,也省了请老师辅导的开销。此外,生成的英语对话还配有字幕,退出后还可以复习。

工作中“问问豆包”

当然,最近听到最多的,就是在工作场景「问问豆包」。今天现场很多听众都是AI行业相关的从业者,AI发展很快,经常需要阅读前沿论文补充认知。论文,就是很多用户“问问豆包”的高频场景。大家不仅可以让豆包总结,划词解释专业名词,还可以多追问,不论是图片还是实验数据,都可以截图问问豆包,它都能给出清晰的图表解释和实验含义。

最近豆包大模型团队发表了一篇关于图像编辑的论文,非技术背景的同事读起来有点吃力。我们可以打开豆包电脑版,上传论文,点击预设提示词,豆包就可以生成清晰的脑图和总结,帮助我们快速理解论文框架,提炼核心信息。有了豆包的帮助,阅读论文的门槛大大降低,非专业人士也能更快了解关键信息。

此外,文字、图片、音乐、视频的创作上,大家也都会问问豆包。

前段时间,豆包上线了一键生成带有指定文字图片的功能。我们设计同学就用豆包直接生成了一张海报,发在了豆包官号上,效果还不错。同事们开玩笑说,豆包自食其力,自己努力宣传自己。

后来设计同学告诉我,其实现在他们做设计,第一反应也都是“问问豆包”。 豆包做图很快,也不会因为最后重新选回第一版而不满。 虽然它给的方案不完美,但也能提供不少思路和灵感,减少许多前置的工作,提升工作效率。

用户的故事还有更多,我们问自己,为什么大家在遇到问题时都愿意选择豆包呢?我觉得答案应该是

问问豆包最快

在产品设计上,我们一直在努力,让用户的输入更快更方便。我们非常注重多模态的输入和打磨,尤其是语音输入。输入速度上来说,普通人的打字速度大概是每分钟60到80个字,而普通人的语速每分钟可以到250至300字。如果你有主持人华少的说话速度,甚至可以达到每分钟400字。所以一般情况下,语音输入效率至少是键盘输入的3倍以上。语音的效率天然更高,更快。

同时,豆包的语音能准确转录各种语音信号,识别不同语言、方言、口音。我们有个产品经理是广东人,他很喜欢给豆包发粤语,豆包也能识别的不错。大家如果用的多,还会发现豆包对于人名、生词,也能结合上下文做出准确分析。当然,这背后都是基于豆包语音识别大模型的强大能力。这个语音模型在火山引擎也已经发布,有兴趣的朋友可以联系火山购买。

这些能力储备让用户像开口问身边朋友一样和豆包交流,真正做到什么都问问豆包。

语音以外,我们也上线了视觉识别模型。前面提到的不管是读心电图、还是拍奥数题,都依靠视觉输入。人和世界的沟通中,视觉是很重要的一环。相比用语言描述心电图上的复杂信息,直接拍下来问问豆包,肯定更快更方便。

其次,豆包离用户场景更近,更快。大家知道,我们在今年发布了AI智能体耳机Ola Friend。这样轻便的可穿戴设备,让豆包能够成为用户耳边伴随的朋友,在路上随时和豆包对话,最快。运动,逛街,旅行时,用户无需再拿出手机或其他设备,直接通过耳机就能和豆包对话,快速获取信息。这种无缝连接的交互方式,让豆包真正成为了用户身边的智能伙伴,陪伴用户度过每一个需要知识和帮助的时刻。

今年我们还重点建设了豆包电脑版 。大家可以把电脑版当成浏览器,直接打开网页。在浏览中遇到需要提问、翻译或总结时,直接点击“问问豆包”,就能轻松唤起,获得帮助。

我们也即将上线“文档编辑器”功能,采取全新的交互方式,生成文档后,用户可以在画布中自由编辑,让AI针对特定词语和段落优化改写,也可以一键全文润色、调整长度,全网搜图等,让创作更轻松。

最后,在看不到的地方,模型能力让问问豆包成为最快的解决方式。

当用户提出较为复杂的搜索或写作需求时,豆包快速识别用户意图,推理并拆解内容,再进行多步骤分析和推理,并调度搜索,呈现总结后的结果。同时,豆包还能将搜索到的文本信息与视频内容相结合,为用户提供更加丰富和直观的体验。

在快的背后,是模型帮助用户做了意图识别、信息收集、处理、整合和分析。

虽然用户带着不同需要打开豆包,但因为大模型应用能解决非常广泛的问题,用户在使用中也会逐渐发现更多的场景。

虽然AI是一个非常前沿的话题,但一款AI产品的成长,是需要走进真实的用户与真实的生活中的。工具是有限的,但人对探索、求知和美好生活的追求是无限的。

最近,我很喜欢一句话,我们要爱具体的人,做具体的事,过具体的生活。

一款AI产品也是一样,去满足具体且真实的需求,去关心用户具体且真实的生活。

欢迎大家什么都来问问豆包,我们也会努力完善豆包,创造更好更快的体验,为生活带来更多美好。

谢谢大家。