这里是“头号AI玩家”的新栏目:AIGC月刊。每月更新一次,以下是我们梳理汇总的2024年5月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考,也欢迎在评论区和我们交流你的想法~

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片


5月AIGC行业趋势
1. 《Her》走进现实

科幻电影《Her》中,AI操作系统Samantha拥有与人类高度相似的交互能力,能够理解并表达情感,这在当时看来是对未来AI的一种美好设想。随着生成式AI技术的快速发展,如今电影中的设想正在逐渐成为现实。

打开网易新闻 查看精彩图片

OpenAI在5月14日的发布会上推出了一款名为GPT-4o(omini,全能)的多模态大模型,改进了对音频中情感标记的识别和理解,使得对话更加自然。谷歌随后也发布了名为Project Astra的AI智能体,它能够通过手机和AR眼镜与用户进行实时交互。

我们可以期待,像Samantha这样的AI助手将更加智能化、个性化,并在更多领域中发挥作用,改善人们的生活和工作效率。

不过GPT-4o语音模式“Sky”的声音与Samantha的配音演员斯嘉丽·约翰逊极为相似,OpenAI在收到其律师函后目前已停用Sky。

2. 大模型厂商打响价格战

5月15日,字节跳动在火山引擎原动力大会上正式发布自研的豆包大模型,其中豆包通用模型推理定价为0.0008元/千Tokens,比行业便宜99.3%。这意味着,花一块钱,就能让豆包生成上万篇140-200字左右的图文内容。

大模型的价格彻底“卷起来了”。这一轮的降价潮可以追溯到5月初,DeepSeek发布第二代MoE DeepSeek-V2,API定价为每百万token s输入1元、输出2元(32K上下文),价格为GPT-4-Turbo的近百分之一。

打开网易新闻 查看精彩图片

此后,阿里、百度、讯飞、腾讯等也先后加入到降价浪潮中,部分模型低至免费。同时也有百川智能、零一万物等大模型创企宣布不参与这场纷争。

多家公司提到降价背后的原因是技术进步带来的成本下降,希望加快AI普惠化。实际上,降价是大势所趋,目前云厂商市场竞争激烈,需要通过API降价来吸引开发者,从而收集更多优质数据。尽管价格打下来了,但模型是不是好用安全,如何产生更多落地价值,还有待进一步观察。

3. AI+电商持续火热

AI技术与电商行业的结合在5月份延续着火热的发展趋势,其主要应用包括AI导购、智能营销、智能客服和AI数字人等。这些应用正在帮助电商平台和商家提高效率、降低成本,并改善用户的购物体验。

5月7日,淘宝宣布网页版Taobao.com启动升级,淘宝网站业务部负责人空无表示,AI应用在PC浏览器有巨大的应用想象空间。此外,618期间,淘宝App推出了“天猫AI讲价小助手”,可帮助用户一键砍价。抖音电商也在内测“AI购物小助手”,可以提供个性化推荐商品、辅助消费决策。

打开网易新闻 查看精彩图片

抖音“AI购物小助手”

继上个月刘强东AI数字人直播带货首秀,今年京东618将有18位总裁AI数字人开启直播。同时,李佳琦也宣布美ONE旗下的“所有女生”直播间将测试数字人直播,并搭建AI智能客服。

AI被认为是电商竞争的下一个焦点。从去年至今,AI电商正在从炒作进入成熟应用阶段,在消费者端我们能看到越来越多的智能产品和服务。

打开网易新闻 查看精彩图片

你可能错过的10大AI热点
1. Sora短片“造假”,被曝依靠大量后期实现

上个月,OpenAI联动视觉艺术家、电影制作人和设计师等专业创意人士用Sora创作了7支视频,其中,多媒体制作公司shy kids打造的短片《Air Head(气球人)》广受好评。然而,这部短片近期被曝出并非Sora一键直出,实际制作过程中使用了大量转描技术(Rotoscoping)和人工后期创建的视觉特效。

打开网易新闻 查看精彩图片

2. 通义千问2.5发布,通义大模型品牌升级

5月9日,阿里云发布通义千问2.5大模型,宣称在中文语境下,其文本理解、文本生成、知识问答和生活建议、闲聊和对话以及安全风险等多项能力上赶超GPT-4。此外,通义千问2.5相比2.1有多项能力提升,理解能力提升9%,逻辑推理提升16%,指令遵循提升19%,代码能力提升10%。

同时,阿里云宣布通义大模型品牌升级,“通义千问App”更名为“通义App”,集成通义大模型全栈能力,免费为所有用户提供服务。

3. TikTok将自动标记从其他平台上传的AI生成内容

5月9日,TikTok宣布同“内容来源和真实性联盟”(C2PA)合作,成为首个采用其内容证书技术的视频分享平台。C2PA的创始成员包括Adobe和微软等行业巨头。

TikTok已对使用TikTok AI工具制作的AI生成内容(AIGC)实行标注,此次将自动标记功能扩展到其他部分平台创建的AIGC。声明称,这项功能即日起针对图片和视频推出,不久将面向纯音频内容推出。

4. OpenAI发布多模态AI模型GPT-4o

5月14日凌晨,OpenAI在春季发布会上推出了一个新的旗舰模型GPT-4o。“o”是Omni的缩写,意为“全能”,GPT-4o是标志性产品GPT-4模型的一个迭代版本,提供了GPT-4级别的智能,但速度更快,并改进了其在文本、语音和视觉方面的能力。

GPT-4o支持零延迟实时语音交互,自然真实富有情感,目前该语音模式还未上线,其他能力可免费试用。

5. 谷歌推出对标GPT-4o的多模态AI助手Astra

5月15日凌晨,在谷歌I/O大会上, 谷歌宣布已全面进入Gemini时代,推出了对标GPT-4o的多模态项目Project Astra,支持低延迟的语音交互,并发布了下一代开放模型Gemma 2.0。在视频和图像生成方面,谷歌推出了Veo和Imagen 3模型。同时,谷歌将生成式AI整合到搜索结果中, 推出AI Overviews体验。

6. 抖音电商内测“AI购物小助手”

近日,抖音电商正在测试首款面向C端的AI电商服务“AI购物小助手”,该服务内嵌在抖音商城内,仍处于灰度测试阶段,从体验上看该服务与淘宝问问、京东京言类似。

据悉,抖音电商从去年下半年就开始着手研发“AI购物小助手”,由上海团队负责,去年年底进行过小范围测试,其算法推荐机制是基于云雀大模型算法。

7. OpenAI联创兼首席科学家Ilya Sutskever宣布离职

5月15日,OpenAI联合创始人兼首席科学家Ilya Sutskever在X上发文宣布离开OpenAI,接下来会做一些“对自己意义重大”的项目。OpenAI CEO Sam Altman表达了对Ilya的不舍与感激,同时宣布Jakub Pachocki将担任新首席科学家,他是GPT-4项目的整体负责人之一,也是优化团队负责人。

此外,RLHF发明者之一Jan Leike也在当天宣布离开OpenAI,他和Ilya共同领导的超级对齐团队成立还不到一年,已经分崩离析。

8. 腾讯混元大模型升级:部分中文能力已追平GPT-4

5月17日,在腾讯云生成式AI产业应用峰会上,腾讯公布了一系列产品研发进展:腾讯混元大模型能力持续升级,三大版本将面向产业客户和个人开发者全面开放接入;腾讯一站式AI智能体创作与分发平台“腾讯元器”正式发布,即日起开放申请体验;腾讯混元大模型面向个人的助手App“腾讯元宝”将于5月30日发布。

腾讯副总裁蒋杰表示,混元大模型目前整体性能已居国内第一梯队,部分中文能力已追平GPT-4。

9. 英国AI初创公司Stability AI或将面临出售

5月16日,英国AI初创公司Stability AI正在与潜在买家讨论出售问题。据悉,该公司在2024年第一季度的营收不到500万美元,但却亏损超过3000万美元。同时,Stability AI还拖欠云计算供应商和其他公司近1亿美元。目前,Stability AI尚未就此消息作出回应。

10. 微软推出Copilot+PC:支持GPT-4o,可记住所有交互行为

5月20日,微软推出搭载Copilot功能的全新PC产品Windows 11 AI PC,支持在本地直接运行AI大模型,Windows内置的AI助手Copilot也已支持GPT-4o。

此外,Windows 11 AI PC还具有Recall功能,能够跟踪用户在PC上的一切操作,并快速、直观地检索出想要寻找的内容。据现场展示,用户可以跨越几个月以内的时间线,在浏览过的任意应用程序、网站、文档及其他地方查找内容,或通过屏幕快照进行询问,例如某封特定邮件。

打开网易新闻 查看精彩图片

新上线的7个AI工具(功能)
1. 月之暗面上线智能体功能“Kimi+”

月之暗面近日推出了“Kimi+”功能,现支持在网页聊天框输入@唤起某个智能体进行提问,或在左侧工具栏点击即可使用。目前Kimi+显示有24个不同功能的智能体,类似于GPTs,涵盖办公提效、辅助写作、社交娱乐、生活实用等方面。

打开网易新闻 查看精彩图片

Kimi+:https://kimi.moonshot.cn/kimiplus-square

2. Claude推出苹果iOS版App

5月1日,AI创业公司Anthropic首次推出旗下大模型产品Claude的移动端App,除了提供聊天机器人等基础功能之外,还支持上传照片、分析图像,目前仅有iOS版。此前,Claude只能通过网站或第三方模型库来使用。

打开网易新闻 查看精彩图片

Claude App下载:https://apps.apple.com/us/app/claude-by-anthropic/id6473753684

此外,Anthropic还推出了Claude Team计划提供更多的聊天和查询次数,之后Claude将提供更大的上下文窗口,用户可以用来分析长篇文档,进行复杂对话。

3. Dreamina更名为“即梦”,AI绘画和AI视频功能全量上线

5月9日,剪映Dreamina官方宣布其品牌正式更名为中文“即梦”,同时其AI作图和AI视频生成功能已全量上线,用户可访问新网址来体验这些功能(https://jimeng.jianying.com/)。

打开网易新闻 查看精彩图片

即梦目前提供了6个图片生成模型,其中最新推出的通用1.4模型优化了中国元素、写实场景和摄影方向。视频生成支持上传首帧或尾帧图片,增强可控性。

4. 阿里国际旗下Pic Copilot推出AI虚拟试衣功能

近日,阿里国际旗下Pic Copilot推出了“AI虚拟试衣”功能,可以在1分钟内为模特穿上商品服装并搭配风格匹配下装,还原服装形变、褶皱、材质等细节,输出全身商品图。

打开网易新闻 查看精彩图片

Pic Copilot官网:https://www.piccopilot.com/create

5. 阿里开源视频自动化剪辑工具FunClip

近日,阿里巴巴达摩院发布了一款开源、准确、易用的视频语音识别和剪辑工具FunClip,基于LLM的AI剪辑集成。用户上传视频后,可以从语音识别结果中自由选择文本片段或说话人,然后单击剪辑按钮即可获取所选片段对应的视频片段。

打开网易新闻 查看精彩图片

体验地址:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary

开源地址:https://github.com/alibaba-damo-academy/FunClip

6. 腾讯元器和腾讯元宝上线

腾讯元器是基于腾讯混元大模型的一站式AI智能体创作与分发开放平台,用户可以通过提示词、插件、工作流、AI辅助创建等能力,低门槛创建专属AI智能体。创建好的智能体还可以发布到QQ、微信、腾讯云等腾讯全域分发渠道,优质智能体有机会获得流量扶持。

打开网易新闻 查看精彩图片

腾讯元器可通过官网申请体验:https://open.hunyuan.tencent.com/my-creation

腾讯元宝是混元大模型面向个人的助手App,针对工作效率场景提供AI搜索、AI总结、AI写作能力;针对日常生活场景,元宝新增创建个人智能体、口语陪练等玩法。目前,腾讯内部有超600个业务及场景已接入腾讯混元。

打开网易新闻 查看精彩图片

腾讯元宝官网:https://yuanbao.tencent.com/chat/naQivTmsDa

7. 网易天音AI工具全面开放

网易天音平台已对网易云音乐的全部用户开放使用权限。据介绍,网易天音具备词、曲、编、唱、混等音乐创作全流程的AI创作辅助功能,具备生产力级别的专业音乐创作水准。

此外,网易云音乐App同步开启“神奇礼物店”活动,用户参与活动即可生成“AI音乐”关键词,可在网易天音官网进行AI创作时使用。

打开网易新闻 查看精彩图片

网易天音官网:https://tianyin.music.163.com/

打开网易新闻 查看精彩图片

5个AIGC热门案例
1. 丑萌的黏土AI滤镜席卷全网

最近,一款AI黏土风滤镜席卷了小红书、抖音等平台,走的还是另类丑萌风,用户可以一键将自己的照片转换成黏土风格,也可以做成旅行vlog转场、定格动画、Live动态图。

打开网易新闻 查看精彩图片

这款滤镜来自于AI制图应用Remini,五一期间Remini日下载量飙升至38万+,占据苹果中国区Appstore免费榜Top 1多日。美图秀秀、Uni Dream等本土应用也随后上线了类似的黏土滤镜。

不过AI技术在处理不同文化背景和性别的照片时存在局限性,这类AI滤镜如何避免昙花一现也是需要长远考量的问题。

2. 用扣子创建AI论文助手

5月9日,B站科技区UP主“林亦LYi”发布视频分享自己搭建AI论文助手的经历,尝试用AI切实提高写论文的生产力。目前该视频播放量近40万。

UP主选择的工具是能够引用外部插件、支持知识库匹配、可以快速搭建工作流的字节扣子。我们只需在创建Bot时提前布入几个插件,便可以让扣子像写论文一样尽量查阅扎实的专业内容。我们还可以将复杂的任务拆解为“摘要”“选题意义”“方法”“结论”“参考文献”五个意图,并为每个意图分别定制不同的分析模型。

打开网易新闻 查看精彩图片

https://www.coze.cn/s/ijjuhDsn/

需要注意的是,AI也许能提供一定写论文的思路,降低写论文的难度,但AI不能代替严谨的科学研究。使用AI伪造和篡改数据,属于严重的学术不端。

3. 新中式美学已被AI狠狠拿捏

近日,小红书博主“不言而喻”发布了一篇AI绘画作品,使用奇域AI生成了“立夏石榴花开”这一意象,目前获赞超1万。

打开网易新闻 查看精彩图片

从小红书的其他作品数据来看,新中式AI绘图可谓涨粉神器。博主“不言而喻”自今年3月17日起开始发布新中式风格的AI绘画作品,目前收获粉丝1.7万,获赞与收藏超8.9万。

奇域AI由小红书官方出品,定位为专注中式美学的创作社区,用它创作的国风作品不会像Midjourney或Stable Diffusion那样夹杂日式动漫风格和西方元素,比较符合国人审美。

4. 用AI分析我和男友的3万行聊天记录

5月20日,小红书博主“清华取经柴”分享了一个有趣的AI玩法——用Kimi分析情侣的聊天记录。首先将微信的聊天记录导出到电脑本地,格式为txt或word,然后在Kimi网页端上传聊天记录文件即可提问。

比如Kimi根据博主和男友三万行的聊天记录,分析了两人相识相恋的发展历程;也能基于聊天记录中的互动和语言表达,总结情侣不同的性格特点;Kimi还能猜出是谁先追的谁,以及提炼总结两人约定好要做的事情清单。

打开网易新闻 查看精彩图片

目前这条小红书图文笔记的浏览量超6万,获赞超1.1万。借助AI的分析,情侣或好友能够从过去的海量数据中看到彼此的想法和感受,如果担心隐私泄露的话,可以选择删除会话数据。

5. 抖音“AI证件照”特效爆火

抖音官方近期了“AI证件照”的特效,共有4种特效模板,其中“AI证件照·女”显示已有超120万人使用过。

打开网易新闻 查看精彩图片

操作方式与其他AI写真类产品类似,需要先上传3~10张人像照片来制作数字形象,然后AI生成证件照。不过目前制作的等待时间很久,许多用户反映超过1700分钟,即28小时。

从网友们晒出的照片来看,生成效果普遍不错,与本人长相相似度高,磨皮提亮等美颜效果也比较自然,其中一条视频最高获赞超30万。

「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、在看

一起研究AI