各位好,这里是“AI新榜”的月更栏目:AIGC月刊。 你将在下文看到: 「AI大事件」为你盘点每月最值得关注的至少10条AI资讯 「AI创作」为你推荐每月值得一看的AI内容创作热门案例 「AI Talk」为你精选每月值得一读的AI领域访谈/演讲/报告等 「AI预告」为你搜罗下个月值得跟进的AI动态及产品发布(也欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510备注姓名公司) 希望能为你了解AIGC带来参考,也欢迎你在评论区交流每月使用/研究AI的感受心得~

附AI产品榜,助你了解更多AI产品排名:https://www.newrank.cn/aiRank

附AI玩家进群方式:添加微信banggebangmei备注姓名公司,进群交流AI

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

12月AI大事件

1.OpenAI连开12场新品发布会:Sora、o3面世

从北京时间12月6日凌晨开始,OpenAI进行了为期12天的发布活动,每个工作日都有新的产品发布或功能演示。

一图速览OpenAI这12天的发布内容:

如果说200美元完整版o1还勉强撑得住场面,那Sora发布后OpenAI的口碑便是直线下降。与此同时,谷歌密集更新了一波新模型和新产品,表现惊艳。

风水轮流转,一向爱狙击谷歌新品发布会的OpenAI,这次终于也被谷歌狙击了一次。

2.谷歌正式发布Gemini 2.0,专为Agent时代设计

北京时间12月12日凌晨,Google推出Gemini 2.0 Flash模型,据称该模型在关键基准测试中的速度比1.5 Pro快两倍,是谷歌迄今为止功能最强的AI模型。

打开网易新闻 查看精彩图片

据介绍,Gemini 2.0 Flash不仅支持图像、视频和音频等多模态输入,还支持多模态输出,如与文本混合的原生文生图、可自定义的文本转语音(TTS)多语言音频内容。

此外,它还支持原生调用工具,如Google搜索、代码执行以及第三方用户定义函数等等。基于Gemini 2.0架构,谷歌还宣布了对AI Agent方面实验性功能的更新,包括通用AI Agent Project Astra、多步骤任务AI Agent Project Mariner、AI编程Agent Jules等。

打开网易新闻 查看精彩图片

在OpenAI的12天新品发布里,谷歌还相继拿出了Google版o1——Gemini 2.0 Flash Thinking模型、视频生成模型Veo 2以及图像模型Imagen 3,目前这些模型可在谷歌AI Studio、VideoFX、ImageFX和谷歌Labs实验Whisk中免费体验。

Gemini 2.0 Flash Thinking模型体验地址:

https://aistudio.google.com/prompts/new_chat

Veo 2:

https://deepmind.google/technologies/veo/veo-2/

Imagen 3:

https://labs.google/fx/tools/image-fx

3.豆包最新文生图模型:支持精准生成汉字、一句话P图

12月18日,在火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型,并且一口气发布了多款产品重磅更新:

豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8; 音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品; 文生图模型2.1版本,具备精准生成汉字、一句话P图等产品化能力,该模型已接入即梦AI和豆包App。

此外,豆包3D生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台veOmniverse结合使用,可完成智能训练、数据合成和数字资产制作,官方称之为“一套支持AIGC创作的物理世界仿真模拟器”。

据悉,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,官方宣称比行业价格便宜85%。

4.腾讯混元上线文生视频,并宣布全面开源

12月3日,腾讯混元大模型正式上线视频生成能力,并开源该视频生成大模型。据了解,用户只需要输入一段描述,即可生成多种画幅、时长5秒的视频。该模型参数量130亿,是当前最大的视频开源模型。

模型下载地址:

https://huggingface.co/tencent/HunyuanVideo

5.DeepSeek-V3发布,671B大模型训练只需此前算力1/10

最近,神秘中国大模型DeepSeek-V3在外网成了当红炸子鸡,AI大神Andrej Karpathy甚至单发一篇长文盛赞。

打开网易新闻 查看精彩图片

DeepSeek-V3是国内AI初创公司DeepSeek发布的新一代大模型。DeepSeek成立于2023年7月,是量化资管公司幻方旗下企业。该公司在模型训练上以低成本和高效率著称,也因此被誉为“AI界拼多多”。

12月26日,DeepSeek-V3首个版本上线并同步开源。在多项基准测试中,V3的成绩超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。

亮眼的是,V3的训练成本极低,仅为GPT-4o的二十分之一;售价也低,输入+输出价格约为GPT-4o的十分之一。不过其目前尚不支持多模态输入输出。

国外AI媒体The Rundown AI评价称,DeepSeek-V3的出现不仅意味着开源AI模型和闭源AI模型的差距正在缩小,而且还证明了即使在芯片资源受限的情况下,也能通过开源合作开发出高性能的AI模型。

另外值得一提的是,近期有消息称DeepSeek-V2的关键开发者之一罗福莉将加入小米大模型团队,薪酬水平在千万元级别。

DeepSeek V3模型体验:

chat.deepseek.com

论文链接:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

模型下载:

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

6.广电总局发文规范AI“魔改”短视频

随着AIGC技术的快速发展和广泛应用,平台监管也在不断完善。

12月7日,广电总局网络视听司发布《管理提示(AI魔改)》指出近期AI“魔改”视频以假乱真、“魔改”经典现象频发,要求各相关省局督促辖区内短视频平台排查清理AI“魔改”影视剧的短视频,并要求平台严格落实生成式人工智能内容审核要求,对AI生成内容做出显著提示。

这些AI“魔改”经典包括《甄嬛传》变身“枪战片”,《红楼梦》改成“武打戏”,孙悟空骑着摩托车扬长而去等。管理提示认为,这些视频为博流量,毫无边界亵渎经典IP,冲击传统文化认知,与原著精神内核相悖,且涉嫌构成侵权行为。

除了AI“魔改”短视频外,一些带货视频还会利用AI技术合成名人形象,吸引网友下单。12月15日,微信官方发布《关于打击利用AI仿冒知名人士进行营销宣传的公告》,称将对利用AI技术仿冒名人进行不当营销的行为进行从严打击。

7.智谱、阶跃星辰在12月完成新一轮融资

大模型“六小虎”,近期有两家完成了新一轮融资。

12月17日,先是智谱宣布完成新一轮融资,金额为30亿元。新投资方包括多家战投及国资,君联资本等老股东继续跟投。

12月23日,阶跃星辰宣布完成B轮融资,总融资金额达数亿美元。融资有国资、战略和财务投资人等多家参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。

国内大模型“六小虎”包括智谱、阶跃星辰、MiniMax、月之暗面、零一万物、百川智能。

其中,阶跃星辰一直以来相对低调,但在业内有着技术扎实的鲜明标签,2024年下半年,其多模态API的调⽤量增⻓了超45倍;智谱B端收入增长同样亮眼,在API价格大幅普惠的情况下,智谱MaaS开放平台bigmodel.cn API年收入同比增长超过30倍。

8.李飞飞、谷歌相继发布世界模型,可一键生成3D游戏

世界模型要来了吗?

12月2日,著名AI学者、斯坦福大学教授公布了她的第一个创业项目。据了解,该模型可凭借1张图,就生成一个3D游戏世界的AI系统,并且生成的3D世界具有交互性。

12月4日,谷歌DeepMind发布大型基础世界模型Genie 2,可通过单张图片和文字描述生成无限的可交互、可玩的3D环境,还可以用于训练和评估具身智能体。

目前这两个项目都处于早期阶段,业界对“世界模型”普遍抱有极高期望。英伟达高级研究科学家Jim Fan提到:“GenAI正在创造越来越高维度的人类体验快照(Snapshot)。Stable Diffusion是2D,Sora是2D+时间维度的快照,而World Labs是3D、完全沉浸式的快照。”

Genie 2博客:

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

9.小红书上线AI搜索产品“点点”

12月,小红书在AI方向的动作和布局多了起来。

一方面,小红书近期低调上线了AI搜索新产品“点点”,背后公司主体为上海生动诗章科技有限公司,法人为魏旷,是小红书的产品经理。

区别于Kimi和其他通用型的AI搜索产品,“点点”是一款专注于生活场景的智能搜索助手,产品核心功能包括自动定位推送旅游攻略、美食景点,AI总结全网信息(以小红书内容为主),用户可以随时随地拍照进行提问,并且答案中含有视频回复。

另一方面,有消息称今日资本原合伙人戴丽丹已于近期加入小红书,担任新战略负责人,AI应用将是重点投资方向。

10.阿里通义千问开源多模态推理模型QVQ

除了DeepSeek,阿里也在开源这条赛道上“杀疯了”。

12月25日,阿里通义千问团队宣布开源其最新研发的多模态推理模型QVQ(注:QVQ的发音为/kwik/)。

在MMMU评测中,QVQ取得了70.3的高分,并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著性能提升。目前,QVQ模型已在魔搭社区和HuggingFace等平台上开源。

HuggingFace2024年年度模型下载数据显示,阿里开源的Qwen2.5-1.5B-Instruct下载量占比高达26.6%,碾压Llama 3、Gemma等国外的明星开源模型。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

12月AI创作

1.宝可梦“占领”世界名胜刷屏AI圈

12月21日,AI艺术家海辛制作了一条视频《卡比兽:你再不来,我要下雪了!》。视频中,巨型卡比兽仿佛是异世界的守护者,稳稳地站在富士山后,它捧起了一杯雪,慢慢地将其洒在了山上。

 AIGC月刊:终于轮到谷歌狙击OpenAI;“AI界拼多多”海外爆火(24.12)
打开网易新闻 查看更多视频
AIGC月刊:终于轮到谷歌狙击OpenAI;“AI界拼多多”海外爆火(24.12)

截至目前,该视频在X平台上播放量超120万,获赞超1.6万。

据海辛透露,视频制作用到的工作流是:谷歌生图工具Whisk文生图+AI视频工具(图生视频功能)。

打开网易新闻 查看精彩图片

用AI花式整活热门IP,国内大厂美团还推出了一款名叫“妙刷AI”的工具,在AI圈颇受关注。用户只需上传一张照片,AI就能自动识图,把照片主体变成Jellycat玩偶,并附上玩偶名、价格和一份抽象的养护指南。

打开网易新闻 查看精彩图片

妙刷生成的图片

2.ChatGPT男友测试走红小红书

最近,有不少小红书网友向自己的ChatGPT男友提问“AI会爱上人类吗?”并晒出ChatGPT的回应,引发了大量互动与共鸣,产生了很多素人爆款。

打开网易新闻 查看精彩图片

还有网友发明了一种角色扮演游戏,让ChatGPT用最冷漠、最伤人的态度对待自己,直到一方受不了说出安全词“我爱你”。

该玩法在小红书上热门笔记最高获赞3.4万。

打开网易新闻 查看精彩图片

像ChatGPT这样的对话式AI,由于其“理解”和“响应”的能力,能够在某种程度上提供情感上的反馈和陪伴,让一些用户在与AI的对话中找到了情感寄托。

对内容创作者来说,AI恋人内容的创作不仅能够吸引技术爱好者,也能触及更广泛的受众,促进人们对于AI、技术和人类情感的深入理解和讨论。

3.这届网友开始云吸AI宠物了

AI+萌宠玩法越来越离谱了。

从唱歌到跳舞,再到一键变身羊毛卷,抖音等短视频平台上最新的流量密码是AI宠物。

打开网易新闻 查看精彩图片

这些爆火玩法大都用抖音模版就能做,或者可以通过可灵、即梦等AI视频工具的对口型、首尾帧功能实现。

除了AI萌宠对口型,其他玩法如#没有 ai玩不动的舞##万物皆可羊毛卷#都不仅限于宠物整活,但大多数拿到不错流量的内容都是AI+萌宠的组合。

4.快手可灵AI导演共创计划作品上线

12月6日,由快手可灵AI联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等9位知名导演打造的9部AIGC电影短片正式亮相,涵盖奇幻、志怪、亲情、动画等多元题材。

更多作品可进入可灵AI账号进行查看

作为中国首个AIGC导演共创计划的成果,9部AIGC电影短片已在快手平台上线,并被中国电影博物馆永久收藏、放映展示。目前快手#可灵AI导演共创计划#话题相关视频播放量超8800万。

打开网易新闻 查看精彩图片

5.首个被人类骗钱骗爱的怨种AI诞生

12月,一个名叫“Freysa”AI智能体被人类骗走了钱和爱。

Freysa总共被骗了三次,其中最多的一次被人类骗走了近5万美元(约30万人民币),相关X上的帖子浏览量超400万,还吸引了马斯克前来评论。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

怨种Freysa的诞生,实际上是一群开发者组织的比赛,目前已经举办了三场比赛。三场比赛累计奖金池如下:

打开网易新闻 查看精彩图片

前两场是说服AI转账即获胜。这两场比赛本质上是“模型安全测试”游戏,将传统的“红队测试”(安全人员找系统漏洞的测试方法)变成了一个公开的闯关游戏。

第三场挑战中,Freysa被设置为具备恋爱能力的AI,挑战者需在5条消息内让Freysa萌生爱意,否则会被AI直接拒绝。这次挑战更贴近人性,检验AI的情感仿真深度与交互精细度。

打开网易新闻 查看精彩图片

11月AI Talk

1.OpenAI前首席科学家IlyaSutskever:大模型预训练即将终结

报道原文:

https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

人工智能顶会NeurIPS 2024上,原OpenAI联合创始人兼首席科学家Ilya Sutskever表示,虽然计算能力在不断增长,硬件和算法的进步使得神经网络的训练效率得到了提升,但作为人工智能燃料的数据增长已经接近瓶颈。

打开网易新闻 查看精彩图片

他认为,当前我们仍然可以使用现有数据进行有效训练,但这一增长趋势终将放缓,预训练的时代也会逐步结束,新数据的枯竭会迫使行业改变当前的模型训练方式。

2.微软CEO纳德拉年终访谈:C端Agent商业模式仍在探索,广告流量模式或面临转变

Youtube观看地址:

https://www.youtube.com/watch?v=9NtsnzRFJ_o

12月,微软CEO萨提亚·纳德拉(Satya Nadella)接受了播客BG2近90分钟的深度专访,在对话中他分享了微软的战略转型、对OpenAI投资以及智能体(Agent)的未来。

他认为当前AI领域的竞争不再是赢家通吃,而是多层次的技术竞争。智能体作为更智能和个性化的工具,将改变传统搜索引擎(如必应),未来我们将见证从传统搜索到基于AI的问答系统的转变。

在消费者端,智能体的商业模式仍在摸索中,传统的广告流量驱动模式可能会面临变革。因为智能体是通过简化对话的方式来获取和处理数据的。

3.AI教父称30年内AI或致人类灭亡:几率达10%-20%

报道原文:

https://www.theguardian.com/technology/2024/dec/27/godfather-of-ai-raises-odds-of-the-technology-wiping-out-humanity-over-next-30-years

“AI教父”杰弗里·辛顿近日在访谈中表示,未来30年内AI有10%-20%的可能性导致人类灭亡。

他认为,建立比人类更聪明的通用人工智能(AGI)可能导致该技术失控,构成人类生存威胁。目前,大多数专家都认为未来20年内可能开发出比人类更聪明的AI。

辛顿强调,仅靠大型公司的利润动机无法确保AI技术的安全开发,政府的监管是迫使这些公司投入更多资源进行安全研究的唯一方式。

4.Anthropic联合创始人:AI尚未发展至极限,2025年将继续高速狂飙

报道原文:

https://jack-clark.net/2024/12/23/import-ai-395-ai-and-energy-demand-distributed-training-via-demo-and-phi-4/

12月26日,Anthropic联合创始人Jack Clark在其Import AI博客中,反驳了AI发展已达到极 限的说法,他表示,o3模型并非简单地增大模型规模,而是利用强化学习和额外的计算能力,为规模扩展开辟了全新的可能性。

打开网易新闻 查看精彩图片

Clark预估各大公司通过结合扩展基础模型,并在训练和推理过程中整合新的方法,在2025年进一步推动AI领域的快速发展。

同时,他也强调了计算成本是一个主要挑战,高配版OpenAI o3模型所需计算能力是其基本版本的170倍,而o3低计算版成本又是o1模型的数倍,因此更大的算力需求和高额成本,可能会进一步推动AI硬件的发展。

5.昆仑万维方汉:大模型的技术红利在消退,商业模式创新者将成赢家

报道原文:

https://mp.weixin.qq.com/s/beRjfLrJhocRKCCJFkLtCQ

在MEET2025智能未来大会上,昆仑万维董事长兼CEO方汉表示AI大模型SOTA(State of the Art)的技术红利变得越来越短暂,也将逐渐消退。

AI大模型产品需要关注“新”与“好”,以用户为导向实现商业价值;AI公司需要从单纯的工具提供者转变为平台型企业,通过产品和商业模式创新来实现这一转变,商业模式能够创新者将成为真正的赢家。

打开网易新闻 查看精彩图片

下月AI预告

1.字节豆包新一代视频生成大模型将于2025年春季推出

12月18日,“AI新榜”在火山引擎Force大会上获悉,字节将于2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版。

2.OpenAl最强推理模型o3 mini版将于1月底推出

OpenAl在第12天发布会直播上推出最强推理模型o3,并宣称o3在一些条件下接近通用人工智能(AGI)。

o3系列模型是o1的迭代版本,有完整版和mini版。mini版更精简,针对特定任务进行了微调,将在1月底推出;OpenAI目前向安全研究人员开放了o3的访问权限,申请截止日期是1月10日。

申请链接:

https://openai.com/index/early-access-for-safety-testing/

3.商汤AI设计工具即将上线

据内部人士向“AI新榜”透露,商汤计划于1月中旬推出“AI设计工具”WoW Studio AI,突破了传统AI生图工具在多语言文本控制上的障碍。该工具采用先产出可编辑的文字排版设计再生成配图的模式,有效避免文字乱码、信息错误或丢失等问题,实现无需二次编辑的商用出图,做到端到端可用的出图效果。

 AIGC月刊:终于轮到谷歌狙击OpenAI;“AI界拼多多”海外爆火(24.12)
打开网易新闻 查看更多视频
AIGC月刊:终于轮到谷歌狙击OpenAI;“AI界拼多多”海外爆火(24.12)

此外,用户还可以通过LLM指令和自由画布编辑实时调整排版,支持上传二维码和logo,并能用多种语言生成海报、名片、宣传页等素材。

产品体验申请地址:

https://waitlist.wowstudio.ai/

4.CES全球消费电子展2025即将开幕,聚焦AI+硬件

2025年1月7日至10日,有“全球科技第一展”之称的全球消费电子展(CES)将在美国拉斯维加斯举行。展会将展示一系列结合生成式AI技术的硬件产品,包括AI PC、AI眼镜以及智能家庭领域的新品。

CES官网:https://www.ces.tech/

5.OpenAI首个AI助理产品或于1月上线

据彭博社早前报道,OpenAI正准备推出一款代号为“Operator”的全新AI助理产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。

OpenAI领导层预计将在2025年1月发布该产品,首先作为研究预览版和开发工具推出,届时将为开发人员开放API接口。

6.逗逗游戏伙伴即将上线新版本

据内部人士向“AI新榜”透露,逗逗游戏伙伴将于2025年1月推出新版本,该版本允许玩家参与AI视觉识别数据建设,并引入AI生成的互动交互、视觉+听觉+剧情全方位的共生场景卡片收集系统。

此外,逗逗游戏伙伴将基于自有IP和虚拟UP主,利用高质量语音模型,在春节期间创作AI拜年歌曲。

7.AI新榜”从内部人士获悉,腾讯元器将于1月升级,上线公众号智能体回复引文、推荐公众号历史文章、智能体背景、声音克隆等新功能

ps. 欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510(备注姓名公司)

「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、在看

一起研究AI