emojiGPT

不是玩具,能写故事,覆盖训练推理全流程

8,704 参数 · 160 词汇 · 30 秒训练 · 零依赖 · 一个 HTML

你好,我是文兄,原谅我在标题里用了一惊一乍的词汇,这太不符合MindCode的调性了,但我完全理直气壮,因为:

我将向你发布,我亲手搓的,并且可能是你最近看到的最炸裂的东西:emojiGPT

目前已知的信息看,它应该是世界上最小的、功能可用的、完整的、并能完成有意义的推理成果的GPT“大”模型。

它只有44kb,如果剔除掉训练管理后台UI,估计只有几k,但是它…(…好吧,我词穷了…)就是很强!

这是它的样子:

打开网易新闻 查看精彩图片

▲ 打开页面就是这样。所有超参数都能调:embedding 维度、注意力头数、层数、学习率、温度。训练数据也可以直接编辑。

默认配置下,emojiGPT有8704 个参数,160 个词汇,你训练的时候还可以自由调整。

对比一下,GPT-4 有 1.8 万亿参数,emojiGPT是它的两亿分之一。

但它不是玩具,是真训练,真推理!

emojiGPT 覆盖从模型训练到正式上线的全步骤,包括:数据准备-训练-验证-线上推理。

以下就是训练结束后的验证环节,模型会自动生成 8 条样本故事供你验证:

打开网易新闻 查看精彩图片

▲ 模型自动生成的故事样本。毕业故事、战争故事、失恋疗愈…

完整架构,不是某种“简化版”

emojiGPT 不是教学简化版、模拟版。它是一个实打实覆盖全部核心组件的 GPT:

· 自动微分引擎 —— 完整反向传播,基于标量 Value 节点

· Transformer 架构 —— 多头自注意力、RMSNorm、MLP、位置编码

· Adam 优化器 —— bias correction + 学习率衰减

· KV-cache 推理 —— 逐 token 自回归生成,实时概率可视化

默认配置:16 维 embedding,4 个注意力头,1 层 Transformer,block size 32。所有超参数、训练数据均可在界面上实时调整。

▲ emojiGPT 配置界面。所有超参数和训练数据均可实时编辑。

它真能推理,能写故事

你能想想这么小的模型就能写故事吗?它真的能…我哭死。这是最有趣的地方,训练完成后,你可以在Playground 里让它给写故事。

你给它一个开头,它会一个 token 一个 token 地往下接,直到最后输出出一个完整的故事。这个故事是用表情符号写的——嗯,这就是它叫emojiGPT的由来。

一个细节,emojiGPT推理的每一步会显示概率分布,你能看到它在犹豫什么,在哪些选项之间纠结。

你问故事质量?这么说吧,这取决于你如何训练它,但仅仅在默认参数配置下,它给到我和MindCode俱乐部同学的经验程度,就可以用震撼来形容。

打开网易新闻 查看精彩图片

▲ 输入 (日出、公鸡、音乐)后的推理过程。模型续写了完整的早晨场景。底部的概率条显示了模型对每个 token 的置信度。

价值?不只是教学,是真有用

关于受挫emojiGPT的初衷,确实只是为了咱们MindCode企图心俱乐部的训练营。但做出来之后,才发现它的可能性太大了:

AI 教育 —— 这是最基本的价值,可以说emojiGPT能把现今的AI教育往前推进一大块。

对绝大多数人来说,emojiGPT让你可以严肃、真实地体验一把训练模型的全过程,你将获得对GPT的深刻理解,既有逻辑上的,也有体感上的。

你能亲眼看到完整的 pipeline:数据 → 训练 → loss 曲线 → 推理 → 生成。调个参数看看会怎样,乃至故意把模型搞坏,看看会怎样。你甚至可以进行消融实验。这在以前是不可想象的。

再说一遍,不是玩具,不是模拟!是非常严谨、真实的看见、操作、体验。过程中你所遇到的,就是一个AI科学家会遇到的。

帮助跨语言叙事 —— 让emojiGPT给你生成故事,实现跨语言交流。

作为创意工具 —— 用生成的故事当即兴写作的 prompt,当派对游戏的题目,当社交媒体的内容素材。

做叙事原型验证 —— 在深入细节之前,先用emojiGPT生成故事框架,把握一个故事结构行不行,几乎零成本。

好吧,我知道它并非那么强大,至少还是不如Opus4.6的,但相比于它的规模和成本,它真的很厉害。

哪里可以玩?

整个项目就一个 index.html 文件。下载后用打开浏览器就可以体验。无需安装任何其他配套软件和依赖,没有任何电脑配置要求,毕竟手机浏览器都行。

随意,无论你是对 GPT 的工作原理好奇,或者是正在/想要从事相关领域,又或者是想用emojiGPT完成特定创意工作,都可以来试试,下载地址:

GitHub 地址:https://github.com/MattWenJun/emojiGPT

技术致谢

emojiGPT 基于 Andrej Karpathy 的 microGPT 和 Xenova 的 microgpt.js 移植版构建。

在相关项目基础上,emojiGPT 做大幅改进和多处关键创新,将其从只能简单的生成英文名字,扩展到能完成基于 emoji 的叙事生成,并新增了训练数据集管理、推理 Playground 等关键环节,以及完整的web端 UI。

好了我知道我写得有点乱,因为emojiGPT确实太强了,很多可以写,反而不知道咋写。

而且手搓大模型这几天,手也累。你好奇的话,直接去下载体验吧,绝对值记得给我的项目点个小星星。

对了,欢迎加入MindCode企图心俱乐部,详情:。

文兄是谁? 科技领域连续创业者,目前在AI+心理领域创业,中美几家AI公司的CEO心智与战略教练,原阿里巴巴早期移动端核心产品负责人。

MindCode是什么? 一个小众公众号,日常短篇+偶尔深度长文。关注AI、脑科学、心理学、创业。因在多领域深入思考,关注者中不乏顶级牛人。

AI时代,读他人之未读对你很重要。关注并发送"1"可加讨论小群,还可参加"读完周报再来聊聊"的闭门交流会。