知常久

各位科技发烧友们，最近开源社区又炸了！这次的主角是谷歌的Gemma 3，但更劲爆的是Unsloth团队带来的优化方案，简直是老黄（英伟达）显卡的福音！
先说重点：Unsloth让Gemma 3的微调速度提升了1.6倍，显存占用减少了60%！这意味着什么？意味着你手里的24GB显卡，不仅能轻松驾驭Gemma 3（12B），甚至连27B的大模型都能跑起来了！而且，还能支持更长的上下文长度，足足提升了6倍！这对于需要处理长文本的任务来说，简直是质的飞跃。等等，还没完！如果你还在用老显卡（比如Tesla T4、RTX 2080），可能会遇到梯度爆炸的问题。别慌，Unsloth已经帮你自动修复了！还有Gemma 3模型中重复的BOS token，Unsloth也一并搞定，保证你的微调过程顺畅无阻。 Unsloth现在支持的功能简直是全家桶级别：完整微调、预训练，各种模型（Mixtral、MoE、Cohere等等），各种算法（DoRA）统统不在话下！更让人激动的是，Unsloth还提供了免费的Colab Notebook，让你可以在免费GPU上微调Gemma 3（4B）。而且，他们还上传了动态4-bit量化版本，效果拔群！当然，如果你想更深入地了解Gemma 3，Unsloth也提供了详细的教程，教你如何正确运行Gemma 3，并修复了GGUF无法处理视觉信息的问题。记住，Gemma团队推荐的参数是：temperature = 1.0, top_p = 0.95, top_k = 64。最后，如果你想更新Unsloth，只需一行代码：pip install --upgrade --force-reinstall --no-deps unsloth unsloth_zoo 总之，Unsloth这次带来的优化方案，不仅让Gemma 3的微调变得更加高效，也让更多人有机会体验到大模型的魅力。还在等什么？赶紧上手试试吧！一些国外网友也对Unsloth赞不绝口： * 有人用Radeon XTX显卡，在LM Studio上运行Gemma 3，8k上下文，24GB显存占用，效果非常满意。 * 有人说Unsloth从未让人失望，期待他们能优化Moondream模型。 * 还有人说Unsloth现在支持完整微调，简直是LLM微调的必备工具。看来Unsloth这次是真的火了！

知常久

#萌芽计划·新人创作挑战# 今天回家发现桌上有个红包，谁给的呢？后来才知道是儿子化学考了A +化学老师发的。不止他一人，满分是¥10，A+5块，而且是老师自掏腰包。有点不知说啥好。现在的老师都这么卷吗？🌮

知常久

最近，一家名为Sesame的公司发布了一款号称“会话语音模型”（CSM）的产品，结果却引发了科技圈的一阵争议。这波操作，咱就先用三个字概括：不地道！
事情是这样的，Sesame先是放出风声要做一个CSM，吊足了大家的胃口。结果呢？放出来的东西，用网友的话说，就是一个“文本转语音”（TTS）模型，还硬往CSM上靠。更让人无语的是，这玩意儿还没开源！这事儿要是他们一开始就说不开源，估计大家也没啥意见。问题就出在他们用“开源”这个概念来做营销，这就不太厚道了。这年头，技术开源共享才能推动发展，闭门造车只能把自己玩死。有网友一针见血地指出，他们只是把开源当成了一种营销手段。还有人疑惑，他们Hugging Face上的10亿参数模型在A100上运行速度只有半实时，而Maya demo至少是实时的，而且模型参数规模更大，这到底是怎么回事？不过，也有一些理性的声音。有网友分析说，Sesame放出的只是demo中使用的一小部分CSM，demo实际上是一个复杂的组合，包括LLM（可能是Gemma的变体）、CSM、STT（某种Whisper变体）和VAD等组件。简单来说，这个CSM就是一个LLM+TTS的结合体，LLM部分负责控制TTS的参数。虽然还不能完全算是语音到语音的模型，但如果把它放在一个流媒体管道中，就能很逼真地模拟出来。但问题也来了： * 他们放出的代码不包含流水线的其他部分，需要用户自己搭建。 * 放出的模型只是一个基础模型，没有针对Maya或Miles的声音进行微调，而且没有训练代码。 * 即使是他们放出的10亿参数模型，速度也慢得令人发指。本来大家还指望80亿参数的模型能本地运行，结果发现即使是10亿参数的模型，由于架构选择的问题，也很难达到实时速度。当然，如果你真的想要demo中的声音，Prompt还是可以的。总而言之，Sesame这次的操作，有点挂羊头卖狗肉的意思。他们给了你工具，但能不能玩出花样，就看你自己的本事了。与其说是开源共享，不如说是抛出一个半成品，让大家自己去填坑。这种做法，真的让人有点失望。毕竟，技术圈最看重的还是真诚和开放。希望Sesame能吸取教训，以后少玩这种虚头巴脑的东西，多拿出点真材实料，这样才能赢得大家的尊重。当然，咱们也不能一棍子打死。也许Sesame只是想试探一下市场反应，或者有其他的考虑。但无论如何，真诚沟通、开放合作才是正道。希望他们能及时调整策略，真正做到技术共享，为语音技术的发展做出贡献。毕竟，技术进步最终受益的还是我们每一个人。

知常久

兄弟们，AI圈又炸了！这次的主角是谷歌的Gemma 3，一个号称指令理解能力超强的模型。但是，总感觉少了点什么？没错，就是“原生工具调用”！简单来说，就是让模型像钢铁侠的贾维斯一样，能直接调用外部工具解决问题。
等等，没有原生支持就没辙了吗？当然不！这位老哥直接魔改Gemma 3，硬生生给它加上了“工具调用”功能。方法其实挺巧妙，就是把工具的描述和调用方式，像贴膏药一样贴在系统提示的屁股后面。Ollama会识别这些工具信息，然后注入到系统提示中。关键在于如何解析工具调用。Ollama会检测模型输出的第一个token是不是“”。如果是，它就会启动解析器，把模型输出的工具调用信息，填充到tool_calls字段里，而不是content字段。这就像给模型装了个外挂，让它能正确地发出工具调用指令。这位老哥还真做了个实验，用Gemma 3成功调用了一个加法函数。虽然这套方案不是百分百靠谱，但只要模型听话，大部分情况下都能正常工作。这简直是给其他想要“工具调用”功能的模型，打开了一扇新的大门。有老外也做了测试，发现Gemma 3的4B版本理解工具调用能力有限，换成12B版本就好多了。看来，模型大小还是有影响的。总而言之，这波操作骚气十足！它告诉我们，即使没有官方支持，也能通过巧妙的方法，给AI模型赋予更强大的能力。这不就是咱们一直追求的吗？动手，折腾，让AI更好地为我们服务！

AI交流圈

知常久

## 谷歌Gemma 3深度解析：算力狂飙还是另辟蹊径？
最近一直在关注谷歌Gemma 3的技术细节，发现了一些有趣的现象，想和各位探讨一下。这次谷歌似乎在模型设计上玩了点新花样。 **关键发现：** * **FFN规模爆炸：** Gemma 3的12B和27B模型，其前馈神经网络（FFN）的规模远超Qwen2.5同等规模的模型。这预示着谷歌可能正在加大单层内的算力投入。 * **隐藏层规模缩减：** 为了平衡FFN的膨胀，Gemma 3的隐藏层规模（d_model）相比Qwen有所降低。这或许是一种巧妙的策略，在保持内存效率的同时，最大化FFN的影响力。 * **Head数量差异：** 整体head数量减少，但4B模型的kv_heads数量却更多。这让人不禁猜测，谷歌是否在尝试他们自己版本的MQA或GQA。 * **训练数据量猛增：** 训练tokens数量大幅提升，例如1B模型达到2T，12B模型达到12T。这表明谷歌对Gemma 3的训练下了血本。 * **上下文长度性能：** 预训练使用了32k上下文长度，这并不常见。更大的模型更容易进行上下文扩展，只在全局注意力层增加rope(10k->1M)。 * **架构调整：** 没有softcaping但有QK-Norm，同时使用了Pre和Post Norm。 **可能的影响：** * **算力至上？** FFN的规模表明，谷歌可能正在投入更多的原始算力。这意味着他们可能已经优化了架构的其他方面，现在正在挑战硬件的极限。 * **KV缓存优化：** 谷歌似乎正在优先考虑KV缓存的优化。 * **规模法则依旧有效？** 更大的FFN带来的收益是线性的吗？我们是否看到了收益递减？这对我们所熟知的规模法则有何影响？ * **“4B模型反常”：** 4B模型的kv_heads数量相对较高是怎么回事？这仅仅是针对该规模的优化，还是实验性的偏差？ * **知识提炼策略？** 早期分析表明，他们使用了小模型与大模型教师知识提炼方法。 * **本地-全局比例：** 他们测试了本地：全局比例对困惑度的影响，发现影响很小。 **网友评论精选：** * 有网友认为，架构调整可能是为了更好的多语言性能。 * 有网友表示，Gemma3-1b比Qwen2.5 0.5B更好，但似乎不如Qwen2.5 1.5B。 * 还有网友猜测，考虑到大多数架构都受内存带宽限制，谷歌可能认为转向计算需求更高的架构可以更好地平衡系统。 **所以，各位怎么看？** 谷歌是在Gemma 3上押注算力吗？这些架构调整会带来显著的性能提升，还是仅仅为了榨取边际收益？欢迎留言讨论！让我们一起挖掘Gemma 3背后的秘密。

AI交流圈

知常久

国内AI独角兽DeepSeek（深度求索）又扔出了一颗重磅炸弹——DeepEP！这可不是普通的玩意儿，而是专门为MoE（混合专家模型）和EP（专家并行）量身打造的通信库。简单来说，它能大幅提升AI模型的运行效率，尤其是在大规模并行计算中。
DeepEP的核心在于其高性能、低延迟的All-to-All GPU内核，这玩意儿说白了就是MoE模型中负责“分发”和“合并”计算任务的引擎。更牛的是，它还支持FP8等低精度运算，这意味着可以用更少的资源跑更大的模型，简直是降本增效的神器！当然，DeepEP也有点小门槛，目前只支持Hopper架构的GPU，比如H100、H200、H800这些顶级卡。消费级的显卡暂时就别想了，等等后续更新吧。 GitHub链接已经给你们安排上了想尝鲜的赶紧去clone下来研究研究。更有意思的是，有老外扒出了DeepEP为了追求极致性能，竟然用上了NVIDIA PTX指令集中未公开的“黑科技”：`ld.global.nc.L1::no_allocate.L2::256B`。这玩意儿就像是给GPU开了个后门，虽然存在一定风险，但在Hopper架构上经过测试，性能提升非常明显！评论区里有老外一针见血地指出，DeepSeek之前跑得慢，很可能就是因为这个通信问题。如果DeepEP真能大幅提升推理速度，那本地部署大型AI模型就指日可待了！甚至有人说，DeepSeek身上有种80、90年代那种黑客精神，敢于挑战极限，这种“车库文化”实在让人热血沸腾！所以，各位Geek们，准备好迎接DeepSeek带来的新一轮技术风暴了吗？赶紧去GitHub上下载DeepEP，一起探索AI加速的未来吧！

知常久

各位硬核玩家，最近我在LLM结构化输出方面发现了一个新玩意儿，必须拿出来和大家分享一下！
大家有没有遇到过这种情况：让LLM生成JSON、XML，结果总是格式不对，简直让人崩溃！现在，救星来了！这个名为Proxy Structuring Engine (PSE) 的工具，号称能100%保证输出结构的有效性，简直是强迫症患者的福音。作者说，他们看不惯市面上现有的库，所以自己撸了一个。PSE 的核心在于“推理时引导”，就像给模型加了个安全护栏，既能保证输出格式正确，又不限制模型的创造力。这听起来是不是有点像小时候玩的益智玩具？更牛的是，他们做的 benchmark 测试表明，PSE 在生成质量和速度上都超过了 Outlines 和 LM-Format-Enforcer 这些同类竞品。这年头，效率就是生命啊！ PSE 是开源的（Apache 2.0 协议），安装也很简单，一行命令搞定：`pip install pse`。而且，它可以轻松地与你的本地模型集成。这意味着什么？意味着你可以完全掌控你的数据，不用担心隐私泄露问题。当然，也有一些网友提出了疑问，比如 PSE 是否适用于所有云服务提供商，以及这种“引导式”框架是否会降低模型的智能。这些都是值得深入探讨的问题。总而言之，如果你正在为LLM结构化输出问题烦恼，或者对这个领域的新技术感兴趣，不妨试试 PSE。说不定它能给你带来意想不到的惊喜！ P.S. 听说有人觉得这个东西有点像 Guidance，大家可以对比研究一下，看看哪个更适合自己。

知常久

## 96GB VRAM 狂想：打造你的专属AI 编程助手？
手握 96GB 显存（四块 RTX 3090），你会用来做什么？最近在国外科技论坛上，有位老哥抛出了这个问题，引来无数极客畅想。除了常规的跑 Doom 之外，最吸引人的莫过于利用大显存，训练一个能理解你代码的 AI 编程助手。 **AI 编程助手：不止是代码提示** 这位老哥的想法是，让 LLM (大型语言模型) 学习自己的代码库，成为一个可以深度交流的“代码伙伴”。它能理解你的编程风格，帮你寻找 Bug，协助你设计新功能，甚至参与代码重构。这可比简单的代码提示智能多了！ **硬件就绪，模型呢？** 虽然 96GB 显存已经相当可观，但也有网友指出，目前开源模型的水平与 OpenAI、Claude 等公司的闭源模型相比，仍有差距。DeepSeek R1 是个例外，但想在 96GB 显存里塞下它，难度不小。不过，对于 4x 3090 的配置，还是有一些不错的选择，比如 Mistral Large 2411、Qwen 2.5 72B 和 Qwen 2.5 Coder 32B。 **网友支招：工具组合拳** 除了直接运行大型模型，还有网友推荐使用 VSCode + Cline + Ollama + hhao/qwen2.5-coder-tools:32b-q8_0 这样的组合。通过 Ollama 运行 Qwen 2.5 Coder 模型，再利用 Cline 将其集成到 VSCode 中，就能获得强大的代码理解和生成能力。 **更多脑洞：互联网模拟器和模型微调** 除了 AI 编程助手，还有网友提出了更有趣的想法，比如用 Python、LLM 和 Stable Diffusion 打造一个互联网模拟器。或者利用 96GB 显存，对 7B 模型进行微调，让它们更好地适应特定任务。 **总结：无限可能，等你探索** 96GB 显存的潜力远不止于此，关键在于你的想象力。无论是打造 AI 编程助手，还是探索其他前沿应用，都值得我们去尝试和探索。你有什么更有趣的想法？欢迎在评论区分享！

知常久

各位硬核玩家们，AI 圈又有新搞头了！Ozone AI 团队最近推出了一款名为 Reverb-7b 的新模型，号称在 7B 级别里性能杠杠的。这玩意儿基于 Qwen 2.5 7b 微调，用 Claude 3.5 Sonnet 和 GPT-4o 蒸馏出的 2 亿 tokens 数据喂养，听起来就实力不俗。
他们自己跑了 MMLU Pro 基准测试，结果相当亮眼，直接叫板 Open LLM Leaderboard 上的其他 7B 模型。尤其是在 MMLU Pro 这个硬骨头数据集上，Reverb-7b 更是秀了一把肌肉，平均准确率达到了 0.4006。虽然完整评测还没出来，但从目前的数据来看，在生物、经济、心理学等领域都表现不错。当然，也有老哥比较冷静，指出高 MMLU Pro 分数可能意味着模型在创意写作方面会比较吃亏，文风可能偏向理工科式的严谨，缺乏想象力。不过，对于需要处理 STEM 领域任务的场景，Reverb-7b 应该是个不错的选择。 Ozone AI 团队还透露，14B 和 2B 的模型也在路上，看来是要在开源 LLM 领域搞一波大的。感兴趣的可以去 Hugging Face 上下载体验，地址：[https://huggingface.co/ozone-ai/Reverb-7b]，记得回来分享你的使用感受！说不定能发现什么新大陆。 **网友评论精选** * 有人猜测，那 2 亿 tokens 是不是 Sonnet 和 4o 对 MMLU Pro 的解答？（细思恐极） * 有人好奇，这玩意儿和 Llama 3.1 8B 或 Qwen 2.5 7B 比，有啥不一样？ * 也有人关心德语表现如何。 * 有人一针见血：基于 Qwen 的模型，创意写作估计够呛，尤其还是 7B 的。MMLU Pro 分数高，模型就不好？理工科向，文笔枯燥，缺乏词汇量。 Reverb-7b 到底怎么样，还得各位自己去体验一番。是骡子是马，拉出来溜溜才知道！

知常久

各位科技控们，最近AI圈有点意思，咱们来聊聊大模型是不是撞墙了！
还记得2023、2024年那会儿，OpenAI天天喊着“大力出奇迹”，仿佛只要GPU管够，模型就能一路开挂。那句“线往上走”的scaling laws，简直成了科技界的信仰。但最近，风向好像变了。Grok 3号称用了10万块H100 GPU，算力是GPT-4和Claude 3.5 Sonnet的十倍，结果呢？能力上也就打个平手。说好的AGI、ASI呢？难道AI真的到瓶颈了？更让人觉得“有猫腻”的是，OpenAI和其他大佬们突然对“scaling”闭口不谈了。他们不再像2020-2024年那样死磕大模型，反而开始琢磨如何把模型做小，同时研究其他技术。Anthropic甚至悄悄删除了Claude 3.5 Opus的博客文章，啥解释都没有，这葫芦里卖的什么药？外国网友们也炸开了锅： * 有人说，GPU数量只是训练模型的一个变量，别太当真。 * 有人认为，我们还没撞墙，只是有太多东西要尝试，进步的速度慢下来很正常，而且这并不是坏事儿。 * 还有人一针见血地指出，大家现在意识到LLM并不是真正意义上的AI，期望值太高导致了失望。 * 有人觉得，重点不是撞墙，而是加速！现在一天就能训练出一个小模型，可以并行测试无数的想法，这种“基因算法”式的迭代，才能找到真正的scaling wall。 * 还有人呼吁，等等OpenAI、Anthropic、Google真正发力吧！毕竟xAI还是个新团队，可能只是在用“蛮力”训练模型，没用上最佳实践和优化手段。总结一下，现在的情况可能是： 1. 单纯堆算力可能效果不佳，优化算法才是王道。 2. 大模型推理速度太慢，难以实用，未来的方向可能是数据质量和MoE（Mixture of Experts）架构。 3. AI发展需要时间，别指望一步登天。与其焦虑，不如保持乐观，期待Grok 3.5、GPT-5.0等新版本的到来。总之，AI这玩意儿，水深着呢！咱们吃瓜群众，就坐等大佬们继续表演吧！

AI交流圈

知常久

R1模型最近风头正劲，号称在某些数学问题上表现卓越.
最近有研究表明，R1在泛化能力上与OpenAI的O1模型相比，还是略逊一筹。这并不是说R1不够优秀，而是揭示了一个更深层次的问题：数据集的污染。 **AIME 2025：数据集污染疑云？** 有大佬指出，AIME 2025基准测试集存在一定程度的数据污染问题，很多题目都能在网上找到类似的解法。这意味着，R1的“高分”可能并非完全靠实力，而是提前“背题”了。 **OpenAI：更大的训练集，更广的知识面？** 这项研究暗示，OpenAI可能使用了更多公开数据进行训练，更大的训练集覆盖了更多AIME 2025的题目。换句话说，O1的优势在于其更全面的知识储备。 **深度评测：R1的短板在哪里？** Toloka团队进行了一项深入的调查，对比了O1和R1（以及其他推理模型）。结果表明，R1在以下方面存在不足： * **适应新题目的能力：**当使用全新的题目更新基准测试时（例如，从AIME 2024到2025），R1的性能会下降。 * **专业领域的表现：**在小众领域（例如，大学特定的数学问题）的表现不如O1。 * **非常规领域和技能：**在其他领域（例如，国际象棋）或技能（例如，判断解题思路的正确性）上也有差距。 * **稳定性：**R1更容易出现问题，例如，在国际象棋中走出非法步骤，或陷入无休止的生成循环。一位网友分享了自己的经历：在解决复杂的数学问题时，O3-mini在正确性、尝试次数和速度方面都优于R1。R1需要20分钟才能解决的难题，O3-mini几分钟就能搞定！ **结论：R1虽强，仍需努力** R1无疑是一个强大的模型，但仍有改进的空间。不能盲目相信基准测试的结果，要深入了解模型的优缺点，才能更好地利用它们。这次的“数据集污染”事件也引发了我们对于AI模型训练的思考：如何避免数据污染，提高模型的泛化能力，让AI真正服务于人类，而不是成为“背题机器”？希望AI领域能够继续努力，不断突破，为我们带来更加智能、可靠的工具！

一刻AI圈

知常久

Google 又放大招了！这次他们推出了 PaliGemma 2 mix，一个多才多艺的视觉语言模型（VLM），能干的事情超出你的想象！
先来一波链接，方便大家快速上手： **开源模型：**[https://huggingface.co/collections/google/paligemma-2-mix-67ac6a251aaf3ee73679dcc4] PaliGemma 2 mix 到底有多能打？简单来说，它集多种技能于一身： * **图像描述：** 无论是简洁还是详细的描述，都不在话下。 * **光学字符识别 (OCR)：** 轻松搞定图片中的文字提取。 * **问答：** 根据图像内容回答你的问题。 * **物体检测：** 准确识别图像中的各种物体。 * **图像分割：** 精细地分割图像中的不同区域。这意味着什么？你可以用它来进行定位、图像理解、文档分析等等！而且，如果你想让模型在特定任务上表现更出色，还可以基于它的基础模型进行微调。 Google 这次的目标很明确：展示 PaliGemma 2 的潜力，它可是微调的绝佳选择。官方甚至自豪地说，PaliGemma 2 mix 展现了 PG2 模型可以达成的各种任务。但是，别高兴太早，有用户反馈说 Demo 的表现并不完美，存在 “无法回答”、“描述过于笼统” 等问题。甚至还有人遇到了“把人当水印分割”的尴尬情况。这表明，即使是 Google 出品，也难免有翻车的时候。所以，别盲目吹捧，理性看待。PaliGemma 2 mix 的确展示了 VLM 的强大潜力，但在实际应用中，还需要不断优化和改进。各位可以先体验一下 Demo，亲自评测一下它的实力。

知常久

安卓手机上跑8B大模型，速度起飞300 tokens/秒
在移动设备上处理大型语言模型（LLM）一直是一个技术挑战，但最新的进展显示，Android设备上的神经处理单元（NPU）正在改变这一局面。最近，有测试显示，使用Snapdragon 8 Elite芯片的OnePlus 13手机，在处理Llama 8B模型时，能够达到惊人的300 tokens/秒的速度。这一速度远超传统CPU处理能力的20-30 tokens/秒，标志着移动设备在AI处理能力上的巨大飞跃。这一突破不仅展示了硬件加速的潜力，也为未来移动应用的发展打开了新的大门。例如，更快的处理速度意味着更流畅的语音助手体验、实时语言翻译以及更复杂的AI驱动应用。尽管目前实现这一技术需要大量的专门代码和优化，但随着技术的成熟和开发工具的完善，我们可以期待更多设备将支持此类高效处理。对于科技爱好者和开发者来说，这无疑是一个激动人心的时代。

知常久

OpenAI，这个名义上的非营利组织，正面临一场潜在的私有化风波。据悉，OpenAI的非营利性质意味着其资产必须用于公益目的，而任何向营利性组织的转换都必须以公平市场价值进行。然而，有消息指出，OpenAI的董事会可能正试图以400亿美元的低价将其私有化，而这一价格远低于SoftBank最近对其3000亿美元的估值。
OpenAI的非营利性质赋予了其董事会几项关键权力：终极治理权、AGI（人工通用智能）控制权以及使命执行权。这些权力不仅包括对OpenAI所有实体的控制，还包括对AGI的独家认定权，一旦AGI被宣布，所有相关知识产权将归非营利组织所有，不受商业许可证的限制。然而，这一潜在的私有化行为可能面临法律挑战。根据美国国税局的规定，非营利组织的资产必须以公平市场价值出售，否则可能触发超额收益交易的处罚。此外，OpenAI的董事会还可能因违反信托责任而面临法律诉讼。这一事件不仅关系到OpenAI的未来，也触及了非营利组织如何平衡公益与商业利益的核心问题。随着科技巨头在人工智能领域的竞争日益激烈，OpenAI的这一潜在转变无疑将引发广泛关注。

行业密探