人工智能研究所AI

人工智能研究所AI

关注
775粉丝
18关注
296被推荐

11枚勋章

python人工智能,大数据,人生苦短,我用python
IP属地:山东
更多信息


  • 内存压缩 6 倍、速度提升 8 倍,零精度损失——TurboQuant 重写 AI 法则 Google Research 悄然发布了一篇注定要在 AI 工程圈引发地震的研究——TurboQuant。没有铺天盖地的发布会,没有华丽的宣传 PPT,只有一套扎实到骨子里的数学推导。然而仅在 24 小时内,这项研究就让内存芯片巨头 Micron 和 Western Digital 的股价同步下跌,Cloudflare CEO 将其称为"Google 的 DeepSeek 时刻",科技圈的讨论蔓延至每一个大模型推理团队的群聊。 TurboQuant 的三剑客:PolarQuant、QJL 与 TurboQuant PolarQuant:零开销的极坐标压缩传统量化的量化常数问题,根源在于它工作在笛卡尔坐标系中:每个维度都需要独立的缩放因子。PolarQuant 的解法是切换坐标系——将向量从笛卡尔坐标转换为极坐标表示。 QJL:用约翰逊–林登施特劳斯变换消除偏差 QJL(Quantized Johnson-Lindenstrauss)借助约翰逊–林登施特劳斯变换(JLT)解决这一问题。JLT 是一种数学技术,能够将高维数据投影到低维空间,同时保留数据点之间的相对距离关系。QJL 将每个向量元素降至单个符号位(+1 或 -1),并使用特殊估计器将高精度查询与低精度存储结合,实现数学可证明的无偏内积估计。 在 NVIDIA H100 GPU 上的性能测试中,4-bit TurboQuant 相较于 FP32 精度的原始 Key 计算,Attention logit 计算速度提升了 8 倍,同时内存减少至少 6 倍。这意味着同等显存预算下,可支持的上下文长度扩展了 6 倍以上。亮点 · 向量搜索表现 TurboQuant 不仅在 LLM KV Cache 压缩中表现优异, 在向量搜索场景同样出色。在 GloVe 数据集(d=200)的 Top-k 召回评测中,TurboQuant 在不依赖大型码本、 不需要数据特定调优的情况下,召回率超越 Product Quantization 和 RaBitQ 等经典基线。 更值得关注的是其索引速度:对 1536 维向量, TurboQuant 的索引时间仅需 0.0013 秒, 几乎实现了"即时索引"

  • 未来软件即将消失?港大CLI-Anything,AI Agent可取代绝大多数 APP 从 GUI 到 CLI:交互范式的根本性转移CLI-Anything 的出现,本质上是在解决一个被长期忽视的问题:如何让 AI Agent 真正"用"起来人类世界的专业软件? CLI-Anything 的颠覆性在于:它用自动化的方式,一条命令就完成整个 CLI 生成流程。它不是替代原有软件,而是为软件生成一个"Agent 原生"的命令行外壳,直接调用真实软件后端执行操作,保留 100% 专业功能 。 CLI-Anything 的思路是从根本上绕开这个困境。它是一个开源的 Claude Code 插件,通过全自动的 7 阶段流水线,将任何拥有代码库的软件转化为 Agent 可原生调用的 CLI 接口。整个过程可以用一句话概括:把 GIMP 的源码扔给它,你就得到一个 cli-anything-gimp,Agent 从此可以用命令行驱动 GIMP 的全部专业能力——不是玩具实现,是调用真实后端。 分析 —— 扫描源代码,将 GUI 操作映射为 API 设计 —— 构建命令组结构和状态模型 实现 —— 生成基于 Click 框架的完整 CLI 测试规划 —— 创建单元测试和 E2E 测试方案 编写测试 —— 实现全面的测试套件 文档 —— 更新技术文档 发布 —— 生成安装包并配置 PATH
  • GPU 算力翻倍,但 AI 却没变快?原因居然是 Softmax
    最近看了一篇非常有意思的论文 FlashAttention-4: 它解决了一个很多 AI 工程师都遇到的问题: GPU 越来越强,但 Attention 还是很慢。 为什么? 答案其实很反直觉。 Attention 是 Transformer 最贵的一层 现在几乎所有大模型 (GPT / Claude / Gemini) 底层都是 Transformer 而 Transformer 最核心的一步就是 Attention。 问题在于: Attention 的计算复杂度是 O(N²) 也就是说: 上下文越长,计算量会爆炸。 所以很多研究都在优化 Attention,其中最著名的就是 FlashAttention。 新 GPU 出现了一个奇怪现象 在新一代 GPU NVIDIA Blackwell 上做测试时,研究人员发现: 真正拖慢 Attention 的, 居然不是矩阵乘法。 而是: Softmax 里的 exp() 指数运算。 原因很简单: GPU 的 Tensor Core 变得超级快,但指数计算单元几乎没变。 结果就是: 算力越强,Softmax 越成为瓶颈。 FlashAttention-4 做了什么? 这篇论文的思路非常聪明: 不用 exp() 了。 而是用 多项式近似来模拟指数运算。 同时重新设计 GPU 的 异步计算 pipeline: * 一边算矩阵 * 一边算 softmax * 一边加载数据 最大化 GPU 利用率。 最终结果: 在 NVIDIA B200 上测试: 🚀 Attention 最高加速 2.7× GPU 利用率达到 71%。 我的一个感受 FlashAttention-4 很有意思的一点是: 它说明未来 AI 的瓶颈可能不再是算力。 而是: * 内存访问 * 非线性函数 * 系统调度 也就是说: 真正的性能突破,很多时候来自底层系统工程。 AI 的世界,远不只是模型结构。

  • OpenClaw 全球“造虾”大战 · 所有🦞都在这里了 一、OpenClaw 是什么? • 开源 AI 智能体框架,让大模型从“聊天”变“干活” • 可接入微信/飞书/钉钉/Telegram 等,自动执行任务 • 图标像龙虾,被网友称为小龙虾 • 2026 年初爆火,引发全球大厂跟进 二、国内大厂“小龙虾” • 腾讯 QClaw:微信/QQ 生态,本地一键部署 • 智谱 AutoClaw:本地开箱即用,预置50+技能 • Kimi KimiClaw:云端托管,24小时在线,长文本强 • 阿里 CoPaw:本地+云端混合,高度自定义 • 字节 ArkClaw:飞书深度适配,云端SaaS • MiniMax MaxClaw:多模态、音色/音乐生成 三、国际源头与重磅选手 • 原版 OpenClaw:奥地利开发者,被 OpenAI 收购 • 英伟达 NemoClaw:企业级安全开源(即将发布) • IronClaw:Transformer 作者出品,安全铁桶级龙虾 • 社区版:ZeroClaw、NanoClaw 等轻量安全分叉 四、核心趋势 • 国内:易用化、IM 生态、一键安装 • 国外:底座开源、安全、企业级 • 本质:AI Agent 从极客走向全民的入口争夺战
  • Transformer作者亲自操刀,用Rust重写铁爪版OpenClaw
    用了两个月的AI Agent,我发现了致命问题 OpenClaw 真的香👇 自动处理邮件、管理Slack、写脚本调接口...效率起飞! 但有一天排查接口问题,我看到请求体直接傻眼: API Key 竟然以明文出现在发给大模型的Prompt里! 模型商服务器能看到、中间人可攻击、第三方工具无隔离... 🤮 就像雇了个全能助理,但他天天把你家钥匙挂在脖子上走來走去... IronClaw 来了 Transformer论文作者+NEAR创始团队,用 Rust 从零重写 这就是 IronClaw——铁爪🏴 5层安全防护,安全感直接拉满💪 核心安全设计 1️⃣ Rust语言 编译期保证内存安全,缓冲区溢出想都别想 2️⃣ WASM沙盒 所有不受信任代码隔离运行,无法访问主机文件网络 "铁爪"的真正含义——不是抓东西,是关东西🔒 3️⃣ 加密金库 AES-256-GCM 加密,LLM 永远看不到明文 4️⃣ 网络白名单 显式声明可访问域名,Prompt Injection 直接拦截 5️⃣ TEE机密计算 托管到云端也不怕,连云服务商都看不到你数据 兼容性 别担心是NEAR自留地! 支持任何 OpenAI 格式接口: - 本地 Ollama(完全离线) - OpenRouter、vLLM - 随便你自己搭的接口 总结 从 OpenClaw 到 IronClaw,是 AI Agent 从「能用」到「敢用」的跨越 能力越强的助理,越需要 一个可以信赖的「铁笼子」🏢 #AI #Agent #安全 #Rust #WASM #IronClaw #技术分享 #效率神器 #编程 #科技
  • OpenAI 发布 GPT-5.4!这波更新真的太强了😱
    这次不是小修小补,是实打实的重大升级: 🚀 百万Token上下文 长文档、代码库直接扔进去,不用再分段拼接! 💻 原生电脑操控 可以直接操作电脑、浏览器、应用程序 OSWorld-Verified 得分 75.0%,超过人类水平! ⚡ Token 效率提升 速度快 3 倍,消耗减少 70% 🔍 Tool Search 动态工具 不用每次把所有工具定义都塞进去,按需检索! 🧠 Thinking 模式升级 复杂任务先出计划,还能中途打断调整 📉 幻觉率下降 单条陈述出错降低 33%,事实准确性史上最高 🖼️ 超高清图像支持 最高 1024 万像素,医疗影像、设计稿都能搞定 三个版本: - GPT-5.4:标准版 - GPT-5.4 Thinking:长链推理 - GPT-5.4 Pro:企业级最高性能 企业功能也有更新: ChatGPT for Excel/Sheets + 金融数据接入 AI 正在从对话工具变成自主工作的 Agent,未来可期!#openai #GPT5.4
  • 谷歌发布 Gemini 3.1 Flash-Lite:首字提速 2.5 倍,算力成本再创新低
    在大模型竞争白热化的当下,速度与成本依然是开发者最关心的两大维度。谷歌于本周正式推出 Gemini 3.1 Flash-Lite——Gemini 3 系列迄今最快、性价比最高的模型,并已在 Google AI Studio 和 Vertex AI 上向开发者开放预览访问。 速度:首字响应提速 2.5 倍 对于实时交互场景而言,Time to First Token(首字响应时间) 是衡量用户体验的核心指标。根据第三方权威基准测试平台 Artificial Analysis 的数据,Gemini 3.1 Flash-Lite 相比上一代 Gemini 2.5 Flash,首字响应速度提升了 2.5 倍,整体输出速度则提升了 45%。 成本:每百万 Token 仅需 $0.25 在定价层面,3.1 Flash-Lite 的竞争力同样突出 智能:性能不因轻量而妥协 "轻量快速"并不意味着能力打折。在多个权威评测基准上,Gemini 3.1 Flash-Lite 展现出超越预期的推理能力: * Arena.ai Leaderboard Elo 得分:1432,在同级别模型中名列前茅 * GPQA Diamond(研究生级科学推理):86.9% * MMMU Pro(多模态理解):76.8% 值得注意的是,这两项得分甚至超越了谷歌前一代规模更大的 Gemini 2.5 Flash,充分说明新一代架构在效率优化上的实质性突破——以更少的算力实现了更高的智能密度。
  • 谷歌发布 Nano Banana 2:闪电般速度下,体验模型高智能和图片质量
    Nano Banana 2的发布,本质上是Google试图打破一个长期存在的行业困境:高质量与高速度的二元对立。 技术突破:Pro级能力下放到Flash速度层这个模型将Nano Banana Pro的高级世界知识、质量和推理能力,与Gemini Flash的闪电般速度完美结合。 具体几个核心技术亮点: 1. 实时知识整合与精准渲染Nano Banana 2最令我印象深刻的是其对现实世界知识的深度理解。模型不仅能够从Gemini的知识库中提取信息,还能利用实时网络搜索的图像和信息来更准确地渲染特定主题。 2. 主体一致性:叙事连续性的技术保障在实际工作中,保持角色或物体在多张图像中的一致性一直是个令人头疼的问题。Nano Banana 2在这方面做出了显著改进:该模型可以在单一工作流程中保持最多5个角色的相似性和14个物体的保真度。 3. 生产级规格:从原型到交付的无缝衔接模型原生支持从512px到4K的各种分辨率,并新增了4:1、1:4、8:1和1:8等纵横比。 4. 可配置的思考层级这是一个容易被忽视但极具实用价值的功能。开发者现在可以调整模型的推理层级(最小、高或动态),让模型在渲染前对复杂提示进行推理。这种灵活性让你能够根据具体场景在速度和质量之间找到最佳平衡点。
  • MiniMax MaxClaw正式发布|一键部署OpenClaw,国内用户零门槛体验
    近日,MiniMax正式推出MaxClaw云端AI助手,基于OpenClaw开源框架深度优化,实现OpenClaw生态一键部署、开箱即用,大幅降低国内用户使用门槛,为AI智能体应用提供更高效、更便捷的解决方案。 一、MaxClaw与OpenClaw核心区别 • OpenClaw:开源AI智能体框架,功能全面、扩展性强,但需自主完成环境配置、模型接入、服务部署,对技术能力要求较高。 • MaxClaw:由MiniMax官方打造的云端封装版OpenClaw,集成MiniMax M2.5模型能力,预置工具链与专家技能,无需本地搭建、无需服务器与API Key,直接在网页端运行。 二、国内用户部署痛点与MaxClaw解决方案 传统OpenClaw在国内部署流程繁琐,需处理命令行操作、环境依赖、网络适配、模型授权等多重步骤,普通用户易遇配置障碍。 MaxClaw彻底解决以上问题:无需本地安装、无需命令行、无需手动配置密钥,在MiniMax Agent平台一键启动,10秒内完成云端部署,支持7×24小时稳定运行,内置文件处理、浏览器自动化、内容生成等实用能力,可无缝接入飞书、钉钉等办公平台。 三、产品价值 MaxClaw以极简体验保留OpenClaw核心能力,同时依托MiniMax云端架构与国产模型优化,更适配国内用户使用习惯,让个人与团队无需关注底层技术,专注于任务执行与效率提升,推动AI智能体规模化普及。
  • Apple工程师亲自调教的美学AI:基于Qwen3-Coder的 UI 设计超越 GPT5
    前不久,Apple内部团队发布了一篇让人振奋的研究。他们招募了21位专业设计师——这些人有的有2年经验,有的已经在行业里摸爬滚打了30多年。他们来自不同的设计领域:UI/UX设计、产品设计、服务设计,有的每周都要主持好几场设计评审,有的则负责从零到一打磨产品的视觉体验。 研究团队给他们看AI生成的界面,然后让他们用最熟悉、最自然的方式提意见: 画草图(Sketching):直接在界面上圈出问题区域,画框、画箭头、标重点写评论 (Commenting):用自然语言说明哪里需要改,为什么要改直接改 (Revising):用Sketch软件把界面改成理想的样子打分排名 (Ranking):从两个设计里选一个更好的(这是传统方法)你可能会说,这不就是传统的"人类反馈"吗?RLHF早就有了啊。 但这里有个关键区别——这不是机械式评分,而是设计师带着他们的经验、草图和直觉在引导AI。 论文里其实透露了一个特别接地气的细节:Apple最初用的基础模型是Qwen2.5-Coder 32B,原因简单到让人想笑——"它是当时最强的、能塞进单张GPU的开源代码模型"。微调后的Qwen3-Coder在所有测试中表现最佳,甚至超过了GPT-5。
  • Taalas把模型焊死在芯片上,17,000 tokens/秒推理速度,惊人
    核心技术突破 Taalas 推出的 HC1 芯片采用"hardcore model silicon technology"(硬核模型硅技术),将 Llama 3.1 8B 大语言模型直接固化到芯片硬件电路中,实现了每秒 17,000 个 token 的推理速度,相比英伟达 H200 快 11 倍,比下一代 B200 快 6 倍,远超 Groq、Sambanova 等专业 AI 推理芯片厂商。 技术原理 传统 AI 芯片采用通用架构,模型参数存储在显存中,推理时需反复读取数据,内存带宽成为性能瓶颈。Taalas 反其道而行,将模型结构和参数直接烧录到芯片物理层,消除了数据搬运开销,实现极致延迟优化、能效比飞跃和确定性性能保证。 硬件规格 HC1 采用台积电 6nm 工艺,芯片面积 815 平方毫米,集成 530 亿晶体管,整机功耗仅 2.5 千瓦(H100 服务器约 10 千瓦)。虽然晶体管数量少于 H100 的 800 亿,但针对特定模型的深度优化使其在单用户推理场景下实现了数倍到十倍的性能提升。 用户体验变革 17,000 tokens/秒意味着 2,000 字的复杂回答可在 0.7 秒内完整输出,接近人类阅读速度,AI 对话将真正实现"即问即答",流畅度媲美人与人的实时交流,彻底改变以往需要"等待"模型生成的体验。 技术路线价值 Taalas 抓住了 AI 应用"模型专用化"的趋势:实际部署中,企业往往针对特定场景长期使用固定模型,灵活性非刚需,性能和成本才是核心。这与历史上 ASIC 矿机击败通用 GPU 的逻辑一致——当场景清晰、模型稳定时,硬件专用化带来压倒性优势。 挑战与限制 该方案也面临明显挑战:芯片制造后模型无法更改,快速迭代将导致过时;单一固化模型难以满足多样化需求;每个新模型都需重新设计流片,前期投入巨大。Taalas 将 HC1 定位为"技术验证产品",战略意义在于证明"模型硬件化"的可行性。 产业影响 Taalas 的出现为 AI 芯片产业带来三重启示:在实时交互、高频交易、自动驾驶等对延迟敏感的场景开辟细分市场机会;证明"小而精"的专用方案与"大而全"的通用路线可以并存;若某些模型架构成为事实标准,将推动硬件固化方案的商业化。 目前 Taalas 已开放基于 HC1 的聊天机器人演示和 API 申请。这一技术突破提醒我们:AI 算力竞赛的答案不只是无限堆砌通用算力,重新定义计算架构本身同样能开辟新的性能边界。
  • 智谱AI正式发布GLM-5大模型,参数规模从355亿扩展到744亿,预训练数据量增至28.5万亿token。该模型集成了DeepSeek稀疏注意力机制,在保持长文本处理能力的同时降低部署成本。GLM-5在编程任务性能上提升20%,能完整完成项目开发全流程,接近ClaudeOpus4.5水平。
    在VendingBench2测试中,GLM-5模拟经营自动售货机一年获得4432美元收益,展现强大的长期规划能力。模型已开源并支持商用,可在Z.ai平台免费体验。GLM-5标志着AI从聊天工具向实际工作伙伴的转变,特别适合程序员、创业者和内容创作者使用。 技术细节:他们做对了什么? 如果你对技术感兴趣,这里有几个值得关注的点: 稀疏注意力机制 :GLM-5 集成了 DeepSeek 稀疏注意力机制,在降低部署成本的同时保持了长文本处理能力 Futu News。通俗点说,就是"省钱又好用"。 强化学习基础设施 "slime" :他们开发了一套新的训练系统,能更高效地让模型"学习"——这是为什么 GLM-5 能在推理、编码、智能体任务上表现这么好的原因之一。 开源 + 商用友好 :模型权重以 MIT 许可证发布,意味着你可以免费用,甚至可以商用。这在国内大模型里算是比较良心的。
  • DeepSeek V4 发布在即,Engram 框架提前开源
    1. 什么是 Engram?让 AI 拥有 O(1) 级“外挂硬盘”Engram 的核心思想非常直接:将“静态记忆”与“动态推理”分离。它作为一个独立的模块,对经典的 N-gram 嵌入进行了现代化改造,使其能够与神经网络骨干(Backbone)协同工作,实现常数时间(O(1))的知识查找。 2. “U”型缩放定律:寻找“大脑”与“书本”的黄金比例DeepSeek 提出了一个核心命题:在参数预算固定的情况下,容量应该如何在“大脑”(MoE 专家计算)和“书本”(Engram 静态记忆)之间分配? 3. 系统级神技:突破 GPU 显存瓶颈Engram 不仅是算法上的革新,更是工程上的胜利。与 MoE 依赖动态路由不同,Engram 的查找是确定性的——仅根据输入 Token 序列,系统就能预知需要哪些内存槽。 4. 实证结果:不仅是记性好,推理也更强了!虽然 Engram 是为记忆设计的,但它对大模型的推理能力提升却最为惊人逻辑推理暴涨: Engram-27B 在 BBH 任务上提升了 +5.0,MATH 提升了 +2.4 其原理在于:Engram 分担了早期层的“静态记忆重构”压力,让网络能够更专注于复杂的逻辑推导,等同于增加了网络的“有效深度” 。 长文本“大海捞针”: 在多查询 NIAH 测试中,Engram 的准确率从基准的 84.2% 飙升至 97.0%。因为它释放了注意力机制的资源,使其能更专注于处理全局的长程依赖。
  • Nested Learning:颠覆Transformer模型的下一代框架
    来自Google Research(果真能够挑战谷歌的也只能还是谷歌),他们提出了一种名为“Nested Learning”(NL,嵌套学习)的全新学习框架,认为传统深度学习(如Transformer)的“深度”只是表象,真正的进步在于多级嵌套优化问题。 这篇论文不仅从神经科学角度重新审视了机器学习,还提供了实际的创新模块,如HOPE,展示了在持续学习和长上下文推理上的潜力。 大脑通过不同频率的脑波(如Gamma波用于快速感知,Theta波用于记忆巩固)实现持续学习,而Transformer的更新频率极端——Attention无限更新(非参数),MLP零更新(固定)。 Nested Learning的核心概念:嵌套的多级优化Nested Learning(NL)是论文的核心创新。它将机器学习模型和其训练过程视为一组嵌套的、多级的或并行的优化问题,每个问题有自己的“上下文流”(context flow)。 简单来说:嵌套优化:模型不是简单堆叠层,而是多级优化。每一级优化自己的目标函数,使用梯度下降压缩上下文信息。上下文可以是令牌(tokens)、梯度或更高层信号。上下文压缩:学习本质上是压缩上下文的过程。 预训练是“in-context learning”的形式,整个训练数据是上下文;推理时,模型压缩当前上下文适应任务。多级设计:级数越多,模型越具表达力。高频级(低级)负责快速适应(如短期记忆),低频级(高级)存储持久知识(如长期记忆)。这类似于大脑的多脑波频率。
  • 故事的主角,是腾讯悄悄打磨了一年多的“秘密武器”—— ima Copilot。它最初只是一个能帮你“聊天”和“写文章”的AI助手,但在2026年初,它完成了一次关键进化:现在,它能直接读懂你的“知识库”,为你一键生成一份逻辑清晰、内容扎实的PPT了。
    从“收藏夹难民”到“知识指挥官”ima的核心,是一个叫做 “知识库” 的功能。你可以把它理解为你私人的、数字化的“第二大脑”。这个大脑吃什么?它不挑食:你读过的公众号深度文章、下载的行业PDF报告、工作中的Word文档、甚至手机相册里拍的会议白板照片,都可以一键喂给它。 我们就把过去半年收集的所有关于社交媒体的文章、报告、数据图表,统统拖进了ima的知识库。这就像为你的大脑外接了一个超级硬盘,而且这个硬盘是“活”的。 当我们打开ima,在对话框里输入:“基于我的知识库,总结一下2026年短视频内容的核心趋势,并给出三点营销建议。”几秒钟后,一份结构清晰的摘要就出来了,每一条结论后面,都自动附上了它来自知识库里的哪份报告、哪篇文章。这不再是AI凭空编造的“幻觉”,而是真正基于你信任的、沉淀的资料的深度分析。 瞬间就从信息的“搬运工”,变成了知识的“指挥官”。不止于聊天:从“读”到“写”的一站式流水线如果ima只是一个更聪明的聊天机器人,那故事到这里就结束了。但它的野心远不止于此。它想做的,是打通你从“获取信息”到“产出成果”的整个工作流。
  • 马斯克又搞事了!他把X(就是原来的Twitter)的推荐算法代码全丢到GitHub上!这波操作直接把技术圈炸翻了天🔥
    🌟 X的推荐算法:决定你刷到什么的"超级漏斗" 首先纠正个误区:X算法 ≠ Grok!千万别搞混了! X开源的这套东西(twitter/the-algorithm),说白了就是个超复杂的信息筛选器。想象一下,每天几亿条推文,系统咋知道你想看啥? 它其实是个三层漏斗,层层筛选: 第一层:海选(Candidate Sourcing) 从几亿条推文里快速捞出大概1500条你可能感兴趣的。其中一半是你关注的人发的,另一半是你没关注但"朋友的朋友"圈子里的。 💡 技术小八卦:这里用了一个叫SimClusters的黑科技,简单说就是把用户和推文都扔到高维空间里算相似度,有点像"物以类聚人以群分"的数学版! 第二层:精排(Heavy Ranking) 这才是重头戏!这1500条会被塞进一个4800万参数的神经网络里打分。点赞概率多大?会不会转发?会看多久?都算得明明白白! ⚡ 重点来了:现代推荐系统这里大量借鉴了Transformer的Self-Attention(自注意力机制),专门捕捉你之前的行为习惯和推文特征之间那些乱七八糟的关系。 第三层:人工审核(Heuristics) 最后就是一些硬规则:去重、过滤看过的、删掉少儿不宜的内容等等。
  • DeepSeek 新论文 mHC:流形约束超连接——到底是什么?
    过去十年,深度学习界有一个公认的“保命神技”——残差连接(Residual Connection)。它的存在就像是给神经网络修了一部直达电梯,让梯度信号能顺畅地在几十层甚至上百层楼之间穿梭。如果没有它,模型层数一深,训练就会像断了线的风筝,彻底崩溃。 但问题来了:随着我们把模型做得越来越大、越来越宽,这原本救命的“单部电梯”,现在成了整个架构最大的带宽瓶颈。 DeepSeek 的“紧箍咒”:mHC 登场 通俗点说,既然之前的路乱套了,我们就给这些流量加上一套“能量守恒定律”。 为了应对这些挑战,DeepSeek提出了流形约束超连接(Manifold-Constrained Hyper-Connections,mHC)。mHC是一个通用框架,它将HC的残差连接空间投影到特定的流形上,从而恢复恒等映射特性,同时结合严格的基础设施优化来确保效率。 想象一下,mHC 就像是一个极其公平的“资源置换中心”。在每一个交叉路口,它强制执行两项铁律: 1. 进出平衡:从任何一条路流进来的信息量,经过交换后,流出去的总量必须保持一致。 2. 雨露均沾:每条路径既要有贡献,也要有收获,不能让某一条路独霸所有资源,也不能让某条路彻底干涸。 在数学上,这被称为“双随机矩阵”和“伯克霍夫多面体”。听起来很高深,但道理很简单:它既保留了多条路径的宽带宽,又让每一条路都像原来那部“稳定电梯”一样听话。mHC 不是随意混合矩阵,而是强制它们存在于一个被称为伯克霍夫多面体的数学流形上。 mHC 的创新之处在于它没有放弃多流连接,而是利用数学工具为这些连接加上了“紧箍咒”。 * 双随机矩阵(Doubly Stochastic Matrices):mHC 强制混合矩阵每一行和每一列的和都等于 1,且元素非负。 * 伯克霍夫多面体(Birkhoff Polytope):这些矩阵构成的几何空间被称为伯克霍夫多面体。从几何上看,它是所有置换矩阵(Permutation Matrices)的凸包。 * 稳定性保障:双随机矩阵具有一个优异的特性——其谱范数(Spectral Norm)不大于 1。这意味着无论经过多少层,信号既不会爆炸也不会坍缩,完美恢复了残差连接的稳定性。 DeepSeek 使用 Sinkhorn-Knopp 算法(一种通过不断交替进行行归一化和列归一化来逼近双随机矩阵的迭代方法)在每次前向传播中强制执行这一约束。
  • Space X 硬件工程师都在用的 AI 设计电路工具,几分钟搞定3周工作量
    兄弟们,问个扎心的问题:作为硬件工程师,你最头疼的时刻是什么?是面对密密麻麻的原理图不知从何下手?还是为了扣那 0.1mm 的线宽跟结构硬刚?或者是在深夜里,盯着屏幕上那几千根还没连的飞线(Ratsnest),感觉鼠标都要被点烂了? 就在你对着Altium疯狂拖拽走线的时候,硅谷有个叫Sergiy的哥们儿也遇到了同样的崩溃。他在SpaceX做测试板时,眼睁睁看着几天的心血被电流烧成炭。但这次他没选择继续硬刚,而是冒出一个"大逆不道"的想法:既然代码能自动编译,凭什么电路板不能? 三年后,他带着Quilter杀回来了——一个让全球硬件工程师都坐不住的AI工具。它不是什么高级自动布线,而是电路板的"编译器"你可能要撇嘴了:"自动布线工具我试过,布得跟蜘蛛网似的,最后还得自己重做。"打住。Quilter压根不是那种傻乎乎的"辅助工具"。它的底层是强化学习——对,就是AlphaGo打败李世石的那个技术。但这里不是用来下棋,而是让AI在虚拟世界里"玩"电路板设计。 但 Quilter 不一样,它更像是一个经验丰富的老工匠: 它是个“收纳狂魔”: 就像装修房子,咱们普通人可能只想着把沙发电视塞进去,但 Quilter 会考虑插座在哪、动线顺不顺。它能自动算出零件怎么摆最省空间,简直是 PCB 界的“空间管理大师”。 它会“察言观色”: 电路板上的信号很娇贵,有的怕热,有的怕干扰。Quilter 就像一个贴心的保姆,它知道哪些线该保持距离,哪些零件需要吹吹风(散热),所有的规则它都烂熟于心,不需要你一遍遍去调参数。 它有“无限分身”: 最狠的一点是,它能同时尝试成千上万种方案。就像我们要去一个目的地,它一秒钟内就把所有小路、大路、高架全跑了一遍,最后把那条最快、最稳的路递到你面前。
  • 最近,一个叫 AnyGen 的网站突然火了,据说它是字节跳动开发的“秘密武器”。很多人说它像谷歌的 NotebookLLM,但我体验完发现,它简直就是给 NotebookLLM 装上了手脚,不仅能“读”懂你,还能帮你“造”出来。
    这到底是款什么神仙工具?简单来说,AnyGen 就像是你雇佣了一个全能的“数字管家团队”。 PPT 制作,文档编写,故事绘本,分析数据,创建网页,翻译 PDF,总结视频,转写音频等等功能一应俱全。以前用 AI,你像是在跟一个只会说话的顾问聊天,他给你建议,但活儿还得你自己干。而 AnyGen 不一样,它是个实干派。 想象一下这个场景: 你对着手机随便说了几句关于新产品的想法(或者扔给它一堆乱七八糟的文档),然后对它说:“帮我做个PPT。” “嗖”的一下,它不仅听懂了,还直接把PPT给你做好了——排版精美、逻辑清晰,甚至连配图都画好了。 小编上传了 Attention is all you need 的论文,让他生成 PPT,排版确实精美。
  • Adobe和OpenAI联手,把真正的Photoshop、Adobe Express和Adobe Acrobat直接塞进了ChatGPT里。而且,完全免费!
    没错,你没听错——你不用订阅Adobe,也不用下载软件,就在聊天框里说句话,就能用上专业级的编辑工具。这感觉就像突然有了一个私人摄影师加设计师加文秘,全天候待命。 当“最强大脑”遇上“最强画笔”我们都知道,ChatGPT 就像一个无所不知的超级学霸,能写诗、能写代码、能陪聊;而 Photoshop 就像一个技艺高超的老工匠,虽然手艺无敌,但脾气有点古怪,一般人很难驾驭。过去,我们要用这把“画笔”,得先去学几个月的操作手册。 但现在,Adobe 直接把自家的 Photoshop、Express 和 Acrobat 这三员大将,全部打包塞进了 ChatGPT 里。这是什么概念?
正在载入...
正在载入...