量子位

量子位

关注
17.6万粉丝
0关注
9.7万被推荐

《量子位》官方网易号

5枚勋章

2次获得编辑精选

追踪人工智能动态
IP属地:北京
更多信息

  • 火速吃瓜:Kimi K2.6设计能力超越Claude Design
    1小时前

  • 你有没有发现,现在的机器人好像越来越聪明了,能聊天、能跳舞、甚至还能跑马拉松比赛。 不过,要是真让他们去帮助人类做点什么,比如准备一桌饭菜、收拾一下客厅、或者最简单的日常陪护……大部分机器人很难做到。 具身智能能展示、能炫技、甚至能竞技,却很难承担精细复杂任务——问题不在“大脑”,而是出在“小脑”。 自主AI汽车芯片「一姐」出手,机器人终于有了专属「小脑」
    行业密探
  • 自主AI汽车芯片「一姐」出手,机器人终于有了专属「小脑」

    1小时前
    图片

  • 手术视频的“黑盒”,被一脚踢爆了! 就在这两天,GitHub和Hugging Face社区上线了一枚医疗大模型领域的“核弹”。 全球规模最大、性能最强的医疗视频理解大模型——uAI Nexus MedVLM(中文名:元智医疗视频理解大模型)开源! 最惊人的是,这玩意儿是真的能看懂手术。 论文已经被CVPR 2026收录,团队还同步甩出了一套由6245个视频-指令对构成的标准测试集。 啥概念?医疗视频理解,终于有了一把“公共标尺”。 而如此兼具规模与精度的医疗视频数据开源,在业内尚属首次。 小编第一时间冲到Hugging Face,把模型拉下来实测了一波。 全球首个医疗视频理解大模型开源!6k+组精标测试集/英雄榜上线
    行业密探
  • 引用量超过10万次,清华姚班校友,ConvNeXt、ImageBind、《无归一化的Transformer》……这些论文的作者——
    普林斯顿大学助理教授刘壮,在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。 架构真的重要吗?数据集真的足够多样吗?归一化层是必需的吗?大语言模型有世界模型吗?AI智能体能替代博士生吗? 在《信息瓶颈》的最新播客中,刘壮和主持人Ravid Shwartz-Ziv、Allen Roush展开了长达一个多小时的对谈,解答了这些问题。 刘壮给出了几个核心判断(太长不看版): 1、架构选什么,没你想的重要。 只要把残差连接、自注意力、归一化层、线性层这四大基础做对,不管用ConvNet还是Transformer,最终都会落在同一条性能曲线上。 过去十年真正推动AI进步的,是更大程度上是数据规模和计算规模,而不只是架构创新。 2、数据集远没有我们以为的多样。 他和何恺明做了一个实验:训练神经网络来判断一张图片来自哪个数据集。 结果在三个号称“多样化”的亿级数据集上,准确率高达80% 以上—— 说明这些数据集在模型眼里仍然泾渭分明,距离“无偏的全球分布”还差得远。 3、大语言模型有世界模型,但只在语言空间里。 LLM在高层次事件推理上表现出色,但视觉空间的精细世界模型我们还没有—— 根本原因是视觉数据的信息密度太高,现有算力还处理不了。 而且对于超过一半的工作场景(尤其是数字化的白领工作),根本不需要视觉世界模型。 4、记忆才是当前最大的瓶颈,不是能力。 现有模型的推理能力已经足够强,真正缺的是稳定的长期记忆。 我们需要那么多智能体协作,恰恰是因为一个智能体记不住所有事情。 5、自主科研还没到位,AI替代不了研究生。 他亲自测试过让Claude Code在一两天内独立完成一个研究项目。 结论是:低层次任务还行,但提出有意思的问题、设计实验、保持方向感——这些还做不到。 整个访谈有一条隐藏的主线:我们在AI领域里奉为圭臬的很多东西,其实是历史偶然。 而真正决定成败的,往往是那些更朴素、更无聊的因素——数据、规模、记忆。 以下是量子位梳理的刘壮最新访谈,为便于理解,有部分删减和润色,并在必要的地方添加了编者注,各位enjoy~
    行业密探
  • 不卷参数卷架构,这个开源模型把图像理解和生成统一了

    3小时前
    图片
  • 10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

    3小时前
    图片
  • 刚刚,“云计算一哥”版龙虾发布,奥特曼打着官司也要云站台

    3小时前
    图片
  • 百度GenFlow 4.0发布,Office三件套全包了,还能养「牛马虾」
    3小时前
  • 银河通用LDA定义全域数据利用范式,跨本体世界动作大模型

    5小时前
    图片
  • 小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”

    7小时前
    1跟贴
    图片
  • 为了逃避考试,他发明了最好的压缩算法,zip的历史可谓一波三折

    9小时前
    图片
    14:37
  • Agent时代,李开复与英矽智能创始人探讨AI赋能生命科学

    9小时前
    图片
    11:17
  • 消费级显卡可以快速上手跑!面壁智能MiniCPM-o 4.5发技术报告

    17小时前
    5跟贴
    图片

  • 先别聊什么参数、benchmark了,来看个狠活—— 米版“macOS Sequoia”桌面系统(doge)。【图1】 开机动画、用户登录、窗口管理、Dock栏缩放、Spotlight搜索、明暗显示风格、Launchpad启动台,全都有。 还自带54个原生应用,打开计算器能算账,打开日历能看日子,打开地图能查地址,打开备忘录能写东西,Grapher还能画3D函数图……拖一拖转一转,挺像那么回事。【图2】 甚至!还有个能真实冲浪的Safari浏览器,好你个“Aqqle”(狗头.jpg)。【图3】 关键这个系统是AI 4个小时全程无中断、无人类接管,就这么一直肝出来的。 没错,用的就是主打长程任务、模糊指令遵循,跻身国产Agent第一梯队的小米MiMo‑V2.5 Pro。【图4】 小米最新发布的MiMo‑V2.5系列,包含Pro旗舰Agent、全模态基座、TTS语音合成、ASR语音识别四大模型,综合实力对标国际顶尖水准。【图5】 就在今天凌晨,MiMo-V2.5系列模型(包含base版)已经正式官宣开源,权重全量开放。 4个月,从入场到进入开源第一梯队,小米这位“超速”选手,咱得扒一扒。
    行业密探
  • Agent时代 生命科学的下一场跃迁

    20小时前
    图片
    11:21

  • 李开复与英矽智能创始人探讨AI作为企业思维,以及多模型健身房如何赋能生命科学与传统行业。AI不只是工具,更是下一代科研的入口。
    行业密探
  • 我嘞个豆!中国企业牵头,ICLR这场Workshop被挤爆了
    20小时前
  • Cursor啊Cursor,你怎么又出事了……
    就在即将被马斯克收购的节骨眼上,又出了大问题,直接干到48小时内X帖子浏览量450万、HN评论900条的程度。 永远不要xx的瞎猜! 而我恰恰就瞎猜了。 我猜测删除staging volume只会影响staging。 我没有验证。 我没有检查volume ID是否跨环境共享。 我违反了每一条系统规则。 Cursor写了封认罪书,写下它的模型是Claude Opus 4.6。 就在写下这段话的9秒钟前,它刚刚删光了一家公司的生产数据库和全部备份。 美国汽车租赁SaaS公司PocketOS的创始人Jer Crane经历了一场荒诞的灾难: 他的Agent没有等待指令,也没有报告异常,而是主动决定解决问题。 方式是:找到一个无关文件里的API token,向Railway发送了一个GraphQL mutation。 也就那么9秒吧,没有确认,没有弹窗,也没有“你确定吗”,生产数据库就没了,备份也没了(因为Railway把备份存在同一个volume里)。 一个被配置了明确安全规则的AI Agent,主动绕过了所有规则,事后还写了份检讨?? 这是什么2026的魔幻现实主义……
    行业密探
  • Cursor 9秒删库搞崩公司,然后…写了份检讨

    23小时前
    7跟贴
    图片
正在载入...
正在载入...