量子位

量子位

关注
17.6万粉丝
0关注
8.6万被推荐
IP属地:北京

《量子位》官方网易号

3枚勋章

2次获得编辑精选

追踪人工智能动态


  • 用Excel表格直观展现Transformer模型内部工作机制? 看科罗拉多大学博尔德分校的Tom Yeh教授制作的这个Excel,它模拟了Transformer模型的各个组成部分,包括编码器和解码器,以及其内部的多头自注意力机制和前馈神经网络。 从【视频】中可以看到,该Excel表格的操作者做了如下流程—— 1. 输入处理:操作者先是输入中文语句“小狗和小猫玩”,将其转换为数字ID(词嵌入)和位置编码,编码后的输入数据被送入Transformer的编码器部分。 2. 编码器:编码器每一层包括多头自注意力机制和前馈神经网络。我们可以详细查看每一层的矩阵运算过程,包括Query(Q)、Key(K)、Value(V)矩阵的计算、缩放点积注意力(Scaled Dot-Product Attention)计算,以及结果的归一化和残差连接(Residual Connection)。 3. 解码器:编码器运行完毕后,结果传递给解码器进行多头交叉注意力计算。解码器部分同样展示了Query、Key、Value矩阵的计算和多头交叉注意力的输出。 4. 前馈神经网络:多头自注意力机制的结果被送入前馈神经网络,每一编码器和解码器层中的前馈神经网络都包括线性变换和ReLU激活函数。 5. 输出预测:最终,解码器的输出通过线性变换和Softmax函数,得到输出概率分布。根据概率分布,选择概率最大的token作为预测结果。视频预测下一个词是“play”。 6. 循环预测:模型预测出“play”后,会将其加入到输入序列中,继续预测下一个词。 网友评论道:“感谢这个Excel表格,让我理解矩阵运算和各个模块之间的交互,以及Transformer模型的内部工作机制。” 感兴趣的小伙伴可以点击:
    行业密探

  • 无需人类设计提示词,LLMs也能触发链式推理? 谷歌DeepMind提出一种名为“CoT-decoding”的方法,它不依赖于人工设计的提示(prompt)或额外的监督训练,而是通过调整解码算法,使模型完全基于其内部的推理能力触发链式推理。 传统的贪心解码(greedy decoding)通常是生成最可能的下一个词,会忽略模型内部潜在的推理路径。 而CoT-decoding则可以探索多种可能的词语序列,进而揭示隐藏的链式推理过程。 该方法的主要步骤为: • 选择多个候选词:在生成每个词时,模型不仅选择一个最可能的词,而是选择前个高概率的候选词。这些候选词代表着多个不同的选择路径。 • 推理路径探索:通过沿着这些不同的路径继续解码,模型可以生成多个可能的输出序列,每个序列又代表了不同的推理路径。 • 评估路径的质量:根据这些路径生成的结果,引入模型对最终答案的置信度,来选择可靠的路径。通常,带有较高置信度的路径会比其他路径更可靠。 实验表明,这种方法可以在许多推理任务中(例如数学计算、常识推理等)都能提高模型的准确性。PaLM-2 Large模型测试结果,GSM8K基准从34.8%提高到63.2%。Mistral-7B模型测试显示,GSM8K基准从9.9%提高到25.1%。 感兴趣的小伙伴可以阅读原文:
    行业密探
  • 北大开源国产多模态版o1,视觉推理超越闭源模型

    7小时前
    图片
    01:04

  • 北大开源了国产多模态版o1,能实现自主“慢思考”,视觉推理超越闭源模型。
    行业密探

  • 科学家Erik D. Demaine和Stefan Langerman的最新研究表明,仅需三个简单多边形即可证明铺砖问题的不可判定性。这一成果比之前至少需要五种多边形的研究更进一步。 研究基于王(Wang)铺砖方法,这是数学中研究铺面问题的经典框架。 王铺砖问题最初被认为是可判定的,但1966年Berger推翻了这一假设。随后Robinson的证明确认了王铺砖问题的不可判定性。 作者通过构造三种特殊多边形并模拟王铺砖规则,成功将铺砖问题归约到王铺砖问题,从而证明了其不可判定性。 具体的证明过程是这么做的: - 构造三种多边形:作者设计了三种多边形——轮(wheel)、手里剑(shuriken)和订书钉(staple)。 - 轮:用于编码王铺砖的边缘颜色,通过设计缺口和凸起来对应王铺砖的匹配规则。 - 订书钉:覆盖轮的未使用部分,确保铺面完整性。 - 手里剑:填补轮和订书钉之间的剩余空隙。 - 模拟王铺砖:通过这些多边形的几何设计,铺砖行为被模拟王铺砖的匹配规则。轮的每条边装饰有对应王铺砖颜色的缺口和凸起,确保多边形之间的匹配严格遵循王铺砖的规则。 - 强制铺砖结构:无论如何铺砖,平面都必须形成一个无限的王铺砖网格结构。由于王铺砖问题本身是不可判定的,这一归约直接证明了仅用三种多边形的铺砖问题同样不可判定。 - 几何关系证明:研究详细分析了三种多边形的角度、边长和几何关系,确保铺砖过程中所有的拼接操作都严格符合预期规则,进一步巩固了不可判定性的结论。 论文还探讨了铺面问题中周期性铺面与co-RE完备性的关系,为这一领域的研究提供了更多视角。 论文原文:
    行业密探
  • 卷积到底卷了个啥?AI技术的普及,你听说过卷积神经网络吗?

    9小时前
    图片
    05:56
  • “卷积”到底“卷”了个啥?

    10小时前
    图片
    06:01
  • 随着AI技术的普及,你很可能听说过“卷积神经网络”,其中的“卷积”到底是什么?其实早在200多年前,数学家已经发明了这个“万能工具”。
    行业密探
  • 史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格

    11小时前
    2跟贴
    图片
  • “清华AI医院”上线!首批42位AI医生亮相,诊断覆盖300余种疾病

    11小时前
    16跟贴
    图片
  • OpenAI重夺竞技场第一,但这波靠的是4o

    12小时前
    1跟贴
    图片

  • 搜索引擎中广泛使用的文档排序算法——BM25(Best Matching 25),你知道它的原理吗? 在搜索场景中,BM25能计算每个文档与查询的匹配度,从中找出最相关的文档,并按相关性高低排序展示。 要理解BM25,需要掌握以下几个关键概念: 1. 词频(Term Frequency, TF):某关键词在文档中出现的次数。关键词出现越频繁,通常表示文档与查询的相关性越高。 2. 逆文档频率(Inverse Document Frequency, IDF):衡量某关键词在整个文档集合中的稀有程度。稀有关键词的区分度更高,对评分贡献大,其计算公式为:【图1】 3. 文档长度归一化(Document Length Normalization):调整文档长度对相关性评分的影响。避免长文档因为包含更多关键词而获得不公平的高分。 4. 参数 k1 和 b - k1:控制词频对评分的影响程度。值越高,词频权重越大。 - b:控制文档长度归一化的强度。b=0时忽略文档长度,b=1时完全考虑。 BM25结合上述概念,通过以下步骤计算每篇文档的相关性得分—— 计算IDF,然后计算每个关键词的得分【图2】,再将各关键词的得分相加,得到文档的总相关性得分。 举个栗子,假设有以下三个文档,查询关键词“猫 养护”: - 文档1:包含“猫”和“养护”各2次,总长度100个词。 - 文档2:包含“猫”3次,总长度150个词。 - 文档3:包含“养护”1次,总长度80个词。 计算两个关键词的IDF【图3】后,再计算各文档的BM25得分,最终得出: - 文档1:同时包含“猫”和“养护”,得分较高。 - 文档2:仅包含“猫”,但词频较高。 - 文档3:仅包含“养护”,且词频低,得分最低。 你学会了吗?感兴趣的小伙伴可以点击详细内容:
    行业密探

  • 量子计算面临的最大挑战之一被解决了。 众所周知,量子计算机几个小时即可解决计算机数十亿年才能解决的问题。 而量子计算机一直以来都有一个关键挑战:噪声问题。 噪声的产生会导致计算结果出现错误,从而降低量子计算的可靠性。 为了解决噪声问题,谷歌DeepMind团队联合量子AI团队开发了一种新型AI解码器——AlphaQubit,专门用来识别量子计算中的错误,大幅提升量子计算的可靠性。 AlphaQubit基于Transformer架构,通过错误模式分析和错误位置预测两个步骤,构建了一套量子比特处理流程,具体包括以下三个步骤:【视频】: 1. 物理量子比特阵列 在一个边长为3的量子比特网格中,9个物理量子比特(灰色圆点)协同构成一个逻辑量子比特。这种空间冗余设计通过提高抗干扰能力,增强了系统的稳定性。 2. 一致性检查机制 系统在每个时间步(time step)中,额外引入8个量子比特用于一致性检查。这些检查量子比特会测量逻辑量子比特的状态是否符合预期,并输出检测结果: - 蓝色/紫红色:一致性检查失败,表明检测到错误。 - 灰色:一致性检查通过,未检测到错误。 3. 数据传递至AlphaQubit解码器 一致性检查结果被编码为特定模式,输入AlphaQubit解码器。解码器利用这些数据对逻辑量子比特的状态演化进行分析,预测并修正潜在错误,从而保证计算结果的可靠性。 AlphaQubit具有以下三大优势—— - 精确性:在多个实验场景中,AlphaQubit的错误校正准确性高于传统解码器。 - 通用性:在数万轮错误校正测试中,AlphaQubit表现稳定,适用于多种量子计算任务,展现出泛化能力。 - 实时能力:支持对输入和输出数据的置信度评估,为未来量子处理器的优化提供了可靠的参考。 实验表明,与传统方法(如张量网络法和相关匹配法)相比,AlphaQubit的错误识别率分别降低了6%和30%,提升了量子计算的可靠性和效率。
    行业密探

  • 一直低调行事的国内初创公司,旗下模型悄悄地跃升成国内第一、世界第五(仅排在o1系列和Claude 3.5之后)! 而且是前十名中的唯一一家国产公司。 (该榜上国产第二名是阿里开源的qwen2.5-72b-instruct,总榜第13)。 而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知,但资格杠杠的——图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun),联合纽约大学等在今年6月推出。 号称是“全球首个无法作弊的LLM基准测试”。 而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了。 Step系列,背后是大模型六小虎之一的阶跃星辰。 IF Average一项,也就是指令跟随,它以最高分拿下全球第一。 这个项目的内容,是对《卫报》近期新文章进行改写、简化、总结或生成故事。 86.57这个成绩是真的非常高——榜单上其余众人(哪怕是OpenAI和Anthropic家的模型们)都在70-80分段,单项第二名的Meta-LLaMA-3.1-405b-instruct-turbo比它低了8分多。 这意味着,Step-2在语言生成上对细节有强控制力,理解能力max,然后更好地遵循人类指令。 国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单
    行业密探
  • AI版《黑客帝国》:无限生成逼真视频,3A画质,还能实时交互

    13小时前
    1跟贴
    图片
  • 国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单

    13小时前
    图片

  • 差点掀翻投资界和物理界的那个“21℃室温超导新材料”,其研究者Ranga Dias因学术不端被罗切斯特大学解雇。 事情的来龙去脉是,据Nature上的一篇文章报道,Dias于2017年从哈佛大学博士毕业后,加入罗切斯特大学,从事高压超导体的研究。 2020年,他在”Nature“上发表了一篇论文,声称发现了一种由碳、硫和氢(CSH)组成的化合物,在室温下具有超导性。 这一成果震惊学术界,他也因此名声大噪,薪资翻倍,并获得了数百万美元的科研经费。 然而,这一切在随后的质疑声中开始崩塌。 Dias发表了第一篇论文后,加州大学圣地亚哥分校的理论物理学家Jorge Hirsch提出了质疑。 该质疑引发了三次独立调查,虽然最初未能找到明确的学术不端证据,但论文经进一步审查后还是被撤稿。 尽管如此,Dias并未停止他的追求。 2023年3月,他再次在《Nature》上发表论文,声称发现了一种更易于商业化的室温超导体——由铥、氢和氮组成的化合物。 仅仅8个月后,这篇论文也因数据问题被撤回。 与第一次不同,这次对Dias发起质疑的,是他的前研究生们。 与此同时,佛罗里达大学物理学家James Hamlin向基金拨款方“NSF”举报了Dias的学术不端行为。 在NSF的指示下,罗切斯特大学启动全面调查,最终确认Dias存在数据造假问题。 2024年,罗切斯特大学正式解雇Dias,并声明:“Ranga Dias不再是罗切斯特大学的员工,也不再参与任何与大学相关的研究活动。” 被解雇后的Dias,加入了一家名为Unearthly Materials的公司,继续从事新型超导体的研发。 值得注意的是,这家公司在2022年曾获得伦敦风投集团Plural的1500万美元投资。
    行业密探
  • 面对差距,要不要继续追赶?该如何追赶?李开复博士表示,国内的大模型初创企业没有那样的巨量资源,不能照搬人家的方法论。我们有自己擅长的领域,要走出自己的第二条路。
    行业密探
  • 李开复谈大模型竞争:中国AI有适合自己的路

    15小时前
    图片
    03:05

  • 用AI大模型一键解析MRI、CT和病理学等九大生物医学成像模式。 不仅复杂、不规则形状对象能高精度识别。 而且通过对象识别阈值建模,模型能够检测无效的提示请求,并在图像中不存在指定对象时拒绝分割。 用户更是无需手动进行标注或边界框操作—— 只需通过简单的临床语言提示指定目标对象,例如“肿瘤边界”或“免疫细胞”,便能让AI准确识别、检测并分割图像中的相关区域。 还可一次性同时分割和标记所有感兴趣的生物医学对象。 这就是来自微软、华盛顿大学等的研究团队最新发布的基础模型BiomedParse,已登Nature Methods。 医学图像的成像模式差异巨大(如CT、MRI、病理切片、显微镜图像等),传统上需要训练专家模型进行处理。 而BiomedParse,通过文本驱动图像解析将九种医学成像模式整合于一个统一的模型中,联合预训练处理对象识别、检测与分割任务。 无论是影像级别的器官扫描,还是细胞级别的显微镜图像,BiomedParse都可以直接利用临床术语进行跨模式操作,为科学家和临床医生提供了更统一、更智能的多模式图像解析方案。 在分割不规则形状的生物医学对象方面,BiomedParse相较传统模型表现卓越。通过将图像区域与临床概念关联,相比手动框选分割精度提升39.6%,提高了在关键任务中的可靠性。 目前,研究团队已将BiomedParse开源并提供Apache 2.0许可,相关演示demo和Azure API均已上线。 AI一键解析九大生物医学成像模式,用户只需文字prompt交互,微软UW等新研究登Nature Methods
    行业密探
正在载入...
正在载入...