继 DeepSeek V4 之后,又被蚂蚁集团的新模型 Ling-2.6-1T 刷屏了

开源地址:huggingface.co/inclusionAI/Ling-2.6-1T

线上直接使用:ling.tbox.cn

打开网易新闻 查看精彩图片

官方画像:Engineering-Task-Friendly

蚂蚁这次给 Ling-2.6-1T 的定位很明确——为 "Agentic" 时代而生,在执行类基准上全面占位:

打开网易新闻 查看精彩图片

Elite Reasoning :在 AIME26 上领跑非思考类模型,难题求解极致克制

  • First-Tier Agent Execution :SWE-bench Verified、TAU2-Bench、BFCL-V4 拿到 SOTA 段位,写代码、调工具、跑多步工作流都顶得住

  • Precision at Scale :指令遵循(IFBench)和长上下文理解(256K MRCR)双双拿满,复杂环境下逻辑一致性稳得住

  • 打开网易新闻 查看精彩图片

    Artificial Analysis 上的 Intelligence Index 拿到 34,输出 token 大概 16M——同等智能水平下,它确实"话少"

    跑分上和那些会展开长 CoT 的同段位选手打平,但 token 省得多,工程化场景下这个差距会被放大

    因为:Ling-2.6 是把 token 效率作为VIP来设计,靠"快思考"机制直接给答案

    官方给了一个词叫 Contextual Process Redundancy Suppression上下文冗余抑制),后训练阶段专门针对"模型一上来就长篇 CoT"这种行为做了压制

    为什么要这么做?因为现在很多模型病了——

    • 一句"今天周几"它先 OOOO 思考 3000 token

    • 一个改 bug 的指令它能给你写一篇议论文

    • 你工程线上跑,Token 烧了不少,结果还是不出彩

    老章觉得:对 Agentic 工作流来说,会克制比会思考更值钱

    vLLM 本地部署

    vLLM 一条命令跑起来:

    pip install uv
    uv venv ~/my_ling_env
    source ~/my_ling_env/bin/activate

    git clone https://github.com/vllm-project/vllm.git
    cd vllm
    VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

    vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85
    打开网易新闻 查看精彩图片

    蚂蚁官方更推荐 SGLang,且对 MTP(多 token 预测)做了专门的 patch:git clone -b ling_2_6 git@github.com:antgroup/sglang.git

    pip install "sglang[all]>=0.5.10.post1" --prerelease=allow


    sglang serve \
    --model-path inclusionAI/Ling-2.6-1T \
    --tp-size 8 \
    --max-running-requests 32 \
    --mem-fraction-static 0.92 \
    --chunked-prefill-size 8192 \
    --context-length 262144 \
    --trust-remote-code \
    --tool-call-parser qwen25
    量化版也很能打

    inferencerlabs 直接出了 Ling-2.6-MLX-3.6bit-INF

    huggingface.co/inferencerlabs/Ling-2.6-MLX-3.6bit-INF

    实测数据(M3 Ultra 512 GiB):

    • 文本推理 ~11.3 tokens/s @ 1000 tokens ,占用 431 GiB

    • Q3.6-INF 用 data-agnostic INF 量化方法,在 512 GiB 内存预算内追求最大通用准确率

    • Token Accuracy 接近 95%,且对比同体量模型(Kimi K2.6)丝毫不虚

    打开网易新闻 查看精彩图片
    API 使用并接入Claude Code

    API调用每日有 50 万 token 的额度

     ling.tbox.cn/open
    打开网易新闻 查看精彩图片
    ling.tbox.cn/open

    API 可以很方便地接入到 Claude Code

    方法:

    将以下内容添加至 ~/.bashrc~/.zshrc

    export ANTHROPIC_BASE_URL=https://api.ant-ling.com/anthropic
    export ANTHROPIC_AUTH_TOKEN=

    更新环境变量:

    source ~/.zshrc # 或 source ~/.bashrc

    通过 --model 参数指定要使用的百灵模型,例如:

    # 使用 Ling-2.6-flash(通用对话,速度快)
    claude --model Ling-2.6-flash

    # 使用 Ling-2.6-1T(大型代码库理解、长上下文分析)
    claude --model Ling-2.6-1T

    # 使用 Ring-1T(复杂推理、代码调试)
    claude --model Ring-1T
    打开网易新闻 查看精彩图片
    官方 Demo

    光看跑分太干,蚂蚁官方放了几个 Demo,节选2个我觉得最能讲清楚定位的:

    Demo 1:开源即 Agent-Ready

    它对自己的核心承诺是 token efficiency

    • Lower token overhead :要 intelligence,不要长链条 CoT

    • Reliable multi-step execution :指令、工具、上下文、工作流四条线都能稳住

    • Production-ready deployment :从代码生成到 bug 修复,主流 Agent 框架兼容到位

    官方放了一段在 @opencode 上的 Agentic 能力演示:

    我看完最大的感受,它接进 Agent 框架后,没有那种"先思考五分钟再动手"的慢热感,工具调用、文件读写、任务拆解之间衔接很丝滑

    Demo 2:Agent + 知识库的硬实力

    这个 Demo 主打信息蒸馏 + 复杂内容检索:

    官方拿《百年孤独》前两章做了一次知识库实体抽取测试,演示连接长期记忆工具后,它如何作为一个高精度记忆层为 Agent 工作流服务

    实际意义对应到工作里就是:会议纪要、群聊记录、PRD 文档,丢一堆杂乱材料进去,它能直接给你出结论 + 待办 + 周报草稿 + Wiki——而不是"一段总结然后让你自己梳理"

    实测

    我在Ling Studio官网和接入到Claude Code都实际体验了一下

    第一感觉就是输出速度太快了

    每秒 160 Tokens 起步,快如闪电⚡

    打开网易新闻 查看精彩图片

    实测1:

    > 请用 HTML5、CSS3 和纯 JavaScript(Canvas)编写一个单文件动态网页,实现一场绚丽多彩的烟花盛况。要求如下: 
    > 1. **视觉效果**:烟花爆炸要有多种形态(如经典球形、流星雨拖尾、心形等),每一颗烟花的颜色使用 HSL 随机生成,保证色彩极其炫丽鲜艳,并且有发光/荧光效果。背景设置为带有稀疏星星的深色夜空。
    > 2. **物理逻辑**:每一颗粒子都要受重力和空气阻力影响,呈现真实的抛物线轨迹,并且在消散前有亮度衰减和闪烁效果。
    > 3. **交互设计**:系统需要自动、随机地在屏幕下方发射烟花。同时,当用户在屏幕上任何位置点击(或触摸)时,能立刻响应该坐标并在该位置燃放一朵指定烟花。
    > 4. **性能和代码格式**:使用 `requestAnimationFrame` 保证动画流畅运行。请将所有的 HTML、CSS 和 JS 代码整合在一个独立且完整的 `index.html` 文件中,方便我直接运行。

    效果如下:

    • ✅ 8种烟花爆炸形态

    • ✅ HSL随机鲜艳色彩 + 辉光效果

    • ✅ 重力 + 空气阻力物理模拟

    • ✅ 自动随机发射 + 点击发射

    • ✅ requestAnimationFrame 流畅动画

    • ✅ 背景闪烁星星

    实测2:生成一套数据分析经典数据集,或使用已知知名数据集,进行详细的数据分析全流程操作,生成一份图文并茂的可本地预览的 HTML 数据分析网站

    打开网易新闻 查看精彩图片

    它写了1400多行代码,技术栈:Dash + Plotly + Pandas + Bootstrap

    打开网易新闻 查看精彩图片
     完成的功能模块

    1. 数据概览页面

    - 数据集基本信息(150样本,4特征,3类别)
    - 统计信息卡片(样本数、特征数、类别数、平均相关性)
    - 原始数据表格(带分页)
    - 描述性统计表格
    - 类别分布柱状图

    2. 单变量分析

    - 特征分布直方图(4个特征,按类别分组)
    - 箱线图展示
    - 密度分布图
    - 小提琴图(按类别分组)

    3. 双变量分析

    - ️ 交互式散点图(可切换X/Y轴特征)
    - ️ 特征相关性热力图
    - 散点图矩阵(展示所有特征两两关系)

    4. 多变量分析

    - 平行坐标图
    - 雷达图(各类别特征均值对比)
    - 3D散点图(可切换三个轴特征)
    - Andrews曲线(高维数据模式识别)

    5. 统计分析

    - 按类别分组的箱线图
    - 特征分布小提琴图
    - 详细统计摘要表(包含均值、标准差、方差等)

    6. 机器学习预览

    - K-Means聚类分析(k=3)
    - PCA降维可视化(解释95%方差)
    - 聚类结果与实际类别对比表

    最后再贴个网友@Adam实测: 生成一个关于 Ling-2.6-1T 模型的介绍页面,有高级感和科技感

    视频里那种版式语言、留白比例、字号节奏,看着像设计师交付的成品稿

    这背后印证了官方那句话——它擅长在"明确风格 + 明确受众 + 明确工作流"的指令下产出惊艳结果

    模糊指令丢进去会得到平凡结果,但只要你愿意把 prompt 写成给同事下 brief 的样子,它的上限非常高

    用法心法:3 个必须知道的高手玩法

    跟着官方 README 和 Demo 摸了一圈,我把心法浓缩成 3 条:

    心法一:温度调到 0.8 左右

    通用任务推荐 0.8(比常见模型略低),代码生成任务建议更低

    心法二:把工作流写进 prompt

    别只说"写个方案",要写:

    1. 先理解目标

    2. 列出三种可能的框架

    3. 选择最优框架

    4. 填充内容

    5. 最后写一句话总结

    心法三:先 Plan 再 Execute

    抽象任务(如"帮我做个竞品分析")的黄金姿势是两轮对话——

    • 第一轮:「请列出你完成这个任务的具体步骤和计划」

    • 第二轮:(确认/修改后)「请严格按照这个计划开始执行」

    因为 Ling-2.6-1T 是非思考模型,让你来定义思考的路径,反而能让它的执行精度比那些"自己想很多"的模型更稳

    总结

    适合谁用:跑 Agent 工作流的开发者、被杂乱材料淹没的知识工作者、对 token 成本敏感的工程团队、喜欢"先 Plan 后 Execute"受控玩法的高级用户

    慎用场景:期待模型自动深度思考、期望生成复杂具象 SVG 多模态、不愿写清楚 prompt 的用户——它默认是「快思考」,对模糊指令不友好

    蚂蚁这次走的路线很清楚:让模型听话、让模型干活、让模型省 token

    Agent 时代的工程模型,就该长这样

    制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!