DeepSeek V4 之后又被刷屏，蚂蚁集团 Ling-2.6-1T 来了：1T 参数 + 快思考 + Agent 工程级实力|agent|上下文|代码|工作流|自然语言|蚂蚁集团

继 DeepSeek V4 之后，又被蚂蚁集团的新模型 Ling-2.6-1T 刷屏了

开源地址：huggingface.co/inclusionAI/Ling-2.6-1T

线上直接使用：ling.tbox.cn

官方画像：Engineering-Task-Friendly

蚂蚁这次给 Ling-2.6-1T 的定位很明确——为 "Agentic" 时代而生，在执行类基准上全面占位：

Elite Reasoning ：在 AIME26 上领跑非思考类模型，难题求解极致克制

First-Tier Agent Execution ：SWE-bench Verified、TAU2-Bench、BFCL-V4 拿到 SOTA 段位，写代码、调工具、跑多步工作流都顶得住

Precision at Scale ：指令遵循（IFBench）和长上下文理解（256K MRCR）双双拿满，复杂环境下逻辑一致性稳得住

Artificial Analysis 上的 Intelligence Index 拿到 34，输出 token 大概 16M——同等智能水平下，它确实"话少"

跑分上和那些会展开长 CoT 的同段位选手打平，但 token 省得多，工程化场景下这个差距会被放大

因为：Ling-2.6 是把 token 效率作为VIP来设计，靠"快思考"机制直接给答案

官方给了一个词叫 Contextual Process Redundancy Suppression（上下文冗余抑制），后训练阶段专门针对"模型一上来就长篇 CoT"这种行为做了压制

为什么要这么做？因为现在很多模型病了——

一句"今天周几"它先 OOOO 思考 3000 token
一个改 bug 的指令它能给你写一篇议论文
你工程线上跑，Token 烧了不少，结果还是不出彩

老章觉得：对 Agentic 工作流来说，会克制比会思考更值钱

vLLM 本地部署

vLLM 一条命令跑起来：

pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate

 git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

 vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

蚂蚁官方更推荐 SGLang，且对 MTP（多 token 预测）做了专门的 patch：git clone -b ling_2_6 git@github.com:antgroup/sglang.git

pip install "sglang[all]>=0.5.10.post1" --prerelease=allow


 sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --tool-call-parser qwen25

量化版也很能打

inferencerlabs 直接出了 Ling-2.6-MLX-3.6bit-INF：

huggingface.co/inferencerlabs/Ling-2.6-MLX-3.6bit-INF

实测数据（M3 Ultra 512 GiB）：

文本推理 ~11.3 tokens/s @ 1000 tokens ，占用 431 GiB
Q3.6-INF 用 data-agnostic INF 量化方法，在 512 GiB 内存预算内追求最大通用准确率
Token Accuracy 接近 95%，且对比同体量模型（Kimi K2.6）丝毫不虚

API 使用并接入Claude Code

API调用每日有 50 万 token 的额度

API 可以很方便地接入到 Claude Code

方法：

将以下内容添加至 ~/.bashrc 或 ~/.zshrc：

export ANTHROPIC_BASE_URL=https://api.ant-ling.com/anthropic
export ANTHROPIC_AUTH_TOKEN=

更新环境变量：

source ~/.zshrc # 或 source ~/.bashrc

通过 --model 参数指定要使用的百灵模型，例如：

# 使用 Ling-2.6-flash（通用对话，速度快）
claude --model Ling-2.6-flash 

 # 使用 Ling-2.6-1T（大型代码库理解、长上下文分析）
claude --model Ling-2.6-1T 

 # 使用 Ring-1T（复杂推理、代码调试）
claude --model Ring-1T

官方 Demo

光看跑分太干，蚂蚁官方放了几个 Demo，节选2个我觉得最能讲清楚定位的：

Demo 1：开源即 Agent-Ready

它对自己的核心承诺是 token efficiency：

Lower token overhead ：要 intelligence，不要长链条 CoT
Reliable multi-step execution ：指令、工具、上下文、工作流四条线都能稳住
Production-ready deployment ：从代码生成到 bug 修复，主流 Agent 框架兼容到位

官方放了一段在 @opencode 上的 Agentic 能力演示：

我看完最大的感受，它接进 Agent 框架后，没有那种"先思考五分钟再动手"的慢热感，工具调用、文件读写、任务拆解之间衔接很丝滑

Demo 2：Agent + 知识库的硬实力

这个 Demo 主打信息蒸馏 + 复杂内容检索：

官方拿《百年孤独》前两章做了一次知识库实体抽取测试，演示连接长期记忆工具后，它如何作为一个高精度记忆层为 Agent 工作流服务

实际意义对应到工作里就是：会议纪要、群聊记录、PRD 文档，丢一堆杂乱材料进去，它能直接给你出结论 + 待办 + 周报草稿 + Wiki——而不是"一段总结然后让你自己梳理"

实测

我在Ling Studio官网和接入到Claude Code都实际体验了一下

第一感觉就是输出速度太快了

每秒 160 Tokens 起步，快如闪电⚡

实测1：

> 请用 HTML5、CSS3 和纯 JavaScript（Canvas）编写一个单文件动态网页，实现一场绚丽多彩的烟花盛况。要求如下： 
> 1. **视觉效果**：烟花爆炸要有多种形态（如经典球形、流星雨拖尾、心形等），每一颗烟花的颜色使用 HSL 随机生成，保证色彩极其炫丽鲜艳，并且有发光/荧光效果。背景设置为带有稀疏星星的深色夜空。 
> 2. **物理逻辑**：每一颗粒子都要受重力和空气阻力影响，呈现真实的抛物线轨迹，并且在消散前有亮度衰减和闪烁效果。 
> 3. **交互设计**：系统需要自动、随机地在屏幕下方发射烟花。同时，当用户在屏幕上任何位置点击（或触摸）时，能立刻响应该坐标并在该位置燃放一朵指定烟花。 
> 4. **性能和代码格式**：使用 `requestAnimationFrame` 保证动画流畅运行。请将所有的 HTML、CSS 和 JS 代码整合在一个独立且完整的 `index.html` 文件中，方便我直接运行。

效果如下：

✅ 8种烟花爆炸形态
✅ HSL随机鲜艳色彩 + 辉光效果
✅ 重力 + 空气阻力物理模拟
✅ 自动随机发射 + 点击发射
✅ requestAnimationFrame 流畅动画
✅ 背景闪烁星星

实测2：生成一套数据分析经典数据集，或使用已知知名数据集，进行详细的数据分析全流程操作，生成一份图文并茂的可本地预览的 HTML 数据分析网站

它写了1400多行代码，技术栈：Dash + Plotly + Pandas + Bootstrap

 完成的功能模块

 1. 数据概览页面

 -  数据集基本信息（150样本，4特征，3类别）
-  统计信息卡片（样本数、特征数、类别数、平均相关性）
-  原始数据表格（带分页）
-  描述性统计表格
-  类别分布柱状图

 2. 单变量分析

 -  特征分布直方图（4个特征，按类别分组）
-  箱线图展示
-  密度分布图
-  小提琴图（按类别分组）

 3. 双变量分析

 - ️ 交互式散点图（可切换X/Y轴特征）
- ️ 特征相关性热力图
-  散点图矩阵（展示所有特征两两关系）

 4. 多变量分析

 -  平行坐标图
-  雷达图（各类别特征均值对比）
-  3D散点图（可切换三个轴特征）
-  Andrews曲线（高维数据模式识别）

 5. 统计分析

 -  按类别分组的箱线图
-  特征分布小提琴图
-  详细统计摘要表（包含均值、标准差、方差等）

 6. 机器学习预览

 -  K-Means聚类分析（k=3）
-  PCA降维可视化（解释95%方差）
-  聚类结果与实际类别对比表