大家好,我是袋鼠帝。
前两天受邀参加了字节火山的 Force 原动力大会。大会上我最关注的两个更新,一个是 Seedance2.5,还有一个就是豆包2.1 Pro。
在现场看了Seedance2.5的demo,效果确实很炸,不过要等到7月中旬才上线,狠狠期待住了。
关于豆包2.1 Pro,这次火山做了详细的跑分表,横向对比也很齐全。
现场介绍的时候,他们把这次的升级比作跨越"质变点":
类似于 Seedance2.0 当年在视频生成领域做的事,或者说 Claude Opus 4.6 在 General Agent 上做的事。
我有幸之前就从火山的朋友那里拿到了内测资格,在发布前已经深度测了几天。
我的体感是:Agent 能力提升幅度很大、 VLM(视觉识别)能力持续领先;Coding 也有提升,但可能还没到顶尖水平。
这次用了 doubao-seed-2-1-pro-260628,也就是火山方舟上的 API 版本。还有豆包网页版的办公Agent。
接入了Codex使用。
官方就有接入codex的详细教程,想试试的朋友可以看看:
https://www.volcengine.com/docs/82379/2160841?lang=zh
顺便说一下豆包这次的价格也还算便宜~
好了,接下来分享我这几天实测的效果,顺便也给大家做个参考~
AR手势控制
代码能力也不错的,我用网页版的办公Agent,一次性就搞定了一个AR手势控制的网页。
PS:是我电脑开了录屏之后就有点卡,所以看起来有时候会卡顿一下,不开录屏的时候是挺流畅的。
提示词在这里,感兴趣的朋友可以拿去跑来玩玩~
摄像头手势识别 + 区域滤镜 MVP 开发提示词
项目目标
通过摄像头实时识别用户双手的关键点。当用户伸出双手的拇指和食指时,系统使用这四个指尖作为四边形的四个顶点,在摄像头画面中形成一个动态区域。这个区域会完全跟随四个指尖移动、缩放和变形,并且只在该区域内部应用滤镜效果。
技术要求
1. 优先做 Web 版本,可以直接在浏览器运行。
2. 使用 MediaPipe Hand Landmarker 或同类方案识别双手关键点。
3. 使用摄像头实时视频流作为输入。
4. 使用 Canvas 或 WebGL 渲染画面。
5. 不需要后端,所有处理尽量在浏览器本地完成。
6. 代码结构清晰,方便后续扩展滤镜和手势。
核心功能
7. 打开页面后请求摄像头权限,并显示实时摄像头画面。
8. 实时检测最多两只手。
9. 获取左手和右手的拇指指尖、食指指尖坐标。
10. 当检测到四个有效指尖时,自动生成一个四边形区域。
11. 四边形区域需要根据四个点的位置自动排序,避免顶点顺序混乱导致区域交叉。
12. 只在四边形内部应用滤镜,区域外保持原始摄像头画面。
13. 默认滤镜先实现灰度、反色、模糊、马赛克四种。
14. 提供一个简单工具栏,可以切换当前滤镜。
15. 在四个指尖位置绘制小圆点,并绘制四边形边框作为视觉反馈。
16. 当手部丢失或四个点不足时,隐藏滤镜区域,显示原始画面。
交互细节
17. 默认只有双手的拇指和食指都伸出时才激活滤镜区域。
18. 指尖位置需要做平滑处理,避免画面抖动。可以使用简单的指数平滑。
19. 如果某一帧检测失败,可以短暂保留上一帧位置,但超过 5 帧未检测到就关闭区域。
20. 边框在稳定检测时显示为绿色,检测不稳定时显示为红色或半透明。
21. 滤镜区域边缘最好有轻微羽化或透明过渡,让效果更自然。
界面要求
22. 页面启动后直接进入摄像头体验,不要做营销型首页。
23. 界面简洁,重点是实时画面。
24. 工具栏放在画面下方或右侧,包含滤镜切换按钮、滤镜强度滑块、调试开关。
25. 调试模式可以显示手部关键点、FPS、当前检测状态。
26. 移动端和桌面端都要尽量适配。
MVP 验收标准
27. 浏览器能正常打开摄像头。
28. 能识别双手。
29. 双手拇指和食指形成的四边形能跟随手指实时变化。
30. 四边形内部滤镜生效,区域外不受影响。
31. 手指移动时区域跟随流畅,没有明显闪烁。
32. 可以切换至少四种滤镜。
33. 代码能本地运行,并提供启动说明。 请先实现一个可运行的 MVP。完成后说明项目结构、启动方式、核心代码逻辑,以及后续可以继续扩展的方向。
★ 收尾任务: 请先实现一个可运行的 MVP。完成后说明项目结构、启动方式、核心代码逻辑,以及后续可以继续扩展的方向。
清理C盘空间
我那台Windows电脑,用着用着就C盘就会时不时的爆满了,特别是急用的时候,C盘爆满真的会很烦。这次想用seed-2.1-pro试试能不能帮我清理一下。
经常看到网上说"把C盘交给AI清理,怎么敢的?"。
但我想了想,只要叫他分析出什么可以清理、什么不能清理,自己来做最终决定,其实也没这么可怕。
我给了它这样一个Prompt:
你是我的电脑清理助手。我的 C 盘只剩【15%】,系统 Windows 11。请:1) 调用 PowerShell 列出 C 盘占用最大的 10 个目录;2) 找出可安全清理的项(临时文件、缓存、旧更新包、休眠文件等),按风险分红/黄/绿三级;3) 明确告诉我哪些文件绝对不能删。
接入codex的豆包2.1 Pro给出了详细的 C 盘占用分布。
绿区的检测非常准确,可以放心一把梭哈的内容,一条一条给列清楚了。
清理黄区的时候,也会把注意事项都给出来,告诉你需要注意哪些东西。
我只是叫他分析一下,它还把清理脚本都写出来了。这做得挺周到。
这个清理脚本还做的很有辨识度,用不同颜色标注了不同危险等级的文件。
标出了哪些是绝对不能删除的文件。
贴心的提出了额外的建议。
一顿操作下来,C盘空间确实清理不少
根据图片创建可交互场景
这个场景试试多模态图像理解,外加创意场景生成。
我找了网上的一张图:一幅描绘国军烈士形象的手绘画,人物众多,造型各异,细节很复杂。
指令如下:
仔细观察图片中的人物,以及形态,各种样貌,描述准确。然后根据这张画创建可视化可交互场景
doubao-seed-2-1-pro-preview 的识图细节有点恐怖
它看到了很多我自己都没注意到的细节。连背景里不起眼的小人物,动作和表情都被它描述出来了。我自己盯着这张图看了半天,都没发现那么多东西...
最后生成的可交互场景,成品不算完美,但考虑到这幅画的复杂程度,我觉得还不错。
设计 CAD 图
这个场景看工程空间推理,我故意设计了一难一易两个任务来做对比。
我要画一个法兰盘:外径【100mm】、内径【50mm】、6 个螺栓孔均匀分布在直径 75mm 的圆周上(PCD)、螺纹 M8×1.25。请输出可以直接导入 AutoCAD 的脚本(AutoLISP 或 Python ezdxf),并标注公差、表面粗糙度和螺纹标准。
图纸上的公差也给标注好了。
它还写了个脚本方便后续对它进行修改。
这是在shareCAD中的效果
png图片效果
然后是更有难度的承重件任务:
我要设计一个家用楼梯,层高 2.8 米、开间 1.2 米、家里有老人。请按《民用建筑设计统一标准》GB 50352:1) 给出踏步宽×高、踏步数、休息平台尺寸,并说明依据;2) 标注哪些尺寸是规范强制的、哪些可调;3) 提示 3 个老人使用最容易出问题的点。
这是网页中的效果,看上去还真像那么回事。
关键参数都列出来了,规范来源、强制尺寸和可调部分都区分得清楚。
在 ShareCAD 中展示(这个楼梯图更复杂一点,效果没法兰盘好):
「最后」
火山引擎把这次的豆包2.1 Pro升级比作"质变点",我觉得 Agent 能力和 VLM 这两块确实撑得起这个说法。
Coding 还有提升空间,但长任务执行这块能力还不错。
总的来说综合能力很强,价格也比较实惠(每百万 Token 输入6元,缓存命中只要1.2元),如果你是专注Agent干活、办公,它真的是目前性价比最高的选择之一。
甚至在豆包App和网页版,它的Agent模式目前还是免费用~
如果你正好在用 Claude Code 或者 Codex,也可以拿火山方舟的 API 接一下试试,实际感受一下,很多东西真的不是看跑分能分辨的。
我是袋鼠帝,一个致力于帮你把AI变成生产力的博主。我们下期见~
能看到这里的都是凤毛麟角的存在!
如果觉得不错,随手点个赞、在看、转发三连吧~
如果想第一时间收到推送,也可以给我个星标⭐
谢谢你耐心看完我的文章~
热门跟贴