最近字节开源了自动化桌面办公的项目开源,这就是现在的UI-Tars-desktop,通过这个系统就可以实现桌面自动化办公,可以说这就是豆包电脑

如下是系统截图,通过视觉可视化UI完成解读UI来驱动系统自动化操作

打开网易新闻 查看精彩图片

目前这个产品到底使用如何,简单来说就是通过对话完成任务命令,就可以完成各类浏览器、与应用程序打开。

目前系统支持agent形式的CLI调用以及普通桌面形式使用,前者是可以将以及客户端2种方式,第一种是支持Web Ui或者CLI的形式,允许开发者进行调用与兼容,第二周则是原生桌面GUI,只能通过远程桌面完成自动化操作。

也就是官方系统了自动化的平台调用形式,如下是系统的演示,15秒时间完成了对比酒店信息与价格。

打开网易新闻 查看精彩图片

目前支持多个工具:从CLI命令行到可视化桌面窗口

现在最新版本在11月份更新了之后,支持结构化输出,查看最后的结果,并且适合系统批量处理。

能够支持自动debug相关任务流程命令

可以查询到AI的沟通记录,以及了解他为什么会这么干,以及了解过去的过程与步骤,从而优化提示词与界面,

从豆包手机再到“豆包”电脑,接下来白领会成为第一批淘汰的人

在最近大火的2025年底马斯克的2个半小时访谈里,就提到在2026年预计Grok就会达到AGI,同时第一批被淘汰的人就是用鼠标和键盘的这群白领。

这些人将首先最容易被AI替代,因为没有涉及到物理世界,使用的数据都是数据信号,没有物理原理,而真实世界会有物理世界,这些会逐步被空间智能与空间感知替代。

带着团队打通vision Pro与AndroidXR 以及空间计算与PC、手机

最近之所以发现这个项目,是因为我带着团队正在打破空间计算与PC电脑的隔阂,要是使用vision Pro的同学应该知道,我们现在都只能够投屏PC或手机,所以使用vision Pro总是感觉是割裂的,就是无法和自己的PC电脑进行交互,虽然你知道都是数字化的屏幕,这就导致体验是割裂的。

但是比较遗憾的,现在vision Pro还没有提供眼球数据,所以开发者不能够获取到精细化的选中,而只有AndroidXR提供了眼球数据。

所以后续这类豆包手机、电脑都会成为大大提升人类与系统交互的工具,就不需要每一次点击鼠标或鼠标键盘打字了,将其通过agent帮忙进行输入

另外相关开源项目的地址已经放在知识星球了,如果有需要可以在星期查看,今天的分享就到这里。

“关注我,一个产品经理的创业故事”

每日案例拆解库,今天的开源产品与APP拆解在这儿

我创建的产品设计打卡社群,加入后365天,每天体验一款APP。提升产品设计能力,同时有1300份体验报告帮助你找到竞品

在这里你可以随时查询到你想找的各类竞品行业APP,无须自己亲自下载就可以马上得到APP的一手产品优化、交互设计、功能描述信息。

从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度,体验一款应用。

平均1天1块钱,扫码购买即可加入

连续体验48款应用,通过后原路退回

报名后添加星球助理

PMTalk123