本神情由清华大学鲁继文栽种团队的张博、张博睿、江承昊、史明磊,以及极佳视界的本领团队共同完成。有筹算团队热忱接待社区反应与本领孝顺,期待与天下成立者共同拓展智能体在数字职责场景中的哄骗规模。Syll 是一个居住在你电脑屏幕边的智能体,它匡助照管那些差点被淡忘的草稿、文献、旧像片和未竟之事。若是你自在教它一次,它会记取旅途:那儿需要看,那儿需重心,何时敲号令,何时用器用。下一次,它就能沿着你留住的陈迹完成任务。Syll 不单会点屏幕,也不单会调用接口。GUI、CLI、MCP 齐是它不错走的小路;你仍然不错随时停驻它、搜检它、从头教它。愿它成为你的伙伴,而不是替你作念主的机器。

面前个东谈主 AI 智能体濒临界面割裂、教授门槛高、扩充不透明、阴事与定制穷困等问题。无数 AI 系统主要依赖 API 或号令行完成任务,难以粉饰闭源桌面软件;无为用户也很难用低门槛容貌造就 AI 完成我方的职责历程;扩充过程缺少直不雅可查的依据,云表有筹算还可能带来数据安全与二次成立受限等问题。

为措置这些难题,清华大学智能视觉推行室团队开源了多模态全交互智能体框架 Syll。Syll 相沿 GUI、CLI、MCP/API 等多种操作容貌,并通过调和多模态扩充智力、GUI 手段示教、全程可审计跟踪与土产货模块化架构,打造更易用、更委果、更安全且更适合二次成立的个东谈主自动化智能体框架。

Syll 的中枢联想理念包括:

Syll 具备调和的多模态扩充智力,原生兼容 MCP/API、号令行 CLI 与视觉 GUI 三种操作容貌,不祥笔据不同任务场景聘用合适的扩充旅途,达成更天的确电脑操控。

Syll 相沿「示教即手段」机制。用户无需编写代码或手动设定复杂规矩,只需把任务手动操作一遍,Syll 便可自动录制历程、索要重要形状,并将其千里淀为可复用的智能体手段。

Syll 搭配多模态审计体系,AI 扩充的每一步操作齐会留住明晰可查的纪录,全程透明可视化,让使用过程看得见、更委果。

Syll 接受土产货模块化架构,世界杯(中国)用户的牵记、手段、规矩及个东谈主偏好齐不错以可裁剪文献的体式存储在土产货,既保险数据阴事安全,又具备较高的推广性。

Syll 联想开端不是在 GUI、CLI、MCP 之间聘用,而是把它们放进归并个扩充回路:需要不雅察界面时走 GUI,需要批量处理时切 CLI,需要连气儿就业时走 MCP/API。这么造成一个更好意思满的行动空间,让智能体在不同职责名义之间当然流转。

Syll 把 GUI 扫尾视为行动空间的一部分,而不是 API 不行用时的临时补丁。它需要学会不雅察屏幕、定位目的、处理弹窗、恭候景象变化,并在合乎的时分切换到号令行或器用接口,幸免把通盘问题齐变成木讷的点击。

Syll 聘用了另一条更当然的旅途:示教即手段。用户照风俗把事情作念一遍,Syll 在后台纪录重要视觉锚点、鼠标键盘窗口景象变化、任务高下文等信息,生成可复用的手段。学到的是「怎样完成任务」,而不是并立的按钮坐标。

Syll 的扩充过程会留住可搜检的轨迹,确保每次屏幕操作与界面景象变更均可被纪录、回放与审计。用户永远保有对重要决策的最终把控权,造成机器扩充到东谈主审核的考据闭环,进步自动化终结的同期确保系统的可控性与可解说性。
Syll 的牵记、手段、规矩和偏好齐以土产货可裁剪文献的体式组织。对无为用户来说,在前端面板就能完成模子确立、手段管制、定时任务和昔时对话。对成立者来说,Syll 的工程特质是高度模块化与可推广性,提供清雅的代码基础。
Syll 仍然处在早期 public alpha,会抓续爱护和迭代,相沿更多真确任务,同期保抓框架的浮松性与可推广性,也接待社区进行二次成立。它会少许点变得更懂你世界杯(中国),无意帮你完成复杂历程,无意仅仅轻轻指示一句。