GoForum🌐 V2EX

搞了一个比 agent browser 更省 token,不依赖 Node/Playwright 的 Agent 浏览器...

libii · 2026-04-02 16:09 · 0 次点赞 · 0 条回复

地址

https://github.com/libi/ko-browser

原理

利用 chrome 浏览器的辅助模式在快照阶段使用 axtree 构建一个纯文本的节点树,每个元素有一个唯一 ID. Agent 操作都基于纯数字的 id(例如填写输入框 kbr fill 4 xxx),所以非常节省 Token.

节点数结构示例:

Page: "Google"

1: link "Gmail"
2: link "Images"
3: link "Maps"
4: textbox "Search" focused
5: button "Google Search"
6: list
  7: listitem
    8: link "About Google"
  9: listitem
    10: link "Advertising"
11: heading "Trending"
12: link "Breaking news: Major tech announcement"
13: img "Google Logo"

安装使用说明

欢迎大家试用哈, 使用 golang 的 chromedp 封装实现的.目前已经覆盖了 90%以上的常用指令.

本地有 go 环境的话 go install github.com/libi/ko-browser/cmd/kbr@v0.1.1 就安装好了. 使用 kbr 指令即可.

没有 go 环境,就直接去 github 的 release 页面下载编译好的二进制包,全平台支持.

项目状态:

我目前尽可能完善了大部分的指令和参数的单元测试,跑了一些自己内部的 jenkins 界面操作都能跑通.更多更细致的场景还没有覆盖到,欢迎大家提交问题反馈哈.

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: libii
发布: 2026-04-02
点赞: 0
回复: 0