Browser-use:当你的 AI 化身个人浏览器助手
101,774 星标
想象一下:无需手动填写表单、搜索产品或收集数据,你只需告诉 AI 需要完成什么任务——它就会在浏览器中自动执行。这就是 browser-use 提供的功能——一个已在 GitHub 获得 66k 星标的项目。
它是什么以及为什么你需要它
Browser-use 是一个 Python 库,可让你将 AI 代理(如 GPT-4o 或 Claude)连接到真实浏览器。从本质上讲,它是语言模型与网页之间的桥梁。
适用人群:
- 厌倦编写数百行 Playwright/Selenium 代码的开发者
- 希望自动化重复性任务的营销人员
- 需要收集和分析数据的研究人员
- 对反复执行相同浏览器操作感到厌烦的任何人
工作原理
安装过程简单直接:
pip install browser-use
playwright install chromium --with-deps --no-shell
以下是一个让 AI 比较 AI 模型价格的代码示例:
from browser_use import Agent
from browser_use.llm import ChatOpenAI
agent = Agent(
task="Compare the price of gpt-4o and DeepSeek-V3",
llm=ChatOpenAI(model="gpt-4o")
)
await agent.run()
核心特性
-
支持所有主流 LLM
- OpenAI、Anthropic、Google、DeepSeek 等
- 只需将 API 密钥添加到 .env 文件即可
-
实际应用场景
- 自动化求职搜索和简历投递
- 表单填写和文档提交
- 价格比较和购买
-
模型上下文协议(MCP)集成
- 连接 GitHub 或文件系统等额外服务
- 构建复杂的任务链
实际应用案例
以下是文档中的几个示例:
-
自动化购买
- AI 将商品加入购物车并完成结账

-
求职搜索
- 分析简历、匹配合适职位并提交申请
-
文档处理
- 在 Google Docs 中撰写文档并保存为 PDF
技术细节
底层使用 Playwright 控制浏览器,并利用现代 LLM 进行决策。该项目正在积极开发中——路线图包括改进代理记忆、并行任务执行和令牌优化。
为什么值得一试
- 节省大量重复性工作的时间
- 易于集成到现有项目中
- 活跃的社区和支持
- 提供云版本,可快速上手
如果你想在浏览器中实现任何自动化——browser-use 可能成为你的新宠工具。最棒的是——你可以在短短 5 分钟内开始使用。
附注:作者会向活跃贡献者赠送周边商品——这是参与贡献的好理由!
相关项目