>_ DevTrendszh

语言

首页

语言

板块

前端 后端 移动端 DevOps AI / ML 游戏开发 区块链 安全
Python

Browser-use:当你的 AI 化身个人浏览器助手

101,774 星标

想象一下:无需手动填写表单、搜索产品或收集数据,你只需告诉 AI 需要完成什么任务——它就会在浏览器中自动执行。这就是 browser-use 提供的功能——一个已在 GitHub 获得 66k 星标的项目。

它是什么以及为什么你需要它

Browser-use 是一个 Python 库,可让你将 AI 代理(如 GPT-4o 或 Claude)连接到真实浏览器。从本质上讲,它是语言模型与网页之间的桥梁。

适用人群:

  • 厌倦编写数百行 Playwright/Selenium 代码的开发者
  • 希望自动化重复性任务的营销人员
  • 需要收集和分析数据的研究人员
  • 对反复执行相同浏览器操作感到厌烦的任何人

工作原理

安装过程简单直接:

pip install browser-use
playwright install chromium --with-deps --no-shell

以下是一个让 AI 比较 AI 模型价格的代码示例:

from browser_use import Agent
from browser_use.llm import ChatOpenAI

agent = Agent(
    task="Compare the price of gpt-4o and DeepSeek-V3",
    llm=ChatOpenAI(model="gpt-4o")
)
await agent.run()

核心特性

  1. 支持所有主流 LLM

    • OpenAI、Anthropic、Google、DeepSeek 等
    • 只需将 API 密钥添加到 .env 文件即可
  2. 实际应用场景

    • 自动化求职搜索和简历投递
    • 表单填写和文档提交
    • 价格比较和购买
  3. 模型上下文协议(MCP)集成

    • 连接 GitHub 或文件系统等额外服务
    • 构建复杂的任务链

实际应用案例

以下是文档中的几个示例:

  1. 自动化购买

    • AI 将商品加入购物车并完成结账

    自动化购买示例

  2. 求职搜索

    • 分析简历、匹配合适职位并提交申请
  3. 文档处理

    • 在 Google Docs 中撰写文档并保存为 PDF

技术细节

底层使用 Playwright 控制浏览器,并利用现代 LLM 进行决策。该项目正在积极开发中——路线图包括改进代理记忆、并行任务执行和令牌优化。

为什么值得一试

  • 节省大量重复性工作的时间
  • 易于集成到现有项目中
  • 活跃的社区和支持
  • 提供云版本,可快速上手

如果你想在浏览器中实现任何自动化——browser-use 可能成为你的新宠工具。最棒的是——你可以在短短 5 分钟内开始使用。

附注:作者会向活跃贡献者赠送周边商品——这是参与贡献的好理由!

相关项目