一个基于 AI 的浏览器自动化工具,支持 DeepSeek,Star 28K+!

今天介绍的项目核心功能是让AI能够控制浏览器,从而实现自动化操作和任务执行-browser-use
01 
— 
 browser-use 介绍 

一款强大的开源浏览器自动化工具,旨在通过AI代理实现浏览器的自动化操作。它允许用户通过简单的代码或图形界面,让AI控制浏览器完成各种任务,例如浏览网页、交互操作、自动化流程等。支持多种AI模型,特别值得一提的是,Browser-Use还支持DeepSeek模型,用户可以通过简单的自然语言指令,轻松实现浏览器的自动化操作。

图片

🏠  项目信息

#github地址https://github.com/browser-use/browser-use#项目地址https://browser-use.com/

🚀功能特性

  • 多标签页管理:支持同时管理多个浏览器标签页,这使得在处理复杂任务时(如多任务操作或需要同时打开多个网页的场景)更加高效。

  • 视觉识别与内容提取:能够自动解析网页内容,提取文本、图片等视觉元素以及 HTML 结构,为 AI 代理提供丰富的输入信息。

  • 操作记录与重复执行:可以记录 AI 在浏览器中执行的操作,并能够重复这些操作。

  • 自定义动作支持:除了内置的自动化操作外,开发者还可以注册自定义动作,例如保存文件、推送到数据库、发送通知等。

  • 主流 LLM 模型支持:兼容多种大型语言模型(LLM),包括但不限于 GPT-4、Claude、Llama 以及 DeepSeek。

  • 自我纠正:在处理网页任务时,AI 代理可能会遇到各种预料之外的情况。Browser-Use 提供自我纠正机制,允许 AI 代理在发现错误时重新尝试或调整策略,从而提高任务执行的成功率

  • 并行化多个代理:允许并行运行多个 AI 代理,这些代理可以共享同一个浏览器实例,但每个代理都有自己独立的上下文环境,确保任务之间的独立性,有助于提高任务执行的效率。

  • Web UI 支持: 提供了基于 Web 的用户界面,使得没有编程经验的用户也能通过图形界面与 AI 模型进行交互,完成复杂的网页操作。

02

 browser-use 安装 

克隆项目

git clone https://github.com/browser-use/browser-use.gitcd browser-use

创建虚拟环境(推荐使用 Python 3.11 或更高版本)

conda create -n browser-use python=3.12conda activate browser-use

安装依赖

pip install browser-use playwrightplaywright install

测试 UI:如果你想通过图形界面测试 Browser-Use 的功能,可以运行以下代码:

pip install gradiopython examples/ui/gradio_demo.py

这将启动一个基于 Gradio 的 Web UI,可以通过浏览器访问并测试不同的任务

03
 browser-use 使用 

接入DeepSeek-V3,作为AI引擎,任务是让 AI 代理访问 Reddit,搜索“DeepSeek,点击第一个帖子并返回第一条评论:

#编辑example.pyfrom langchain_openai import ChatOpenAIfrom browser_use import Agentfrom pydantic import SecretStr

# Initialize the model,兼容OpenAI格式llm=ChatOpenAI(base_url='https://api.deepseek.com/v1', model='deepseek-chat', api_key=SecretStr(api_key))# Create agent with the modelagent = Agent(    task="访问 Reddit,搜索“DeepSeek,点击第一个帖子并返回第一条评论",    llm=llm,    use_vision=False)#编辑.env文件DEEPSEEK_API_KEY="你的DeepSeek APIkey"
#运行文件python example.py

DEMO:将杂货添加到购物车中,并结账。

图片

DEMO:将我的最新LinkedIn关注者添加到Salesforce中的潜在客户名单里。

图片

DEMO: 阅读我的简历,找到机器学习相关的工作岗位,将它们保存到一个文件中,然后在新的标签页中开始申请这些工作。如果你需要帮助,就问我。

图片

DEMO:在Google文档中给我的爸爸写一封信,感谢他为我做的一切,并将文档保存为PDF格式。

图片
 
04
 最后 

由此可见,browser-use是一款极具创新性的开源工具,通过AI技术为浏览器操作带来了前所未有的自动化能力,不仅支持多标签页管理、视觉识别与内容提取,还能记录并重复操作,极大地提升了任务执行的效率和灵活性。如果你正在寻找一种高效、灵活且易于上手的浏览器AI自动化解决方案,Browser-Use 值得一试!

来源:微信公众号“有趣的开源集市”

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注