Computer Use Preview快速上手指南:用AI操控你的电脑

图片[1]-Computer Use Preview快速上手指南:用AI操控你的电脑-🎉数字奇遇🎉

引言:

想体验一下让AI帮你操控电脑的未来感吗?Google的Computer Use Preview模型就能让你初步体验这种能力。这个模型允许你通过自然语言指令,让AI在浏览器中执行各种任务,例如搜索信息、填写表单等等。本文将为你提供一个快速上手指南,帮助你配置和运行这个模型。

一、安装:准备工作

要使用Computer Use Preview模型,首先需要完成以下安装步骤:

  1. 克隆代码仓库:
    • 打开你的终端或命令提示符,使用git clone命令从GitHub克隆代码仓库到你的本地计算机:
    git clone https://github.com/google/computer-use-preview.git
    cd computer-use-preview
    
  2. 设置Python虚拟环境并安装依赖:
    • 为了隔离项目依赖,建议创建一个Python虚拟环境。使用以下命令创建并激活虚拟环境:
    python3 -m venv .venv
    source .venv/bin/activate
    
    • 安装项目所需的Python依赖包:
    pip install -r requirements.txt
    
  3. 安装Playwright和浏览器依赖:
    • Computer Use Preview模型使用Playwright来控制浏览器。你需要安装Playwright及其所需的系统依赖,以及Chrome浏览器:
    # 安装Playwright所需的系统依赖
    playwright install-deps chrome
    # 安装Chrome浏览器
    playwright install chrome
    

二、配置:选择你的后端

Computer Use Preview模型支持两种后端:Gemini Developer API和Vertex AI Client。你需要选择其中一种,并进行相应的配置。

A. 使用Gemini Developer API:

  1. 获取Gemini API Key:
    • 你需要一个有效的Gemini API Key才能使用该API。如果你还没有,请前往Google AI Studio获取。
  2. 设置环境变量:
    • 将你的Gemini API Key设置为环境变量GEMINI_API_KEY。你可以直接在终端中设置:
    export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"
    
    • 或者,将设置环境变量的命令添加到你的虚拟环境激活脚本 .venv/bin/activate中,这样每次激活虚拟环境时都会自动设置API Key:
    echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
    
    • 注意: 将YOUR_GEMINI_API_KEY替换为你实际的API Key。
    • 如果你的虚拟环境已经激活,你需要先停用 (deactivate) 再重新激活 (source .venv/bin/activate),才能使环境变量生效。

B. 使用Vertex AI Client:

  1. 启用Vertex AI:
    • 你需要明确指定使用Vertex AI。
  2. 设置环境变量:
    • 设置以下环境变量:
    export USE_VERTEXAI=true
    export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
    export VERTEXAI_LOCATION="YOUR_LOCATION"
    
    • 或者,将这些命令添加到你的虚拟环境激活脚本 .venv/bin/activate中:
    echo 'export USE_VERTEXAI=true' >> .venv/bin/activate
    echo 'export VERTEXAI_PROJECT="your-project-id"' >> .venv/bin/activate
    echo 'export VERTEXAI_LOCATION="your-location"' >> .venv/bin/activate
    
    • 注意: 将YOUR_PROJECT_IDYOUR_LOCATION替换为你实际的项目ID和位置。
    • 同样,如果你的虚拟环境已经激活,你需要先停用再重新激活才能使环境变量生效。

三、运行:让AI开始工作

配置完成后,就可以运行Computer Use Preview模型了。

  1. 使用main.py脚本:
    • main.py是主要的命令行界面 (CLI) 脚本,用于运行浏览器代理。
  2. 通用命令结构:
    • 运行脚本的基本命令结构如下:
    python main.py --query "你的自然语言指令"
    
  3. 可用环境:
    • 你可以使用--env <environment>标志指定运行环境。 可用的选项包括:
      • playwright: 使用Playwright在本地运行Chrome浏览器。
      • browserbase: 连接到Browserbase实例。
  4. 示例:
    • 使用本地Playwright运行:
    python main.py --query="去Google搜索'Hello World'并在搜索栏中输入" --env="playwright"
    
    • 你还可以为Playwright环境指定一个初始URL:
    python main.py --query="去Google搜索'Hello World'并在搜索栏中输入" --env="playwright" --initial_url="https://www.google.com/search?q=latest+AI+news"
    
    • 使用Browserbase运行:
    python main.py --query="去Google搜索'Hello World'并在搜索栏中输入" --env="browserbase"
    
    • 注意: 使用Browserbase时,请确保已设置正确的Browserbase环境变量:BROWSERBASE_API_KEYBROWSERBASE_PROJECT_ID

四、命令行参数和环境变量

以下是main.py脚本支持的命令行参数和环境变量:

参数/变量 描述 是否必需 默认值 支持的环境
--query 浏览器代理要执行的自然语言查询。 N/A 所有
--env 要使用的计算机使用环境。 必须是以下之一: playwright或browserbase。 N/A 所有
--initial_url 浏览器启动时加载的初始URL。 https://www.google.com 所有
--highlight_mouse 如果指定,代理将尝试在屏幕截图中突出显示鼠标光标的位置。 这对于可视化调试很有用。 False (不突出显示) playwright
GEMINI_API_KEY 你的Gemini模型的API密钥。
BROWSERBASE_API_KEY 你的Browserbase API密钥。 是 (当使用browserbase环境时)
BROWSERBASE_PROJECT_ID 你的Browserbase项目ID。 是 (当使用browserbase环境时)

五、总结

通过本文的指南,你应该能够成功安装、配置和运行Google的Computer Use Preview模型。现在,你可以尝试使用不同的自然语言指令,探索AI在浏览器自动化方面的潜力。 请记住,这只是一个预览模型,可能存在一些限制和错误。 随着技术的不断发展,我们期待看到更加强大和智能的AI浏览器代理出现。

google/computer-use-preview
https://github.com/google/computer-use-preview

© 版权声明
THE END
喜欢就支持一下吧
点赞403 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容