![图片[1]-Computer Use Preview快速上手指南:用AI操控你的电脑-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2025/10/a4776aef4020251011090909.webp)
引言:
想体验一下让AI帮你操控电脑的未来感吗?Google的Computer Use Preview模型就能让你初步体验这种能力。这个模型允许你通过自然语言指令,让AI在浏览器中执行各种任务,例如搜索信息、填写表单等等。本文将为你提供一个快速上手指南,帮助你配置和运行这个模型。
一、安装:准备工作
要使用Computer Use Preview模型,首先需要完成以下安装步骤:
- 克隆代码仓库:
- 打开你的终端或命令提示符,使用git clone命令从GitHub克隆代码仓库到你的本地计算机:
 git clone https://github.com/google/computer-use-preview.git cd computer-use-preview
- 打开你的终端或命令提示符,使用
- 设置Python虚拟环境并安装依赖:
- 为了隔离项目依赖,建议创建一个Python虚拟环境。使用以下命令创建并激活虚拟环境:
 python3 -m venv .venv source .venv/bin/activate- 安装项目所需的Python依赖包:
 pip install -r requirements.txt
- 安装Playwright和浏览器依赖:
- Computer Use Preview模型使用Playwright来控制浏览器。你需要安装Playwright及其所需的系统依赖,以及Chrome浏览器:
 # 安装Playwright所需的系统依赖 playwright install-deps chrome # 安装Chrome浏览器 playwright install chrome
二、配置:选择你的后端
Computer Use Preview模型支持两种后端:Gemini Developer API和Vertex AI Client。你需要选择其中一种,并进行相应的配置。
A. 使用Gemini Developer API:
- 获取Gemini API Key:
- 你需要一个有效的Gemini API Key才能使用该API。如果你还没有,请前往Google AI Studio获取。
 
- 设置环境变量:
- 将你的Gemini API Key设置为环境变量GEMINI_API_KEY。你可以直接在终端中设置:
 export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"- 或者,将设置环境变量的命令添加到你的虚拟环境激活脚本.venv/bin/activate中,这样每次激活虚拟环境时都会自动设置API Key:
 echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate- 注意: 将YOUR_GEMINI_API_KEY替换为你实际的API Key。
- 如果你的虚拟环境已经激活,你需要先停用 (deactivate) 再重新激活 (source .venv/bin/activate),才能使环境变量生效。
 
- 将你的Gemini API Key设置为环境变量
B. 使用Vertex AI Client:
- 启用Vertex AI:
- 你需要明确指定使用Vertex AI。
 
- 设置环境变量:
- 设置以下环境变量:
 export USE_VERTEXAI=true export VERTEXAI_PROJECT="YOUR_PROJECT_ID" export VERTEXAI_LOCATION="YOUR_LOCATION"- 或者,将这些命令添加到你的虚拟环境激活脚本.venv/bin/activate中:
 echo 'export USE_VERTEXAI=true' >> .venv/bin/activate echo 'export VERTEXAI_PROJECT="your-project-id"' >> .venv/bin/activate echo 'export VERTEXAI_LOCATION="your-location"' >> .venv/bin/activate- 注意: 将YOUR_PROJECT_ID和YOUR_LOCATION替换为你实际的项目ID和位置。
- 同样,如果你的虚拟环境已经激活,你需要先停用再重新激活才能使环境变量生效。
 
三、运行:让AI开始工作
配置完成后,就可以运行Computer Use Preview模型了。
- 使用main.py脚本:- main.py是主要的命令行界面 (CLI) 脚本,用于运行浏览器代理。
 
- 通用命令结构:
- 运行脚本的基本命令结构如下:
 python main.py --query "你的自然语言指令"
- 可用环境:
- 你可以使用--env <environment>标志指定运行环境。 可用的选项包括:- playwright: 使用Playwright在本地运行Chrome浏览器。
- browserbase: 连接到Browserbase实例。
 
 
- 你可以使用
- 示例:
- 使用本地Playwright运行:
 python main.py --query="去Google搜索'Hello World'并在搜索栏中输入" --env="playwright"- 你还可以为Playwright环境指定一个初始URL:
 python main.py --query="去Google搜索'Hello World'并在搜索栏中输入" --env="playwright" --initial_url="https://www.google.com/search?q=latest+AI+news"- 使用Browserbase运行:
 python main.py --query="去Google搜索'Hello World'并在搜索栏中输入" --env="browserbase"- 注意: 使用Browserbase时,请确保已设置正确的Browserbase环境变量:BROWSERBASE_API_KEY和BROWSERBASE_PROJECT_ID。
 
四、命令行参数和环境变量
以下是main.py脚本支持的命令行参数和环境变量:
| 参数/变量 | 描述 | 是否必需 | 默认值 | 支持的环境 | 
|---|---|---|---|---|
| --query | 浏览器代理要执行的自然语言查询。 | 是 | N/A | 所有 | 
| --env | 要使用的计算机使用环境。 必须是以下之一: playwright或browserbase。 | 否 | N/A | 所有 | 
| --initial_url | 浏览器启动时加载的初始URL。 | 否 | https://www.google.com | 所有 | 
| --highlight_mouse | 如果指定,代理将尝试在屏幕截图中突出显示鼠标光标的位置。 这对于可视化调试很有用。 | 否 | False(不突出显示) | playwright | 
| GEMINI_API_KEY | 你的Gemini模型的API密钥。 | 是 | ||
| BROWSERBASE_API_KEY | 你的Browserbase API密钥。 | 是 (当使用browserbase环境时) | ||
| BROWSERBASE_PROJECT_ID | 你的Browserbase项目ID。 | 是 (当使用browserbase环境时) | 
五、总结
通过本文的指南,你应该能够成功安装、配置和运行Google的Computer Use Preview模型。现在,你可以尝试使用不同的自然语言指令,探索AI在浏览器自动化方面的潜力。 请记住,这只是一个预览模型,可能存在一些限制和错误。 随着技术的不断发展,我们期待看到更加强大和智能的AI浏览器代理出现。
google/computer-use-preview
https://github.com/google/computer-use-preview
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
    












 
        
暂无评论内容