返回技能中心
Gemini 计算机使用

Gemini 计算机使用

@am-will
developmentbrowser automationcomputer visionagent framework

一个AI代理框架,使Google Gemini能够通过自动化计算机视觉和操作执行与网络浏览器交互。捕获屏幕截图、解释视觉内容,并执行点击、输入和导航等浏览器操作以完成用户定义的目标。

🚀 Gemini Computer Use 让 AI 代理像人类一样与网站和应用交互。它捕获屏幕截图、理解屏幕内容,并执行点击、输入和滚动等操作。无需编写复杂代码,即可自动化浏览器任务。

💡 用它来提取网站数据、填写表单、导航复杂界面或完成多步骤在线流程。代理从每个操作中学习并自适应——非常适合需要实时决策的研究、测试和工作流自动化。

✨ 内置安全功能让你在执行前审查风险操作,你可以轻松阻止不需要的行为。在沙箱环境中运行以实现安全、可控的自动化。

GitHub

要求

Google Gemini API

Google Gemini模型访问的API密钥

google-genai

Google生成式AI Python客户端库

playwright

用于跨浏览器测试的浏览器自动化框架

chromium

Playwright的Chromium浏览器引擎