返回技能中心
Google Gemini 媒体

Google Gemini 媒体

@xsir0
developmentMultimodal AIMedia ProcessingGemini API

整合六项 Google Gemini API 功能的多模态媒体处理技能:图像生成与理解、视频生成与理解、语音生成(TTS)和音频理解,支持内联和文件 API 模式。

🚀 Google Gemini Media 为您的项目带来 AI 驱动的图像、视频和音频功能。从文本生成精美图像和视频,通过智能分析理解视觉内容,将文本转换为自然语音,转录音频——所有功能集于一个统一的技能中,提供简单易用的工作流。

💡 适合内容创作者、构建多模态应用的开发者和需要 AI 媒体处理的团队。用于生成营销视觉、分析客户视频、创建无障碍音频叙述或从录制的对话中提取见解——无需复杂集成。

✨ 基于谷歌最新模型(图像用 Nano Banana、视频用 Veo 3.1、原生 Gemini TTS),提供灵活的输入选项和 Node.js 与 REST 的生产就绪模板。

GitHub

要求

Google Gemini API Key

Google Gemini 服务的 API 密钥认证(设置为 GEMINI_API_KEY 环境变量)

Node.js

需要 Node.js 18 或更高版本

@google/genai

Google Gen AI 官方 Node.js SDK