返回技能中心

Google Gemini 媒体
@xsir0
developmentMultimodal AIMedia ProcessingGemini API
整合六项 Google Gemini API 功能的多模态媒体处理技能:图像生成与理解、视频生成与理解、语音生成(TTS)和音频理解,支持内联和文件 API 模式。
🚀 Google Gemini Media 为您的项目带来 AI 驱动的图像、视频和音频功能。从文本生成精美图像和视频,通过智能分析理解视觉内容,将文本转换为自然语音,转录音频——所有功能集于一个统一的技能中,提供简单易用的工作流。
💡 适合内容创作者、构建多模态应用的开发者和需要 AI 媒体处理的团队。用于生成营销视觉、分析客户视频、创建无障碍音频叙述或从录制的对话中提取见解——无需复杂集成。
✨ 基于谷歌最新模型(图像用 Nano Banana、视频用 Veo 3.1、原生 Gemini TTS),提供灵活的输入选项和 Node.js 与 REST 的生产就绪模板。