返回技能中心
Gemini 语音转文字

Gemini 语音转文字

@araa47
developmentspeech-to-textGemini APIaudio-transcription

使用 Google Gemini API 或 Vertex AI 转录音频文件,支持多种格式(OGG、MP3、WAV、M4A)。提供灵活的身份验证方式(ADC 或 API 密钥)、可配置的模型选择,以及使用 gemini-2.0-flash-lite 作为默认模型的优化性能。

🚀 使用谷歌 Gemini API 即时将音频文件转换为文本。支持 MP3、WAV、M4A、OGG 和 OPUS 格式,无需外部依赖。选择直接 API 密钥或 Google Cloud Vertex AI——脚本自动检测您的设置并选择最快的转录模型。

💡 完美用于转录语音消息、播客片段、会议录音和 Telegram 语音笔记。适合聊天机器人、无障碍功能和自动化内容处理。与 Clawdbot 媒体工作流无缝集成。

✨ 默认使用闪电般快速的 gemini-2.0-flash-lite,提供灵活的模型选择以平衡质量和速度。安全的身份验证选项和简单的单命令使用方式使所有开发人员都能轻松使用。

GitHub

要求

GEMINI_API_KEY

Google Gemini API 密钥用于直接 API 身份验证(Vertex AI 的替代方案)

Gemini 语音转文字 - 音频转录 | OpenClaw Skills | Openclawd hub