返回技能中心
PyMuPDF PDF 解析器

PyMuPDF PDF 解析器

@kesslerio
developmentPDF parsingtext extractionlightweight

一个基于 PyMuPDF (fitz) 的快速、轻量级 PDF 解析技能,用于快速文本提取。支持 Markdown 和 JSON 输出格式,可选图像提取功能,适合批量处理和对速度要求高的应用。

🚀 使用 PyMuPDF PDF 解析器在几秒内提取 PDF 文本。这个轻量级 Clawdbot 技能以约 1 秒/页的速度处理文档,以 Markdown 或 JSON 格式提供清晰文本。无需重型依赖或复杂设置,完美用于快速文本提取。

💡 适合批量处理、快速文档扫描或需要快速结果的场景。提取嵌入图像、近似表格结构并自动组织输出。对于优先考虑速度而非布局精度的开发者来说非常实用。

✨ 与更重的替代方案不同,PyMuPDF 仅需单个 pip 安装,生成最小化、专注的输出。无需下载大型模型——只需可靠、快速的解析。

GitHub

要求

pymupdf

用于 PDF 解析和文本提取的 PyMuPDF 库