
一个功能完善的古籍数字化全流程 VS Code 扩展

📖 简介
开源古籍平台是一个专为古籍数字化设计的 VS Code 扩展,提供从资源采集、预处理、信息提取到校对编辑的完整工作流程。无论你是古籍研究者、数字人文学者,还是对中国古典文献感兴趣的开发者,这个工具都能帮助你高效地处理古籍资源。
✨ 核心功能
🗂️ 索引管理
- 三层索引模型:Work (著作) → Collection (丛书) → Book (单书)
- 本地/GitHub 双模式:支持本地文件夹或 GitHub 在线同步
- 智能 ID 生成:基于 Snowflake + Base58 的唯一标识符
- 索引浏览器:可视化浏览和搜索古籍索引
📥 资源采集
- 14+ 网站适配器:支持国学网、CText、哈佛大学图书馆等主流古籍资源网站
- 批量下载:自动下载图片和文本资源
- 下载管理器:实时监控下载进度,支持暂停、恢复和重试
- 智能解析:自动识别并提取古籍元数据
🔧 资源处理 (7 阶段数字化流程)
1️⃣ 初始化 (01_raw)
根据索引中的资源链接自动下载文字和图片资源
2️⃣ 预处理 (02_prep)
- 图片预处理:调用 open-guji-cv 进行图像增强、去噪
- 文本预处理:格式标准化、编码转换
- OCR 提取:集成 PaddleOCR 提取图片中的文字和排版信息
- TeX 生成:结合文字基准和 OCR 数据生成 digital TeX
- 质量分析:自动评估匹配率和覆盖率
- 批量处理:支持单册或批量生成
4️⃣ 校对 (04_proofread)
5️⃣ 编辑 (05_edit)
6️⃣ 排版 (06_layout)
7️⃣ 发布 (07_publish)
🎯 智能特性
- 执行日志历史:每个任务的完整执行记录,支持查看历史日志
- 前置条件检查:自动检查每册的文字基准、OCR 数据等依赖
- 依赖管理:自动检测和配置外部依赖(如 open-guji-cv)
- 统一命名规范:动态零填充,根据总数自动调整(vol01, vol001 等)
🚀 快速开始
安装
- 在 VS Code 中搜索并安装 "开源古籍平台"
- 或者从 VS Code Marketplace 下载
配置
- 打开命令面板(
Ctrl+Shift+P / Cmd+Shift+P)
- 运行命令
古籍平台: 显示欢迎页面
- 在欢迎页面中配置:
- 索引仓库路径(book-index 和 book-index-draft)
- Python 解释器路径(默认
python3)
- open-guji-cv 路径(可选,留空自动检测)
使用
创建项目
- 点击侧边栏的古籍图标
- 选择"新建项目"或"打开现有项目"
下载资源
- 在项目看板中选择"初始化资源"
- 输入资源网址或导入本地文件
处理流程
- 依次进入各个阶段(预处理 → 信息提取 → 校对 → 编辑)
- 每个阶段都有可视化的进度和状态显示
🛠️ 技术架构
- 前端: TypeScript + React + VS Code Webview API
- 后端: Python 3.8+
- 核心模块:
book_index_manager: 索引存储和 ID 生成
book_index_ai: AI 元数据提取(Gemini/OpenAI/Ollama)
guji_resource_manager: 资源下载(14 个适配器)
merger: 文字基准与 OCR 数据合并
guji_layout: 排版和布局处理
📋 系统要求
- VS Code: 1.85.0 或更高版本
- Python: 3.8 或更高版本
- Node.js: 16.x 或更高版本(开发时需要)
- 操作系统: Windows / macOS / Linux
可选依赖
📚 文档
🤝 贡献
欢迎提交 Issue 和 Pull Request!
- Fork 本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature)
- 提交更改 (
git commit -m 'Add some AmazingFeature')
- 推送到分支 (
git push origin feature/AmazingFeature)
- 提交 Pull Request
开发环境设置
# 克隆仓库
git clone https://github.com/open-guji/guji-platform.git
cd guji-platform
# 安装依赖
npm install
pip install -e .
# 编译 TypeScript
npm run compile
# 构建 Webview
npm run esbuild-webviews
# 或一键构建所有
npm run build
# 在 VS Code 中按 F5 启动调试
📄 许可证
本项目采用 Apache License 2.0 许可证。
🔗 相关项目
💬 联系我们
🙏 致谢
感谢所有为古籍数字化事业做出贡献的研究者和开发者!
Made with ❤️ for preserving Chinese classical literature
| |