Skip to content
| Marketplace
Sign in
Visual Studio Code>Data Science>开源古籍平台New to Visual Studio Code? Get it now.
开源古籍平台

开源古籍平台

open-guji

| (0) | Free
一个涵盖古籍数字化全流程功能的开源 VS Code 插件
Installation
Launch VS Code Quick Open (Ctrl+P), paste the following command, and press enter.
Copied to clipboard
More Info

开源古籍平台 (Open Guji Platform)

Logo

一个功能完善的古籍数字化全流程 VS Code 扩展

License Version

📖 简介

开源古籍平台是一个专为古籍数字化设计的 VS Code 扩展,提供从资源采集、预处理、信息提取到校对编辑的完整工作流程。无论你是古籍研究者、数字人文学者,还是对中国古典文献感兴趣的开发者,这个工具都能帮助你高效地处理古籍资源。

✨ 核心功能

🗂️ 索引管理

  • 三层索引模型:Work (著作) → Collection (丛书) → Book (单书)
  • 本地/GitHub 双模式:支持本地文件夹或 GitHub 在线同步
  • 智能 ID 生成:基于 Snowflake + Base58 的唯一标识符
  • 索引浏览器:可视化浏览和搜索古籍索引

📥 资源采集

  • 14+ 网站适配器:支持国学网、CText、哈佛大学图书馆等主流古籍资源网站
  • 批量下载:自动下载图片和文本资源
  • 下载管理器:实时监控下载进度,支持暂停、恢复和重试
  • 智能解析:自动识别并提取古籍元数据

🔧 资源处理 (7 阶段数字化流程)

1️⃣ 初始化 (01_raw)

根据索引中的资源链接自动下载文字和图片资源

2️⃣ 预处理 (02_prep)

  • 图片预处理:调用 open-guji-cv 进行图像增强、去噪
  • 文本预处理:格式标准化、编码转换

3️⃣ 信息提取 (03_extract)

  • OCR 提取:集成 PaddleOCR 提取图片中的文字和排版信息
  • TeX 生成:结合文字基准和 OCR 数据生成 digital TeX
  • 质量分析:自动评估匹配率和覆盖率
  • 批量处理:支持单册或批量生成

4️⃣ 校对 (04_proofread)

  • 对比多个版本或手动修正错误
  • 可视化差异对比

5️⃣ 编辑 (05_edit)

  • 添加标点、注释、翻译等
  • 支持多种编辑模式

6️⃣ 排版 (06_layout)

  • 个性化排版设置
  • 支持多种输出格式

7️⃣ 发布 (07_publish)

  • 转换到不同平台所需的格式
  • 批量导出和发布

🎯 智能特性

  • 执行日志历史:每个任务的完整执行记录,支持查看历史日志
  • 前置条件检查:自动检查每册的文字基准、OCR 数据等依赖
  • 依赖管理:自动检测和配置外部依赖(如 open-guji-cv)
  • 统一命名规范:动态零填充,根据总数自动调整(vol01, vol001 等)

🚀 快速开始

安装

  1. 在 VS Code 中搜索并安装 "开源古籍平台"
  2. 或者从 VS Code Marketplace 下载

配置

  1. 打开命令面板(Ctrl+Shift+P / Cmd+Shift+P)
  2. 运行命令 古籍平台: 显示欢迎页面
  3. 在欢迎页面中配置:
    • 索引仓库路径(book-index 和 book-index-draft)
    • Python 解释器路径(默认 python3)
    • open-guji-cv 路径(可选,留空自动检测)

使用

  1. 创建项目

    • 点击侧边栏的古籍图标
    • 选择"新建项目"或"打开现有项目"
  2. 下载资源

    • 在项目看板中选择"初始化资源"
    • 输入资源网址或导入本地文件
  3. 处理流程

    • 依次进入各个阶段(预处理 → 信息提取 → 校对 → 编辑)
    • 每个阶段都有可视化的进度和状态显示

🛠️ 技术架构

  • 前端: TypeScript + React + VS Code Webview API
  • 后端: Python 3.8+
  • 核心模块:
    • book_index_manager: 索引存储和 ID 生成
    • book_index_ai: AI 元数据提取(Gemini/OpenAI/Ollama)
    • guji_resource_manager: 资源下载(14 个适配器)
    • merger: 文字基准与 OCR 数据合并
    • guji_layout: 排版和布局处理

📋 系统要求

  • VS Code: 1.85.0 或更高版本
  • Python: 3.8 或更高版本
  • Node.js: 16.x 或更高版本(开发时需要)
  • 操作系统: Windows / macOS / Linux

可选依赖

  • open-guji-cv: OCR 和图像处理(用于阶段 2 和 3)
  • PaddleOCR: OCR 引擎

📚 文档

  • 项目规划
  • Pipeline 概览
  • Merger 设计
  • 依赖管理

🤝 贡献

欢迎提交 Issue 和 Pull Request!

  1. Fork 本仓库
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 提交 Pull Request

开发环境设置

# 克隆仓库
git clone https://github.com/open-guji/guji-platform.git
cd guji-platform

# 安装依赖
npm install
pip install -e .

# 编译 TypeScript
npm run compile

# 构建 Webview
npm run esbuild-webviews

# 或一键构建所有
npm run build

# 在 VS Code 中按 F5 启动调试

📄 许可证

本项目采用 Apache License 2.0 许可证。

🔗 相关项目

  • book-index: 正式古籍索引仓库
  • book-index-draft: 草稿古籍索引仓库
  • open-guji-cv: 古籍图像处理和 OCR 工具

💬 联系我们

  • GitHub Issues: 提交问题
  • 讨论区: GitHub Discussions

🙏 致谢

感谢所有为古籍数字化事业做出贡献的研究者和开发者!


Made with ❤️ for preserving Chinese classical literature
  • Contact us
  • Jobs
  • Privacy
  • Manage cookies
  • Terms of use
  • Trademarks
© 2026 Microsoft