原创

[EPUB]第一次完整整理一本电子书

前言

最近在看一本书籍,因为是旧书,没有epub格式的版本,只找到pdf扫描版本,为了方便阅读,想办法扫描后OCR识别,并且人工整理成epub了。下面简单说下步骤。

步骤

我通过下面四个步骤,进行整理

1. pdf扫描工具

现在OCR识别已经有长足进展,识别率非常高,基本上90%的识别率是没问题的,我这里使用腾讯云的OCR批量识别工具,直接将pdf转为图片,图片批量上传上去识别,识别成功后,直接下载结果。

腾讯云OCR批量识别工具

2. 整理格式为markdown

我下载了导出结果txt,基于txt,并且按照每一章新建了一个md文件(markdown)。

md文件列表

大标题使用#,小标题使用##,其他内容使用回车即可,这里关键是,识别出来的txt文件,断句断行有问题,需要手工去调整。其他的需要调整的内容基本都是标点,这个最后面处理

3. 整理为xhtml

当从txt整理好,并且调为md后,就可以开始依照pdf内容,进行一次粗略的校对,(我花了3天),每天1-2章的速度进行校对。校对之后,开始进行xhtml格式的转换,我这里采用手动的方式。

主标题使用<h1>标签,子标题使用<h2>标签,如下:

<h1>第七章 农民通讯员</h1>

<h2>1.老朋友也成了“五风”干部</h2>

其他的文章内容,直接采用<p>标签即可。

<p>王升平怕担风险,说:“我是犯过错误的干部,已经削职为民了!”</p>

4. calibre新建整理成书

在calibre中,点击添加书籍->添加空白书籍

1. 样式

在编辑书籍中,样式layout中添加,djc8.css样式表,如下内容:


@charset "utf-8";
html, body, h1, h2, p {
  margin: 0;
  padding: 0;
  border: 0;
  font-size: 100%;
  vertical-align: baseline;
}
body {
  text-align: justify;
  line-height: 120%;
}
h1 {
  text-indent: 0;
  text-align: center;
  margin: 100px 0 0 0;
  font-size: 2em;
  font-weight: bold;
  page-break-before: always;
}
h2 {
  text-indent: 0;
  text-align: center;
  margin: 50px 0 0 0;
  font-size: 1.5em;
  font-weight: bold;
  page-break-before: always;
}
p {
  margin: 0;
  display: block;
  text-indent: 2em;
  margin: 1em 0;
}
@media amzn-kf8 {
  span.dropcap {
    font-size: 300%;
    font-weight: bold;
    height: 1em;
    float: left;
    margin: -0.2em 0.1em 0 0.1em;
  }
  p.clearit {
    clear: both;
  }
  ol, ul, li, dl, dt, dd {
    margin: 0;
    padding: 0;
    border: 0;
    font-size: 100%;
    vertical-align: baseline;
  }
  /*==Lists ==*/
  ul {
    margin: 1em 0 0 2em;
    text-align: left;
  }
  ol {
    margin: 1em 0 0 2em;
    text-align: left;
  }
  table {
    border-collapse: collapse;
    border-spacing: 0;
    margin: 1em auto;
  }
  tr, th, td {
    margin: 0;
    padding: 2px;
    border: 1px solid black;
    font-size: 100%;
    vertical-align: baseline;
  }
}
@media amzn-mobi {
  /* pseudo dropcaps for e-ink Kindles */
  span.dropcap {
    font-size: 1.5em;
    font-weight: bold;
  }
}

2. 章节

依次添加章节内容,如下图

file

3. 目录

点击编辑目录按钮,因为我们使用标准的标题标签,所以可以直接自动生成,点击从所有的标题中生成目录即可。

file

4. 其他

书籍版权页、书籍封面这些都可以自己慢慢研究添加,这里不多赘述了。

5. 发布到zlibrary

登陆到zlibrary中,直接上传,并且编辑数目内容即可。(略)

总结

以上就是一篇简单快速的整理epub电子书的教程,这些内容都是我实际操作得出来的,同时整理的电子书绝对不能用于任何商业上的用途,仅限于自己学习使用,因为涉及版权,请各位重视!

这篇文章只是管中窥豹的介绍,很多电子书的制作教程更加规范,更加的系统,请自行搜索阅读,同时这也是一本简单的ocr扫描pdf并且转成文本的教程,主要还是用到了腾讯云的功能,感谢腾讯云每个月免费提供的1000次调用,可以学习到不少东西!点赞,推荐!

本文来自:[EPUB]第一次完整整理一本电子书-小码农,转载请保留本条链接,感谢!

温馨提示:
本文最后更新于 2023年02月19日,已超过 671 天没有更新。若文章内的图片失效(无法正常加载),请留言反馈或直接联系我
正文到此结束
本文目录