[EPUB]第一次完整整理一本电子书
前言
最近在看一本书籍,因为是旧书,没有epub格式的版本,只找到pdf扫描版本,为了方便阅读,想办法扫描后OCR识别,并且人工整理成epub了。下面简单说下步骤。
步骤
我通过下面四个步骤,进行整理
1. pdf扫描工具
现在OCR识别已经有长足进展,识别率非常高,基本上90%的识别率是没问题的,我这里使用腾讯云的OCR批量识别工具
,直接将pdf转为图片,图片批量上传上去识别,识别成功后,直接下载结果。
2. 整理格式为markdown
我下载了导出结果txt,基于txt,并且按照每一章新建了一个md文件(markdown)。
大标题使用#
,小标题使用##
,其他内容使用回车即可,这里关键是,识别出来的txt
文件,断句断行有问题,需要手工去调整。其他的需要调整的内容基本都是标点,这个最后面处理
3. 整理为xhtml
当从txt整理好,并且调为md后,就可以开始依照pdf内容,进行一次粗略的校对,(我花了3天),每天1-2章的速度进行校对。校对之后,开始进行xhtml
格式的转换,我这里采用手动的方式。
主标题使用<h1>
标签,子标题使用<h2>
标签,如下:
<h1>第七章 农民通讯员</h1>
<h2>1.老朋友也成了“五风”干部</h2>
其他的文章内容,直接采用<p>
标签即可。
<p>王升平怕担风险,说:“我是犯过错误的干部,已经削职为民了!”</p>
4. calibre新建整理成书
在calibre中,点击添加书籍
->添加空白书籍
1. 样式
在编辑书籍中,样式layout
中添加,djc8.css
样式表,如下内容:
@charset "utf-8";
html, body, h1, h2, p {
margin: 0;
padding: 0;
border: 0;
font-size: 100%;
vertical-align: baseline;
}
body {
text-align: justify;
line-height: 120%;
}
h1 {
text-indent: 0;
text-align: center;
margin: 100px 0 0 0;
font-size: 2em;
font-weight: bold;
page-break-before: always;
}
h2 {
text-indent: 0;
text-align: center;
margin: 50px 0 0 0;
font-size: 1.5em;
font-weight: bold;
page-break-before: always;
}
p {
margin: 0;
display: block;
text-indent: 2em;
margin: 1em 0;
}
@media amzn-kf8 {
span.dropcap {
font-size: 300%;
font-weight: bold;
height: 1em;
float: left;
margin: -0.2em 0.1em 0 0.1em;
}
p.clearit {
clear: both;
}
ol, ul, li, dl, dt, dd {
margin: 0;
padding: 0;
border: 0;
font-size: 100%;
vertical-align: baseline;
}
/*==Lists ==*/
ul {
margin: 1em 0 0 2em;
text-align: left;
}
ol {
margin: 1em 0 0 2em;
text-align: left;
}
table {
border-collapse: collapse;
border-spacing: 0;
margin: 1em auto;
}
tr, th, td {
margin: 0;
padding: 2px;
border: 1px solid black;
font-size: 100%;
vertical-align: baseline;
}
}
@media amzn-mobi {
/* pseudo dropcaps for e-ink Kindles */
span.dropcap {
font-size: 1.5em;
font-weight: bold;
}
}
2. 章节
依次添加章节内容,如下图
3. 目录
点击编辑目录
按钮,因为我们使用标准的标题标签,所以可以直接自动生成,点击从所有的标题中生成目录
即可。
4. 其他
书籍版权页、书籍封面这些都可以自己慢慢研究添加,这里不多赘述了。
5. 发布到zlibrary
登陆到zlibrary中,直接上传,并且编辑数目内容即可。(略)
总结
以上就是一篇简单快速的整理epub电子书的教程,这些内容都是我实际操作得出来的,同时整理的电子书绝对不能用于任何商业上的用途,仅限于自己学习使用,因为涉及版权,请各位重视!
这篇文章只是管中窥豹的介绍,很多电子书的制作教程更加规范,更加的系统,请自行搜索阅读,同时这也是一本简单的ocr扫描pdf并且转成文本的教程,主要还是用到了腾讯云的功能,感谢腾讯云每个月免费提供的1000次调用,可以学习到不少东西!点赞,推荐!
本文来自:[EPUB]第一次完整整理一本电子书-小码农,转载请保留本条链接,感谢!
- 本文标签: epub orc PDF
- 本文链接: https://djc8.cn/archives/epub-organize-an-ebook-completely-for-the-first-time.html
- 版权声明: 本文由小码农原创发布,转载请遵循《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权